#124: GAIA: a benchmark for General AI Assistants

LLM に解かせる難問集と採点結果を向井が睨みました。

LLM に解かせる難問集と採点結果を向井が睨みました。ご意見感想などは Reddit やおたより投書箱にお寄せください。iTunes のレビューや星もよろしくね。