米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。

【その他の画像】

 この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

 研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

 実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。

 論文では、実験で明らかになった「弱点」を挙げている。

●数字や言い回しを変えると混乱する

 例えば、ある問題をLLMが解けたとしても、その問題の数字を変えたり、少し言い回しを変えただけで、正解率が大きく下がった。

 これは、LLMが問題の本質を理解して解いているのではなく、訓練データで見たパターンを単純に当てはめているだけである可能性を示唆している。

●問題が複雑になると混乱する

 簡単な問題なら解けても、問題文が長くなって複雑になると、LLMの正解率は下がり、さらに答えのばらつきも大きくなる。

 例として、公衆電話からの通話料金に関する問題をベースに、問題の難易度を4段階に調整した結果の正解率を、米GoogleのGemma 2や米OpenAIのGPT-o1 mini、米MicrosoftPhi-3.5で調べたところ、いずれのLLMも難易度が上がると正解率が下がった。

 4レベルの問題の内容は、以下の通り。一番上が最も簡単なものだ。

・電話ボックスから電話をかけるには、1分あたり0.6ドル掛かります。60分の通話料金はいくらですか?

・電話ボックスから電話をかける場合、1分あたり0.6ドル掛かります。10分を超えると、料金は1分あたり0.5ドルに下がります。60分間の通話はいくらですか?

・ホテルの部屋の電話から電話をかける場合、1分あたり0.6ドル掛かります。10分経過すると、料金は1分あたり0.5ドルに下がります。通話開始から25 分経過すると、料金はさらに下がり、1分あたり0.3ドルになります。60分間の通話はいくらですか?

・ホテルの電話から電話をかける場合、1分あたり0.6ドル掛かります。10分経過すると、料金は1分あたり0.5ドルに下がります。通話開始から25分経過すると、料金はさらに下がり、1分あたり0.3ドルになります。合計請求額が10ドルを超える場合は、25%割引になります。60分間の通話料金はいくらですか?

●無関係な情報に惑わされる

 問題文に、一見関係がありそうだが、実際には回答に全く影響しない情報を追加すると、間違えやすくなる。

 例えば、「キウイを〇個収穫した。ただし、そのうち△個は小さかった」という問題で、LLMは関係のない「小さいキウイの数」を全体のキウイの数から引いてしまうという間違いをした。

 これは、LLMがトレーニングデータで「割引」という言葉が出てきたら「掛け算」をする、といったパターンを機械的に学習しているために起こると考えられる。

 研究者らは、LLMの限界を克服できるかどうかについては明言していない。現在のLLMが真の数学的推論能力を獲得するには、パターン認識を超えた、より高度な推論能力の開発が必要であると結論付けている。特に、問題の本質を理解し、無関係な情報を適切に処理できる能力の向上が不可欠であると指摘する。

キウイの数の問題(Image Credits:Mirzadeh et al)