Chain of thought 再現実験

Chain of thought の再現実験を gpt3.5 と gpt4o で行ったので結果を示す。再現実験コード置き場

実験設定

使用するデータセット

GSM8K から50問をランダムにサンプリング

使用する LLM

gpt-3.5-turbo
gpt-4o-2024-08-06

使用する prompt

論文と同じ CoT prompt
論文と同じ Standard prompt

temperature = 0 に設定、max_tokens=512 に設定し推論を行う使用した prompt は prompt に記載がある

結果

以下に正答率を示す。結果、gpt-3.5-turbo の CoT prompt において 42% から 80% と著しく性能が向上した。ただし gpt-4o では Standard prompt と CoT prompt において性能に差がみられなかった。ただし50問と小さなサンプルでの結果であり、より厳密な比較には今後サンプル数を増やした検証が必要である。

gpt-3.5の出力ログ

	standard prompt	CoT prompt
gpt-3.5-turbo	42%	80%
gpt-4o-2024-0806	92%	92%

考察

gpt-3.5 では性能が向上したが CoT prompt によって gpt-3.5 が持つ潜在的な推論能力が誘発された結果と考えられる。Standard prompt では 42% と推論能力が低い。gpt3.5 は gpt-4o に比較すると推論の内部表現が十分に強くなく、Standard prompt では推論能力が十分に発揮されない。一方で、 CoT prompt によって推論過程を外部化することでその潜在的な推論能力が顕在化し、精度が大きく向上したと考えられる。

gpt-4o では Standard prompt と CoT prompt では性能に差がなく、どちらも高精度を示している。このことは GSM8K のような多段階推論を必要とする問題に対して CoT prompting を明示的に与えなくても、内部で潜在的な推論 ( 暗黙的 CoT ) を自発的に実行している可能性を示唆している。

以上から論文内で使用された小規模モデルでは推論能力が低く CoT prompt による推論能力は創発されない。しかし、gpt-3.5 になると CoT prompt による推論の外部化により推論能力が創発される。さらに gpt4o になると CoT prompt なしに潜在的な推論能力が自然と発揮されることとなり非常に興味深い結果になった。

今後の展開

なぜ gpt4o になると LLM の内部で暗黙的 CoT の能力が創発されるのかをモデルの構造、transformer の仕組み、scaling law による創発現象の観点から考察を行う

ygiboのブログ

gpt3.5 と gpt4o の推論能力の違い: Chain of thought 再現実験

Chain of thought 再現実験

実験設定

結果

考察

今後の展開