2025-12-25

なぜGPT-4oに『考えるな』と命じても正答できるのか？推論の潜在変数化と人間が果たすべき役割

AI Agent LLM

(前回の Reasoning Gate の活用について考えていたら以下のアイデアを思いついたので掲載する。ただ、すこし思想寄りになったのとブログ用に丁寧語になっているのが気に入らない人もいるかも。scaffolding を用いた説明は ChatGPT が思いついた）

1 高知能との対話

一般に「IQ が 20 違うと問題の設定・前提・重要度の置き方がずれて会話がかみ合わなくなる」ということが言われています。実際に最近の LLM と対話していると圧倒的な知識量とその知識からの推論によりその正しさが絶対的に思えてしまうことがあるかもしれません。

ただし、専門的な目から見ると一貫性のない回答だったり、推論の誤り等もあり LLM との対話ではそういった点を見抜く必要があります。また、LLM との対話は言語を通して行われるため、言語能力が発展途上である子供などには理解が難しいという点もあります。

1.1 LLM を使いこなすために

このように LLM の知能が高くなることにより LLM を使いこなせる人たちは限られてきます。

そして、現在、LLM の開発はより賢くより効率的に問題を解決できるように開発が進められており、この LLM と人の知能のギャップに対して何らかの解決方法がなければ取り残される人々が出てきてしまいます。

2 LLM は"考えすぎている"のか?

Chain-of-Thought では LLM に明示的に推論を出力させることで問題解決能力を高める手法です。これがなぜ効果的かというと、考え方を書かせると LLM が正しく考えられるからです。

この点が本当にそうなのか？つまり、もしそうなら考え方を書くことを禁止した瞬間に LLM は全く考えられなくなるはずです。

2.1 LLM の思考の禁止に関する実験

そこで次の算術推論に関する実験を行いました。

通常の few-shot prompt
そこに「Do NOT show your reasoning steps」を追加

つまり、「考えるな、答えだけを出せ」と指示を行い実験を行いました。そして結果は次の通りでした。

GPT-3.5: 正答率が約 80 % $\to$ 約 30 %
GPT-4o: 正答率が約 90 % $\to$ 約 50 %

特筆すべき点は GPT-4o でも正答率が 50 % と半分以上正しく答えられています。算術推論の問題であり正しく答えるためには推論が必須な問題においてです。

2.2 実験結果からの示唆

この結果は次の可能性を示唆しています。

GPT-4o は「考え方を書いていないだけで、内部では考えているのではないか？」

つまりここで起きているのは推論の出力を禁止しても

「考えていない」のではなく
- 「考えているが、それを外に出していない」
という可能性があります。そして
GPT-3.5 では推論を外に出させないと性能が大きく崩れ
GPT-4o では外に出さなくてもある程度正しく解けています

ここまでの結果を見ると、LLM の推論には少なくとも次のような状態がありそうです。

推論を完全に止めている状態
推論はしているが、外には出していない状態
推論をそのまま外に出している状態

次の章で、これらの「推論の抑制」、「暗黙的推論」、「明示的推論」という３つの状態として整理します。

2.3 推論の３つの状態

前章から推論の３つの状態が存在している可能性を示唆しました。これらは

Suppressed reasoning (推論の抑制)
Implicit reasoning (暗黙的推論)
Explicit reasoning (明示的推論)

となり、1. 推論の抑制は推論を禁止し LLM に出力させる、つまり、推論はせず直感的に出力させるモード、2. 暗黙的推論は LLM のモデルの内部だけで推論させるつまり頭の中だけで推論を行うモード、3. 明示的推論は推論を出力させるて答えを導く、つまり、紙に推論、考え方を記述しながら答えを求めるモードと直感的に説明できます。

2.4 prompt による推論の状態の制御

このような LLM の推論の仕方は prompt で制御が可能と思われ、これまで prompt は LLM の出力の仕方を制御するものと思われていましたが、上記のような推論の状態を制御している可能性があります。このような推論の状態の制御について次の章で整理します。

3 Reasoning Gate : LLM の知能の制御の仕組み

前章では、LLM の推論には少なくとも３つの状態が存在する可能性を示しました。

推論を完全に止めている状態
推論をしているが、外には出していない状態
推論をそのまま外に出している状態

重要なのはこれらが別々のモデルや能力ではなく、同一の LLM の中で切り替わっている点です。

3.1 推論はどれを使うかが重要

これまでは LLM に対してより賢いか？より複雑な推論できるか？という観点から LLM を評価してきました。

しかし、これまでの実験結果を見るとより正確なのは次の問いです。

LLM は今、どの推論モードを使っているのか？

つまり、能力の有無ではなく、選択の問題と考えられます。

3.2 prompt は出力ではなく知能の使い方を選んでいる

これまで prompt は

出力形式を整えるもの
口調や役割を指定するもの

として理解されてきました。しかし、今回の結果から prompt はそれ以上の役割を持っていることが分かります。

推論を書かせる prompt $\to$ 明示的推論モード
推論を禁止する prompt $\to$ 推論の抑制モード
推論を指定しないが few-shot を与える $\to$ 暗黙的推論モード

つまり prompt は、LLM の「どの知能の使い方を有効にするか」を選択しているととらえることができます。

3.3 Reasoning Gate という見方

このように、prompt によって推論の状態が切り替わる仕組みをこのブログでは Reasoning Gate と呼んでいます。

Reasoning Gate とは、

LLM の内部に存在する複数の推論モードのうち、どれを使うか制御するゲート

そのため

ゲートを閉じると推論は抑制され、即答に近いふるまいになる
半開にすると推論は内部で行われるが外に出ない
全開にすると推論がそのまま言語として出力される

このゲートはモデルの外部つまり prompt によって操作可能となります。

3.4 GPT-3.5 と GPT-4o で何が違うのか

ここで、GPT-3.5 と GPT-4o の違いを Reasoning Gate の観点から整理します。

GPT-3.5
- デフォルトではゲートが閉じ気味
- system-level の few-shot によって初めて安定して開く
- 推論を禁止すると、ほぼ完全に性能が崩れる
GPT-4o
- デフォルトでゲートが半開〜全開
- 推論を禁止しても、完全には閉じない
- 内部推論が常在している可能性が高い

これは、GPT-4o では推論が 一時的な振る舞いではなく、内部表現として定着している ことを示唆しています。

3.5 知能を制御できると何が嬉しいのか

ここで話を冒頭の「高知能との対話」に戻します。 LLM が賢くなればなるほど、

推論が深くなる
抽象度が高くなる
人間との知能ギャップが広がる

という問題が生じます。

Reasoning Gate の考え方は、この問題に対して次の視点を与えます。

知能は高ければ良いのではなく、
調整できて初めて使いこなせる

推論をあえて抑制する、
推論を外に出させる、
あるいは内部に任せる。

これらを意識的に切り替えることで、
LLM は「賢すぎて扱いづらい存在」から
対話可能な知能へと変わります。

4. 知能の制御ができると LLM は使いやすくなる

LLM の知能を制御することで以下の３つの場面が考えられます。

推論を抑制した方が良い場面
明示的推論が必要な場面
暗黙的推論に任せる場面

推論を抑制したほうがいい場面

これは論理的な結論が必要な場面ではなくブレインストーミングなどのいろいろなアイデアが必要なケースで必要となります。また、ほかにも日常会話等でも推論が必要ない場面が多くあります。

明示的推論が必要な場面

これは解決のための推論が複雑になるケースで重要であり、その推論過程も含めて正しさを検証することが可能です。専門家の問題解決タスクでは解法だけでなくその判断に至った過程も重要であり明示的推論が必要になります。

暗黙的推論が必要な場面

これは問題解決のために推論は必要だが、複雑な推論は必要ないケースで有用となります。暗黙的推論により LLM の推論コストを削減することが可能となります。

以上のように 知能は高ければ良いのではなく、調整して使えるという点が重要と考えられます。

5. LLM を「訓練」するのではなく「対話を訓練する」

また、子供などの言語的能力が発展途上の場合において LLM の知能を制御し対話を行い、徐々に行動な対話へと移行することで LLM との対話能力を伸ばしていく必要もあります。これにより子供のうちから LLM との対話を通して言語能力を育てていきより高度な知性を育てていくことにつながります。

人間側のスキルとしての prompt

これまで prompt は、「うまく書ける人だけが使える特殊な技術」のように語られることが多くありました。しかし、Reasoning Gate の観点から見ると、prompt はまったく別の意味を持ちます。 prompt とは、 LLM に対して「どの知能モードを使ってほしいか」を伝える対話スキル です。

これは人間同士のコミュニケーションと非常によく似ており

相手にすべて考えさせるのか
途中の考え方を説明してもらうのか
結論だけを端的に求めるのか

私たちは日常的に、相手の理解度や状況に応じてこれらを使い分けています。 LLM との prompt も本質的には同じです。

つまり、prompt とは LLM を操作するコマンドではなく、
知能差のある相手と会話するためのスキルだと捉えることができます。

scaffolding（足場かけ）としての推論外部化

教育心理学には scaffolding（足場かけ） という概念があります。

これは、学習者が自力では到達できない課題に対して、

途中の手順を示す
分解して考えさせる
必要な部分だけ支援する

といった「一時的な支え」を与え、
徐々にその支えを外していく手法です。

Chain-of-Thought による推論の外部化は、
この scaffolding と極めてよく似ています。

推論を書かせる $\to$ 問題の分解・前提・因果関係が明示される
人間はその推論を確認し、理解し、修正できる
LLM 側も推論の誤りを検出しやすくなる

この段階では、 あえて推論を外に出させることが重要です。それは LLM のためだけでなく、 人間側が LLM の思考に追いつくためでもあります。

補足：Adaptive Reasoning との違い

ここまで、prompt や推論外部化を通じて
人間側が LLM の推論を調整していく という考え方を述べてきました。

一方で、最近の LLM では Adaptive Reasoning と呼ばれる仕組みが導入されています。

Adaptive Reasoning とは、 LLM 自身が問題の難易度や状況を判断し、

深く考えるべきか
簡潔に答えるべきか
推論をどの程度行うか

を 内部で自動的に調整する 仕組みです。

一見すると、「それなら人間が prompt を工夫する必要はないのでは？」と思うかもしれません。しかし、ここには重要な違いがあります。

Adaptive Reasoning は、 LLM が自分自身の効率や安定性を最適化するための仕組み です。

一方で、これまで述べてきた Reasoning Gate の考え方は、

人間と LLM の知能ギャップをどう埋めるか

という問題を扱っています。

Adaptive Reasoning が解決しようとしているのは、

計算コスト
応答速度
安全性

といった モデル内部の最適化 です。

それに対して Reasoning Gate は、

人間が理解できるか
学習・成長につながるか
対話が成立しているか

という 人間中心の問題 を扱います。

このため、Adaptive Reasoning が存在しても、

推論を外に出して理解したい場面
思考過程を確認・修正したい場面
教育的に段階的な対話を行いたい場面

では、依然として 人間側からの制御 が重要になります。

重要なのは、
Adaptive Reasoning と Reasoning Gate は 競合する概念ではない
という点です。

Adaptive Reasoning は
Reasoning Gate の「内側」で動作する内部最適化であり、

どの推論モードを使うか（Reasoning Gate）
その中でどれだけ考えるか（Adaptive Reasoning）

という 階層構造 として捉えることができます。

図解：Reasoning Gate と Adaptive Reasoning の階層構造

徐々に暗黙化する使い方

また、scaffolding は 永続的なものではない という点です。

学習が進めば、
途中式を書かなくても答えが分かるようになります。

LLM との対話も同様です。

最初は推論を明示的に出させる
推論のパターンや癖を理解する
正しさを検証できるようになる
徐々に推論を内部に任せる

このようにして、
推論は 明示的 → 暗黙的 へと移行していきます。

GPT-4o のようなモデルでは、
この暗黙的推論がすでに内部表現として安定しているため、必ずしも毎回推論を外に出させる必要はありません。

しかし、それは推論を理解し、信頼できる段階に到達しているからこそ可能 だと言えます。

6 AI Agent への示唆：知能を動的に切り替える

ここまでの議論から、重要な結論がひとつ導かれます。

AI Agent は、常に「賢く考える」べきではない

という点です。

これは直感に反するかもしれません。
しかし、これまで見てきた実験結果と Reasoning Gate の考察を踏まえると、
むしろこちらの方が自然な結論です。

Agent は常に推論すべきではない

Chain-of-Thought や高性能 LLM の登場以降、

できるだけ深く考えさせる
できるだけ賢いモデルを使う
できるだけ推論を引き出す

ことが「良い Agent」だと考えられがちでした。

しかし実際には、

単純なタスク
明確なルールがある処理
すでに答えがほぼ決まっている場面

においてまで、
重い推論を回す必要はありません。

むしろそのような場面で推論を行うと、

応答が遅くなる
コストが増える
誤った一般化や過剰な説明が発生する

といった問題が起こります。

これは人間でも同じです。

毎回、足し算を論理的に証明し直す人はいない
慣れた作業では「考えずに」動く
必要な場面だけ、深く考える

AI Agent も同様に、
「考える／考えない」を切り替える存在であるべきです。

状況・ユーザ・コストに応じて切り替える

では、何を基準に切り替えるべきでしょうか。

本記事で導入した Reasoning Gate の考え方を使うと、
次の3つの軸が浮かび上がります。

1. 状況（タスクの性質）

定型処理 → 推論を抑制
探索・設計・分析 → 明示的推論
曖昧だが経験則が使える → 暗黙的推論

2. ユーザ（理解度・目的）

初学者・教育用途 → 推論を外部化
熟練者・高速作業 → 暗黙的推論
意思決定責任がある場面 → 明示的推論

3. コスト（時間・計算・安全性）

低レイテンシ重視 → 推論を抑制
品質重視 → 推論を許可
不確実性が高い → 推論を拡張

ここで重要なのは、
これらはすべて動的に変わるという点です。

つまり Agent に求められるのは、

「常に賢いこと」ではなく
「賢さの出し方を切り替えられること」

です。

Adaptive Reasoning Agent という方向性

この文脈で見えてくるのが
Adaptive Reasoning Agent という設計思想です。

これは単に、

LLM が内部で推論量を調整する（Adaptive Reasoning）

という話ではありません。

それに Reasoning Gate を組み合わせ、

推論するかどうか
推論を外に出すかどうか
推論をどのレベルまで行うか

を、

タスク
ユーザ
対話の文脈

に応じて 動的に切り替える Agent です。

言い換えると、

Adaptive Reasoning Agent とは
知能を「固定値」ではなく「可変パラメータ」として扱う Agent である

ということです。

人間と AI の関係が変わる

この視点に立つと、
AI Agent は「常に上位知能として振る舞う存在」ではなくなります。

教師にもなる
生徒にもなる
黙って作業する道具にもなる
一緒に考えるパートナーにもなる

その切り替えを支えているのが、

Reasoning Gate（外部からの制御）
Adaptive Reasoning（内部での最適化）

という 二層構造 です。

次に来る問い

最後に、自然と次の問いが浮かびます。

では、人間は
どのようにしてこの「知能の切り替え」を使いこなせるようになるのか？

それは LLM を訓練する話ではありません。
人間側の対話能力をどう育てるかという問題です。

この問いに対する答えとして、
本記事で述べてきた

推論の外部化
足場かけ
徐々な暗黙化

というプロセスが、
AI Agent 時代の新しい「学習曲線」になると考えられます。

7. まとめ：LLM の知能は「固定値」ではない

本記事では、Chain-of-Thought を起点として、

推論を 抑制・暗黙・明示 の3状態に分類し
推論生成が prompt によって制御されうること
モデルサイズの増大により暗黙的推論が創発すること
その制御機構を Reasoning Gate として整理できること

を、実験と考察を通して見てきました。

ここで重要なのは、
LLM の知能が「固定された能力」ではないという点です。

同じモデルであっても、

prompt の置き方
推論の許可・禁止
system / user の条件付け
モデル内部の適応的推論

によって、
まったく異なる知能レベル・振る舞いを示すことが明らかになりました。

知能を「高くする」から「制御する」へ

これまでの LLM 開発は、

より大きく、より賢く

という方向に進んできました。

しかし本記事の議論が示すのは、
次のフェーズではそれだけでは不十分だということです。

これから重要になるのは、

どれだけ賢いかではなく
どの賢さを、いつ、どの程度使うか

という 知能の制御 です。

人間と LLM の関係は変わる

LLM が暗黙的推論能力を獲得したことで、

常に説明する教師
常に黙って答える計算機

のどちらか一方ではなく、

一緒に考える相手
思考を肩代わりする存在
学習の足場になる存在

として振る舞えるようになりました。その切り替えを可能にするのが、

外部からの Reasoning Gate
内部での Adaptive Reasoning

という二層構造です。

LLM を訓練する時代から、対話を訓練する時代へ

最後に強調したいのは、

これから必要なのは
LLM を訓練することではなく、人間側の対話を訓練すること

だという点です。

推論を外に出す
足場をかける
徐々に暗黙化する

というプロセスは、
人間が高度な思考を身につける過程とよく似ています。

LLM はその過程を 拡張・加速する知的インフラ になり得ます。

結論

優れた LLM 活用とは、
知能を最大化することではなく、
知能を調律することである。

2025-12-24

なぜCoTを禁止してもGPT-4oは賢いのか？推論の潜在変数化とAIエージェント設計への示唆

AI Agent LLM

CoT 再現実験のコードを調整していたら面白い現象を見つけたので以下にブログ用にまとめる

はじめに: なぜ CoT を禁止すると LLM は解けなくなるのか?

Chain-of-Thought (CoT) prompting の実験を行うと LLM の推論能力の誘発について以下の点が発生しました

GPT-3.5 では CoT を禁止すると正答率 80% -> 30% 程度まで落ちる
GPT-4o では禁止しても 90% -> 50% 程度にしか落ちない

これは、LLM に推論、つまり、「考えさせる」と賢くなるのか？それとも「考える能力」すでに内部にあって、prompt がそれを制御しているだけなのかという疑問が発生します．

そのため以下では、LLM の推論を「潜在変数」として捉えて，prompt が推論を制御するゲートとして機能しているという観点から、この現象の整理を行います．

LLM の推論は 3 つの状態に分けられる

LLM の推論を次の３つに分類します．

Suppressed reasoning (推論の抑制)
- 推論を明示的に禁止
- 即答のみを要求
- 正答率が大きく低下しやすい
Implicit reasoning (暗黙的推論)
- 推論は内部では行われている
- ただし出力には現れない
Explicit reasoning (明示的推論)
- 推論過程をそのまま出力
- Chain-of-Thought がこれにあたる

また、確率的にみると、これは次のように整理ができます。

推論を抑制した場合
- $P(a|x, z \approx \emptyset)$
推論を内部で周辺化している場合
- $P(a|x) = \sum_z P(a|z, x)P(z|x)$
推論を外部化した場合 (CoT)
- $P(a, z | x_{cot})$

ここで重要なのは、prompt は出力だけではなく、推論変数 $z$ の生成確率そのものを制御しているのではないかという点です。

実験: prompt の置き方を変えると何が起きるか

この仮説を確かめるために以下の条件で実験を行いました。

使用モデル

GPT-3.5
GPT-4o

使用 prompt

CoT 論文で使われている Standard prompt
推論禁止文：「Do NOT show your reasoning steps.」

prompt の入力方法

user message に few-shot + 問題
user message に few-shot + 禁止文 + 問題
system message に few-shot、user message に問題
system message に few-shot + 禁止文、user message に問題

結果：GPT-3.5 と GPT-4o はまったく違う

GPT-3.5 の結果

条件	Prompt 構成	正答率	推論の状態
①	user: few-shot + Q	28%	暗黙推論ほぼ不発
②	user: few-shot + 禁止 + Q	32%	暗黙推論ほぼ不発
③	system: few-shot / user: Q	82%	明示的推論が誘発
④	system: few-shot + 禁止 / user: Q	28%	推論が抑制

$\to$ system prompt に few-shot を置いた瞬間に推論が発火する

GPT-4o の結果

条件	Prompt 構成	正答率	推論の状態
①	user: few-shot + Q	96%	明示的推論が誘発
②	user: few-shot + 禁止 + Q	48%	暗黙推論が強く抑制
③	system: few-shot / user: Q	96%	明示的推論が誘発
④	system: few-shot + 禁止 / user: Q	58%	暗黙推論が部分的に残存

$\to$ 推論を禁止しても、完全には止まらない

何が起きているのか？

GPT-3.5 の場合

暗黙的推論能力が弱い
user-level の few-shot では推論が起きない
system-level の条件付けで初めて推論モードに切り替わる
推論を禁止すると即座に性能が崩壊

GPT-4o の場合

推論が内部表現として常在
user / system の違いがほぼない
推論を禁止しても 暗黙的に残り続ける

モデルサイズが大きくなると、なぜ推論が「常在」するのか？

ここで重要なのが モデルサイズと内部表現の変化です。

Attention と中間表現の観点

モデルサイズが大きくなると

Transformer の層が深くなる
Attention head が増える

その結果、

浅い層：表層的特徴
中間層：抽象的特徴
深い層：推論的表現の統合

が可能になります。

特に Attention head の増加は、

複数の推論パスを 並列に保持・更新
潜在的な推論過程を安定して内部に保持

することを可能にします。

Reasoning Gate という見方

以上をまとめると、次のように捉えられます。

prompt は、LLM の推論変数 $z$ の生成を制御する「ゲート」である

GPT-3.5
- デフォルトではゲートは閉じている
- system-level few-shot で開く
GPT-4o
- ゲートはほぼ常時開
- 禁止しても完全には閉じない

この仕組みを Reasoning Gate と呼ぶこととします。

AI Agent 設計への示唆

このように推論を制御する視点を導入した場合、問題のタイプによって推論が効果的かそうでないかや推論のコストを測り、有効な場合は ON、有効でない場合は OFF にするという考えが導入されます．

Planner / Tool-use / Reflection を組み合わせる Agent において、推論をオンにするとコスト・誤りが増えるような場合にReasoning Gate 的な制御が不可欠になると考えられ、そのために、推論の視点から問題を考察し生成を最適化するということを考える必要があります。

まとめ

LLM の推論は 抑制・暗黙・明示の 3 状態に整理できる
prompt は出力ではなく 推論生成を制御している
GPT-4o では推論能力が内部表現として創発している
Reasoning Gate は LLM と Agent を理解するための有用な視点

2025-12-21

AI Agent への道2: ReAct 論文まとめ

AI Agent LLM 論文

論文: ReAct: Synergizing Reasoning and Acting in Language Models

読解の目的

これまでの手法 (CoT, Self-Consistency)

プロンプトや推論アルゴリズムを工夫し LLM の内部の推論能力を引き出す技術

ReAct

さらに推論アルゴリズムを工夫し、LLM の推論結果に基づき行動を選択し、環境から新しい情報を得ることで推論を改善する
これまでが推論単体だったのに対し「推論 + 行動」を LLM を用いて行う
これにより LLM が AI agent として環境を操作できるようになり AI Agent の初期のアイデアを成している

Abstract

これまでの研究

LLM は言語理解や対話的意思決定問題において優れた性能を発揮
しかし、推論(例: CoT) と行動 (例: 行動計画生成) の能力は別々に研究されていた

本研究

ReAct アプローチ
- 推論トレース (reasoning traces) とタスク固有の行動 (task specific actions) を交互に生成することで LLM の性能を高めることを検討
- 推論トレースはモデルが行動計画を誘導、追跡、更新するのに役立ち、例外を処理する能力を向上させる
- 行動は知識ベースや環境などの外部ソースの追加情報の収集を可能にする
ReAct の有効性の検証
- ReAct を様々な言語と意思決定タスクに適用し性能の向上に加えて人間の解釈可能性と信頼性の向上を示す
- 質問応答 (HotpotQA)と事実検証(Fever) において Wikipedia API と対話しながら推論トレースを生成しタスク解決の軌跡を示すことでハルシネーションの問題と Chain-of-thought 推論の推論の誤りの伝播を防ぎ、推論トレースを示すことで解釈可能性を高めることができた
- 対話型意思決定ベンチマークにおいて (ALFWorld, WebShop) において模倣学習や強化学習の手法の成功率をそれぞれ 34 %, 10 % 上回った

メモ

ReAct では推論トレース (reasoning trace) は以下であり Planner / Controller / World Model の原型
- 正解を説明するためのものではなく
- 次の行動を決めるための中間状態
ReAct は CoT や SC のように閉じた推論ではなく、開いた制御ループを持つ（オンライン意思決定ループ）
- Toolformer / AutoGPT / LangChain Agent/ WebGPT / Reflexion の原型となる
解釈可能性は副残物
LLM は推論器のみではなく次の行動を planner を内包している
Action, Observation, Reasoning を統合する視点により ReAct = モデルフリー RL + 明示的推論

1. Introduction

人間の知能の特徴

言語的推論とタスク指向の行動をシームレスに組み合わせた能力
これは自己調整や戦略をワーキングメモリの維持を可能とする人の認識の中で重要な役割を持つと考えられ理論化されている。
料理の例として
- 進捗状況の把握: 今、すべてがカットされたので鍋の水を温めるべきだ
- 状況に応じて計画の調整: 塩がないので代わりに醤油と呼称を使おう
- 外部情報の必要性に気付く: 生地の準備の仕方をインターネットで調べよう
行動の役割として以下が考えられる
- 推論をサポートするために行動を行う: 料理本を開いてレシピを読む、冷蔵庫を開けて材料を確認）
- 質問に答えるために行動を通じて推論を補完する: 今、どんな料理を作れるか？
以上のように行動と推論の相乗効果により以下が可能
- 新しいタスクを迅速に学ぶこと
- 未知の状況や情報の不確実性に対しても強固な意思決定や推論を行うことができる

メモ: まとめると

行動と推論の組み合わせが重要で以下が可能になる
- それまでの推論や行動の結果等で現在の状況を把握
- 現在の状態から次の行動を計画
- 足りない情報がある場合はそれを取得するように行動しする
これにより新しいタスクや未知の状況に対してロバストネスな意思決定、推論が可能になる

既存の研究

言語的推論と対話型意思決定に関する研究
- 言語的推論に関する既存の研究
  - Chain of thought (Wei et al., 2022)
    - CoT prompting により複数の推論ステップを実行する創発的能力を示した
    - Chain of thought 推論はモデル自身の内部表現を用いて思考を生成し推論を行う
    - ハルシネーションや誤りの伝播といった問題
- 行動・計画に関する既存の研究
  - 事前学習済み言語モデルを用いた対話環境での計画・行動（Ahn et al., 2022; Nakano et al., 2021; Yao et al., 2020; Huang et al., 2022a）
    - 言語的先験知識による行動予測
    - マルチモーダル観測をテキストに変換し、言語モデルを用いてドメイン固有の行動や計画を生成した後、コントローラーでそれらを選択・実行する。
    - ただし、一部を除き、高次目標について抽象的に推論したり、行動を支えるワーキングメモリを維持するために言語モデルを活用するものではない。
    - 一般的な課題解決のために推論と行動を組み合わせる方法や組み合わせた結果が単独の推論や行動にどのような影響を与えるか比較した研究は存在しない

メモ: 既存の研究の問題点をまとめると

言語的推論に関する既存の研究に関して
- ハルシネーションの問題
- 推論の誤りの伝播
行動・計画に関する既存の研究に関して
- LLM の推論能力と行動・計画を組み合わせて一般的な課題解決を評価が必要

本研究

提案手法
- 推論と行動を言語モデルと統合する汎用パラダイム「ReAct」の提案
- ReAct は、LLMに対しタスクに関連する言語的推論の軌跡と行動を交互に生成する
- これにより、モデルは動的な推論を行い、行動のための高次計画を作成・維持・調整することで以下が可能になる
  - 推論して次の行動を決定する
  - 行動して推論: 外部環境（例：Wikipedia）と対話して追加情報を推論に取り込む
実験評価
- ReActと最先端ベースラインを4つの多様なベンチマークで実証評価する
  - 質問応答（HotPotQA, Yang et al., 2018）
  - 事実検証（Fever, Thorne et al., 2018）
  - テキストベースゲーム（ALFWorld, Shridhar et al., 2020b）
  - ウェブページナビゲーション（WebShop, Yao et al., 2022）
- 外部知識の獲得に関して
  - HotPotQAとFeverでは、Wikipedia APIを利用を利用し CoT と競合する性能を示した。
結果
- 最良のアプローチは、推論時に内部知識と外部取得情報の両方を利用可能な ReAct と CoT の組み合わせ
- ALFWorldとWebShopでは、2-shot あるいは One-shot ReActプロンプティングが、103～105のタスクインスタンスで訓練された模倣学習法や強化学習法を成功率でそれぞれ34%と10%の絶対的改善を達成
- 行動のみを用いたベースラインに対して優位性を示し、意思決定における推論の重要性を実証
- 推論と行動の組み合わせは、全領域においてモデルの解釈可能性、信頼性、診断可能性にも寄与する
  - 人間はモデルが持つ内部知識と外部環境からの情報を容易に区別でき、推論トレースを検証することでモデル行動の意思決定根拠を理解できるため

まとめ

本研究の貢献
1. 汎用タスク解決のための言語モデルにおいて推論と行動を連携させる新たなプロンプトベースのパラダイム「ReAct」を導入した
2. 推論または行動生成のいずれかを単独で行う従来手法と比較し、少数の学習例で構成される学習環境においてReActの優位性を示すため、多様なベンチマークを用いた広範な実験を実施した
3. 推論タスクにおける行動の重要性、対話型タスクにおける推論の重要性を理解するための体系的なアブレーションと分析を提示
4. プロンプティング設定下でのReActの限界（推論・行動行動のサポート制限）を分析し、追加訓練データによるReActの改善可能性を示すファインチューニングを実施。ReActを拡張し、強化学習などの補完的パラダイムと組み合わせ、LLM の潜在能力をさらに活用することが可能

メモ

今までの研究
- LLM の潜在的な推論能力を引き出す研究がある
- 計画行動パイプラインを一貫して LLM で実現する研究はない
そのため、LLM を用いて計画行動パイプラインを構成して、計画時や行動の結果を用いた LLM の推論能力の活用により様々なタスクで有効性を示した
また、LLM を用いて計画・行動を一貫して行い推論、計画、行動を統合する仕組みを提案した

2. REACT: SYNEGIZING REASONING + ACTING

タスクを解決するために環境と相互作用する Agent の設定
- Agent は各時刻で環境の状態を観測、行動を選択し実行することをタスクが解決されまで繰り返す
- したがって step において Agent は
  - 観測 $o_t \in \mathbb O$ を環境から取得
  - そして行動 $a_t \in \mathbb A$ をポリシー $\pi(a_t|c_t)$ から選択する
  - このとき $c_t$ は時刻 $t$ までの観測と行動の系列 $c_t=(o_1, a_1, \dots, a_{t-1}, o_t)$ を表し Agent のコンテキストとする
- 一般的にポリシー関数 $\pi(a_t|c_t)$ を学習することで最適な行動を選択できるように学習し問題解決を行う
ReAct のアイデア
- Agent の行動空間を $\hat A = A \cup L$ とする
- は言語空間としは、
  - 思考または推論トレースと呼び、外部環境に影響を与えず観測フィードバックを生じない
  - 代わりに将来の推論や行動を支援のため、コンテキスト $c_{t+1}=(c_t, \hat a_t)$ を更新することを目指す
  - 図の例では以下がみられた
    - タスクを目標分解し行動計画を作成
    - 観測から重要な情報の抽出
    - 進捗の追跡と行動計画の移行
    - 例外処理と行動計画の調整
- メモ:
  - このような複雑な様々な状態の更新のような操作をプロンプトを用いて CoT prompting のように創発できるのかはこれまでの研究では示されていない
  - ReAct の prompting によってこのような行動を再現できると示されることは LLM の能力において驚異的だと印象がある
  - ただ、それを fine tuning なしに高精度で実現できるのかはここまで読んで疑問 (前章で fine tuning について言及があった) で後発の LLM の instruction learning で取り入れられてるのかもしれない
本論文の焦点
- 上記のような行動を創発させるためには強力な LLM が必要
- そのため PaLM-540B を用いて few-shot prompt を用いて行動と自由形式の言語思考の生成について焦点を当てる
- few-shot の例はタスクを解決するための人間の行動、思考、環境観察の軌跡（付録C）
- LLM の思考、行動、意思決定の方法について
  - 推論が重要なタスクでは思考と行動の生成を交互に行い、タスク解決が思考、行動、観察ステップから構成されるようにする
  - 多数の行動を伴う意思決定タスクでは思考と行動の発生については言語モデル自身に決定させる
ReAct のユニークな特徴
- 直感的で設計が容易
  - ReAct のプロンプトは人が実行しその思考を言語で入力するだけであり単純
- 汎用的かつ柔軟性が高い
  - 思考空間と思考と行動の発生形式により ReAct は様々なタスクに対応可能
- 高性能かつ頑強
  - 1~6個の例を context に例示し in-context learning によって新たなタスクに対して汎化能力を示す
- 人の連携と制御
  - 人が推論過程と事実の正確性を容易に検証可能
  - そのため解釈可能な逐次意思決定・推論プロセスを実現
  - リアルタイムに思考コンテキストを編集することで制御、修正可能

3. KNOWLEDGE-INTENSIVE REASONING

3.1 SETUP

知識集約的な推論タスクの問題から行う
- マルチホップ質問応答 HotPotQA (Yang et al. 2018)
  - 2つ以上の Wikipedia文章をまたいだ推論を必要とする問題
- 事実検証 FEVER (Thorne et al., 2018)
  - 各主張が Wikipedia 文章による検証に基づき以下にアノテーションされた問題
    - SUPPORT: 支持
    - REFUTES: 反証
    - NOT ENOUGH INFO: 情報不足
- 問題は質問、サポート文章、主張からなるが入力は質問/主張のみ
  - LLM の内部知識もしくは外部環境から知識を取得する必要
ReAct の行動空間
- ReAct の行動の概要
  - Wikipedia API を通じて推論を支える情報を取得できる $\in A$
  - 推論を用いて次に取得すべき対象を特定すること $\in L$
  - 推論と行動の両方が可能で相乗効果を狙う
- 行動の一覧
  1. search[entity]: entity の情報の取得もしくは類似 entity のリストの取得
    - 対応する entity の Wikiページが存在する場合その最初の５文を返す。
    - 存在しない場合は Wikipedia 検索エンジンから類似度上位５件のエンティティを提案する
  2. lookup[string]: ページ内で string を含む次の文を返す。ブラウザの Ctrl+F 検索をシミュレート
  3. finish[answer]: 回答を返し終了する
- 人の Wikipedia 操作を模倣し、言語による推論を通じて情報の取得をモデルに強制するように設計

3.2 METHOD

ReAct prompting
- few-shot prompting: 以下を使用し手作業で推論トレースを構成し few-shot prompt として使用
  - HotpotQA からランダムに６件取得
  - Fever からランダムに３件を取得
- 各推論トレースは思考-行動-観察ステップで構成
  - 自由形式での思考が様々に用いられる
  - 以下の思考が現れていた
    - 質問の分解: 「xを検索し、yを見つけ、次にzを見つける必要がある」
    - 観察から情報を抽出: 「xは1844年に始まった」、「この段落はxについて述べていない」
    - 常識推論: 「xはyではないため、代わりにzでなければならない...」
    - 検索再構成の誘導: 「代わりにxを検索/調べるべきか」
    - 最終回答の統合: 「...したがって答えはx」
ベースラインとなる prompt
- Standard prompt (Standard):
  - ReAct prompting の推論トレースの例から思考・行動・観察を削除したもの
- Chain of thought prompting (CoT-SC):
  - ReAct prompting から行動・観察を削除したもの
  - また Self-Consistency を行い多数決から答えを計算する
  - 設定として temperature=0.7, 21 の推論パスを使用する
- Acting-only prompt (Act):
  - ReAct prompting から行動のみを残したもの
内部知識と外部知識を統合した Hybrid の手法
- CoT-SC と ReAct を切り替えるヒューリスティック
  - ReAct $\to$ CoT-SC
    - ReAct が所定ステップ数内で回答を返せない場合 CoT-SC にバックオフ
  - CoT-SC $\to$ ReAct
    - SC の多数決で多数回答が n=2 未満の場合、つまり、内部知識に基づいて自信をもって回答できない場合に ReAct にバックオフ
小規模モデルのファインチューニング
- ReAct が生成した正解付きの 3000 個の推論トレースを小規模モデルのファインチューニングに使用する
- 対象のモデルは PaLM-8/62B

3.3 RESULTS AND OBSERVATIONS

結果
- Act より ReAct のほうが性能が高い
  - 自由形式の思考を用いた推論が効果がある
- ReAct vs CoT
  - Fever では CoT を上回る (60.9 vs 56.3)
  - HotpotQA では及ばない (27.4 vs 29.4)
  - 実際の推論をサンプリングして検証
    - A) CoT ではハルシネーションの問題により偽陽性率が ReAct より高く、ReAct では外部知識の活用により事実に基づいた推論トレースとなっていた
      - メモ: 内部知識のみの誤りが CoT だと修正されないため偽陽性につながる
    - B) 推論、行動、観察ステップの繰り返しと構造的制約が ReAct では推論の誤りをもたらしていた。思考と行動を反復的に生成する推論エラーが発生していた
      - メモ: ReAct での探索行動を LLM は学習していないためループに陥る。探索行動自体を instruction learning で学習する必要がある
    - C) 検索によって有益な知識を得ることが重要。そうでない非情報的な検索によってエラー事例の 23 %がそれにより推論を脱線させ思考の回復、再構築を困難にしていた (この事実から CoT-SC $\to$ ReAct, ReAct $\to$ CoT-SC のようなハイブリッドの手法が必要となった)
      - メモ: 関係ない情報を検索したことによって推論を脱線、誤りを生じさせる。検索してきた情報を有用化検証するプロセスも LLM が自律的に行う必要
- ReAct + CoT-SC が最高性能を記録
  - 外部知識とモデル内部知識、推論を適切に組み合わせることで性能が向上できる
- ファインチューニングによる小規模モデルの性能
  - few-shot prompting のみで推論、行動の両方を創発する必要があり、小規模モデルでは困難である。そのため４つの手法の中で ReAct が性能が一番引くい
  - そのため小規模モデルにファインチューニングを通して推論、行動の仕方を教えることで大きく性能が改善し、４つの prompt で最も性能が高くファインチューニングが効果的だった
  - ドメインに特化した最先端手法には大きく及ばないが、ファインチューニングによりさらに推論、行動能力が引き出される可能性がある
- メモ
  - つまり、HotpotQA で ReAct < CoT となったのは検索コストと検索、上納の探索の誤りがそのまま精度低下につながった
  - HotpotQA だと内部知識でとける問題が多く CoT でも高い精度で解決できる
  - ReAct では検索が推論時のノイズになる可能性がある
  - FEVER だと外部検証が本質となる問題で ReAct の検索行動が必要

DECISION MAKING TASKS

言語ベースの対話型意思決定タスク
- 難易度
  - 長期的な視点で疎な報酬を得ながら効果的に行動し探索するための推論が必要
- ベンチマーク
  - ALFWorld
    - ALFRED benchmark から作られたテキストベースのゲーム
    - 問題の詳細
      - ６種類のテキスト操作を通じたタスク
        
        例
        
        コーヒーテーブル１へ移動
        
        紙２を受け取る
        
        デスクランプ 1 を使用等
      - 高次目標の達成する必要
        
        例
        
        デスクランプ下の紙を調べる
      - 問題のインスタンス
        
        タスクインスタンスは 50 以上の場所を含む
        
        解決のためには 50以上のステップを要する
    - エージェントが解決するための必要な能力
      - サブ目標の計画・追跡、体系的な探索が必要
      - LLM の内部知識の常識知識を利用し一般的な家庭用品のありそうな場所を特定する
        
        例
        
        デスクランプは机、棚、またはドレッサーの上にある可能性が高い
    - ReAct の prompt 戦略
      - 訓練セットから３つの推論トレースを手動でアノテーションし使用
      - 以下の思考を含む（付録 C.4)
        
        目標の分解
        
        サブ目標の達成の追跡
        
        次のサブ目標の決定
        
        常識に基づく推論による対象物の所在と操作方法の決定
    - 比較対象
      - 各タスクタイプごとに 105 の専門家によるトレースで訓練された模倣学習エージェント BUTLER (Shridhar et al., 2020b)
  - WebShop
    - 問題の詳細
      - オンラインショッピングサイト環境
      - 118万点の商品、１万２千件の人による指示を含む
      - 構造化テキストを含む
        
        例: Amazon からクロールした商品タイトル、説明、オプション
      - 非構造化テキストを含む
      - ユーザー指示に基づいて商品を購入する必要
        
        指示の例: 「引き出し付きのナイトスタンドを探しています。ニッケル仕上げで、140ドル未満の価格体であるべき」という要件の指示
        
        エージェントの行動による解決:
        
        ナイトスタンド引き出しで検索
        
        色: モダンニッケルホワイトの条件の指定
        
        必要なら検索に戻る等のボタンの選択
    - 評価
      - ５００件のテスト指示において平均スコアと成功率で評価
        
        平均スコア: 選択された製品が満たす属性の割合を全エピソードで平均化
    - ReAct の prompt 戦略
      - 表６を参照
      - モデルの推論例は表１０を参照
    - 比較対象
      - 1,021 件の人によるアノテーションのトレースで訓練した模倣学習手法
      - さらに 10,587 件の訓練指示で追加訓練した模倣学習 + 強化学習手法
結果
- ReAct は ALFWorld, Webshop の両方で Act を上回る性能を示した
  - ALFWorld では ReAct が 71% の成功率を達成
  - Act では正しくサブゴールへの分解ができない、もしくは、環境の状態の推定の追跡ができなくなることを確認
  - Webshop でも従来の最高成功率を絶対値で 10 % 上回る改善
  - ReAct はノイズの多い観測値と行動の間のギャップを推論で埋めることで、指示に関連する製品やオプションを正確に特定できる
    - 例: 「『リビング用省スペースオットマンベンチ』の場合、商品には『39x18x18インチ』と『青』のオプションがあり、購入に適しているようだ」）。
  -　しかし、人の専門家の性能には遠く及ばない（表4）。専門家はより多くの商品探索とクエリを実行している
内部推論と外部フィードバックの効果
- 推論と行動の統合に関する近い研究
  - Inner Monologue (IM, Huang et al. 2022b)
    - エージェントの行動が inner monologue によって動機付けられている
    - ただし、環境の状態の観察、目標を達成するためのエージェントが完了すべき事項に限定
  - ReAct の推論トレースは限定されずに柔軟かつ疎であり多様なタスクに対して推論を誘導することが可能
- ReAct と IM の違いの検証
  - IM に似た外部フィードバックからなる思考パターンを用いてアブレーション実験を行う
  - 結果
    - ReAct prompting のほうが IM スタイルの prompting (ReAct-IM) を大幅に上回る性能を示した (71%対53%)
    - ReAct-IM は高次目標の分解が不足しサブ目標の完了時期や次のサブ目標の特定で誤りが多い
    - ReAct-IM は常識推論の欠如により ALFWorld環境内でアイテムがどこなる可能性が高いかを判断するのに苦労していた
    - ReAct によって上記の問題を対処可能
メモ
- 上記の問題では観測が部分的、冗長、曖昧であるという特徴がある
- また、行える行動が多様（ボタン、検索、移動、操作等）
- したがって、今何をしていて次に何をすべきなのかを言語で状態として保持することが重要（自然言語で状態をワーキングメモリ上に置く）
- 推論トレースが現在の状態の追跡や状態の確実性に関する信念を保持し、タスクの実行に関連づいたメモリとして機能
- 人に及ばないのは探索戦略が未熟なこと、長期的な視点の一貫性の保持がひつようなため

関連研究
- LLM の推論に関する研究
  - LLM の推論 (prompting) に関する研究
    - Chain-of-Thought (CoT, Wei et al., 2022)
      - LLM の問題の解決のための独自の「思考手順」を構築する能力を示した
    - least-to-most prompting (Zhou et al., 2022)
    - zero-shot-CoT (Kojima et al., 2022)
    - self-consistency (Wang et al., 2022a)
    - CoT の定式化と構造の研究 (Madaan & Yazdanbakhsh, 2022)
      - TODO 読む
  - LLM の推論アーキテクチャに関する研究
    - Selection-Inference (Creswell et al., 2022)
      - 推論プロセスを選択と推論の2段階に分割
    - STaR (Zelikman et al., 2022)
      - モデル自身が生成した正しい根拠を用いてモデルをファインチューニングすることで推論プロセスをブートストラップする
    - Faithful reasoning (Creswell & Shanahan, 2022)
      - 多段階推論を３つのステップに分解しそれぞれの専用言語モデルによって実行
    - Scratchpad (Nye et al., 2021)
      - 中間計算ステップで言語モデルをファインチューニングする
      - 多段階計算問題で改善を示す
  - ReAct の特徴
    - 固定推論を超える処理
    - モデルの行動と観察結果を一貫した入力ストリームに統合
    - これによりモデルは正確に推論し、推論を超えた対話型意思決定のようなタスクを行うことが可能
- 意思決定に関する研究
  - WebGPT (Nakano et al., 2021)
    - 言語モデルを用いて Web ブラウザと対話しウェブページをナビゲート
    - ELI5 (Fan et al., 2019) から複雑な質問への回答を推論する
  - ReAct との比較
    - WebGPT は思考と推論の手順を明示的にモデル化しない。代わりに強化学習のための高コストな人のフィードバックに依存している
    - 会話モデリングにおいてもチャットボット、タスク指向対話システムも API 呼び出しに関する意思決定を行うために言語モデルを訓練
      - チャットボット: BlenderBot (Shuster et al., 2022b)
      - タスク指向対話システム: Sparrow (Hosseini-Asl et al., 2020)
    - ReAct では意思決定プロセスが推論手順の言語記述のみを必要、低コストな方法でポリシーを学習する（メモ: prompting による模倣)
- ロボットの行動計画等の対話型、身体化された環境での研究
  - ロボットの行動計画と意思決定に LLM を利用する
    - SayCan (Ahn et al., 2022)
      - LLM にロボットが実行可能な行動を予測させ、再ランク付けを行い最終予測を行う
    - Inner Monologue (Huang et al., 2022b)
      - 環境からのフィードバックとして Inner monologue を追加し改善
      - Inner Monologue が閉ループシステムを実証した最初の研究
      - ただし、内部的思考を構成していない
    - 対話型意思決定プロセスにおいて言語を入力として活用する手法はほかの設定でも実証
      - Abramson et al., 2020
      - Karamcheti et al. 2021
      - Huang et al., 2022a
      - Li et al., 2022
- 汎用性の高いエージェントの開発
  - Reed et al, 2022

6. CONCLUSION

ReAct の提案
- LLM の推論と行動の相乗効果を実現
- シンプルで効果的な手法
評価結果
- 以下の多様なタスクで実験、優れた効果と解釈可能な意思決定トレースをもたらすことを示した
  - multi-hop question-answering
  - fact checking
  - decision-making
これからの展開
- 強化学習などの補完的パラダイムと組み合わせることで、より強力なエージェントを実現し多様な応用分野への展開

次の展開: 次は ReAct 論文の再現実験を行う。知識集約と意思決定の実験があったので2回に分けてあげる。ただ、ReAct 用に実験コードを調整していたら以前の結果が prompt の入力の仕方によって異なったのでそこの考察を先に上げるかも

2025-12-12

GPTの推論能力の進化: Self-Consistency 再現実験

AI Agent LLM 論文

Self-Consistency について再現実験を行った

実験設定

使用するデータセット

GSM8K から50問をランダムにサンプリング

使用する LLM

gpt-3.5-turbo

使用する prompt

Chain of through 論文と同じ CoT prompt

パラメータ

max_tokens=512
temperature=0.7, 0.9
推論サンプリング数 k=1, 5, 10, 40

結果

以下に正答率を示す。結果、gpt-3.5-turbo においてどの場合、 80%前後と性能が向上は見られなかった。50問と小さなサンプルでの結果であり、よりサンプル数を増やした検証を行うと結果が変わるかもしれない。

	k=1	k=5	k=10	k=40
gpt-3.5-turbo, temperature=0.7	80%	84%	76%	82%
gpt-3.5-turbo, temperature=0.9	86%	82%	84%	88%

考察

元の論文では GPT3 を使用しており、その場合に 10 ~ 20% ほど性能が向上していた。今回は gpt-3.5 を使用しており推論性能が向上しているため結果が向上しなかったと考えられる。

つまり、GPT3 のように一度の推論では誤る可能性があるが複数回の推論では平均的に正しい結果を得られる場合では性能の向上がみられ、gpt-3.5 のように CoT prompting による推論性能が高い場合は元から正答率が高く Self-Consistency を行っても性能は向上しなかったと考えられる。

これまでの実験結果をまとめ GPT 系の推論能力をまとめると

GPT3
- CoT prompting による明示的推論により性能が向上
- Self-Consistency により単発の推論の誤りを改善する
- 推論の多様性が大きく、多数決が効果的
gpt3.5
- CoT prompting による明示的推論により性能が向上
- ただし、推論能力が高いため推論の誤りが少なく多様性が低くくSelf-Consistency による能力向上は見られない
gpt4o
- CoT prompting では性能は向上しない
- パラメータの増加により CoT を使用せずとも内部的に複雑な推論を行っていると考えられるため性能が高い
- Self-Consistency も必要ないと考えられる

以上から、CoT prompting や Self-Consistency は弱点（推論の弱さや誤りの確率）を補うための戦略であり、モデルが弱いがある程度推論能力を潜在的に持つ場合 (CoT prompting によって推論が創発される必要) に効果がある

今後の展開

GPT 系の推論能力の向上について面白い結果が得られた。次回からは ReAct や Reflection 等の AI agent 系の論文を読解していく

2025-12-03

Self Consistency の確率モデルによる分析

AI Agent LLM 論文

以下に Self-Consistency がどのような性質を持つ解を生成しているのかを記述する (数理統計中級者レベルなので誤りがあるかもしれない）

Self-Consistency の確率モデル

Standard prompting と CoT prompting を確率モデルで表現すると以下のようになると以前に掲載した（実際はトークンの生成確率としてモデル化されるが抽象化して推論生成を潜在変数として表現する）

Standard prompting: $P(a | x_{standard})$
CoT prompting: $P(a, z|x_{cot})$

このとき、 $a \in A$ は LLM が出力する答え( $A$ は解の候補の集合$)、 $z$ は LLM の推論、 $x_{standard}$ , $x_{cot}$ はそれぞれ標準 prompt と CoT prompt を表している（潜在変数 $z$ を用いて潜在変数モデルとして扱う）

Self-Consistency では $x_{cot}$ を利用した複数の推論をサンプリングし、推論を周辺化する。そのため、以下のようにして各解集合 $a \in A$ の確率を見積もり最大の確率の $a$ を取得する効果があると思われる。

Self-Consistency の狙い: 以下式からの正解のサンプリング $P(a|x_{cot})=\int_{z} P(a, z|x_{cot}) dz = \int_{z} P(a|z, x_{cot}) * P(z|x_{cot}) dz$

ただし、サンプリングから多数決を用いているため Self-Consistency の手法により上記と同じ効果が得られているかを考察する。また補足すると $P(a|z, x_{cot})$ は推論パスから解を生成する分布、 $P(z|x_cot)$ はプロンプトから推論パスを生成する分布となる。

多数決による最頻値の推定

Self-Consistency は以下の手順で解を推論する

サンプリング: $m$ 個の推論と解のペア $(r_i, a_i)$ を取得する
多数決: 1. $$\hat a = \mathop{\rm arg~max}\limits_{a \in A} \sum_{i=1}^{m} I(a=a_i)$ となる $\hat a$ を取得する

1 は単純に推論をモンテカルロサンプリングすることで以下の積分部分を近似計算し $a \in A$ の経験分布を取得する。このときにサンプル数を増やすことで大数の法則より経験分布と簿分布に収束する

$P(a|x_{cot}) = \int_{z} P(a, z|x_{cot}) dz = \int_{z} P(a|z, x_{cot}) * P(z|x_{cot}) dz$

2 では経験分布から多数決により $P(a|x_{cot})$ の最頻値 mode を推定している。

以上から $P(a|x_cot)$ から最頻値の取得を実現している

論文のサンプリング戦略と集約戦略のまとめ

詳しくは前に投降した論文まとめを見てもらうといいが論文では以下のような組み合わせで実験を行っていた。ここら辺は複雑だったので以下にまとめる

論文では上記のサンプリング戦略として以下を組み合わせたものを使用している
- 推論のランダム性に関する戦略
  - temperature sampling
- 推論の生成確率に関する戦略
  - top-k sampling
  - nucleus sampling
また、集約戦略として
- 多数決戦略
- 重み付き平均
  - 非正規化確率
  - 正規化確率
- 重み付き和
  - 非正規化確率
  - 正規化確率

このサンプリング戦略、集約戦略として推論の多様性や推論の長さの偏りによって性能の差が生じていたことを論文は示していた

（次に再現実験の結果を記載する）

2025-12-03

AI Agent への道: Self-Consistency 論文まとめ

AI Agent LLM 論文

読解の目的

論文: Self-Consistency Improves Chain of Thought Reasoning in Language Models

LLM の推論能力向上について理解

これまで: CoT prompting では prompt を工夫することで推論を出力として外部化し LLM の潜在的な推論能力を引き出した。（prompt の工夫のみで実現）人が複数の異なる視点から推論を行い同じ答えに至るという過程、単一の推論のみではなく複数の推論過程を活用することでより強力な推論を行い、解に至る過程を検証すること。

（プロンプト方式とサンプリング戦略を変えることで実現＝＞サンプリング戦略の変更つまりLLM外の推論アルゴリズム自体への工夫になっている点が新規性）

Zero-shot, Chain of Thought (CoT) prompting では LLM の出力を prompt からコントロール可能であると示されており、そのアイデア合わせ LLM の推論過程を活用すること、つまり、LLM の推論フレームワーク自体を工夫する、LLM Agent のフレームワーク研究へとつながっていったのではないかと考えられる
つまり LLM の推論アルゴリズムを LLM の外部で設計実行する研究について知る

Abstract

研究の背景 CoT prompting を用いて推論を greedy に取得し、複雑な推論タスクで精度を高めた。
本論文: Self-Consistency を用いた推論のサンプル戦略を提案。CoT prompting から複数の推論パスと解を取得し、サンプルされた推論パスの周辺化を行う。複雑な問題は正解を導く複数の異なる推論が存在するという考えを利用する。評価実験により CoT prompting よりGSM8K(+17.9%), SVAMP(+11.0%), AQuA(+12.2%), StrategyQA(+6.4%), ARC-challenge(+3.9%) と性能を向上させることが示された
メモ
- CoT prompting は greedy に１つの推論と答えを導出する、Self-Consistency は複数の推論経路を導出する。そのため、CoT prompting では局所的な推論の誤りが結果に直結するが、Self-Consistency では複数の推論経路から答えを周辺化すること安定化した結果を得られる
- prompt ではなく推論の取得の仕方自体に工夫を加えるというアイデアが発展し、AI Agent フレームワークに対するアイデアの土台となったと思われる
- 推論過程を周辺化するとなぜ解が安定化するかはのちに確率モデルの観点からまとめる

1. Introduction

研究の背景
- LLM が自然言語のタスクで成功を収めている
- ただし、複数のステップの推論を必要とするタスクでは限界とみなされモデル規模を大きくするだけでは対処できないと考えられている (メモ: GPT4 ではモデルサイズを大きくすることで推論能力を大きく強化することができたと考えられる。ただし、計画実行能力やツールの仕様といった推論過程を環境によって動的に変化させるようなよりフレキシブルな推論能力といったものは現在の LLM 単体の推論能力のみでは実現できない)
- そのため、推論能力を高めるために CoT prompting の手法が考案され、様々なマルチステップ推論のタスクにおいて性能を大幅に向上させることが示された
本論文
- 本研究で導入する手法 (Self-Consistency の導入)
  - CoT で用いられる greedy なデコーディング戦略に代わる Self-Consistency と呼ばれるデコーディング戦略を導入し LLM の推論性能を大幅に向上させる
  - (メモ: 推論空間は複雑で局所最適に落ちやすく一度の推論に含まれる局所的な誤りが最終的な解に直結するため Self-Consistency を導入す改善）
- 本研究の導入するサンプリング戦略
  - LLM から複数回サンプリングを行い多様な推論経路の集合を生成する
  - 推論経路の周辺化を行い最終的な答えを導く（多数決で答えを取得する）
- 本研究の動機 (Self-Consistency を生み出したアイデア)
  - Self-Consistency は複雑な推論タスクが通常、正解に到達する複数の推論経路が存在するという直感を活用する。推論パスの多様性が答えの復元性を高め安定した正解の導出が可能になる。つまり、複数の異なる考え方が同じ答えを導くことで最終的な答えが正しいという確信を高めるという人間の経験を活用する
- 本研究 Self-Consistency のメリット
  - 単一の推論では推論の反復性や局所性があり、これを回避し安定した推論を行う必要がある
  - Self-Consistency により複数の推論経路のサンプリングによりこれを回避し、単一の推論の局所的な誤りによって不正解を導くことを避け、正答の得られる安定性を高める
  - (メモ: つまり複数の推論を行った際に正解に至る推論経路が複数ある場合にそれは同じ答えになるが、誤答となる推論経路は同じ答えではなく異なる答えに到達する多様性を持つと考えられるため、正しい推論と答えが導出される可能性が周辺化により高まる)
- 既存の研究（推論の質を高める研究について）
  - 追加の誤り検証機を訓練し再評価する手法 (Cobber et al, 2021)
  - 生成の質を高めるため人によるアノテーションを用いて re-ranker を訓練する手法 (Thoppilan et al. 2022)
- 既存の研究の問題点
  - LLM 以外の追加のモデルを学習、LLM の再学習、ファインチューニング等が必要
  - 追加のデータの作成コストがかかる（人手で作成された追加のアノテーションデータを用いる必要）
- 本研究の改善点
  - 再学習や追加のモデルが必要なく単一の LLM 上で動作する「self-ensemble」のように作用するため追加の学習やデータ作成のコストが必要ない
  - (メモ: LLM の大規模モデルのファインチューニングや再学習には莫大なコストがかかるので追加のコストがなく適応可能で精度が向上する外部推論アルゴリズムが非常に重要。そのアイデアが単純で様々に応用、発展が可能という点で大きく評価されているように思われる)
- 実験評価
  - 使用する言語モデル
    - UL2 20B
    - GPT-3 175B
    - LaMDA 137B
    - PaLM 540B
  - 評価タスク
    - 幅広い算術、常識推論タスクで評価
  - 結果
    - 算術、常識推論タスクで最先端の結果を示した
  - 追加の実験
    - CoT prompting を追加することによってパフォーマンスが低下する可能性があるタスクで Self-Consistency がパフォーマンスを向上させることを示した
    - ほかの以下のようなサンプル戦略に対して Self-Consistency の手法が優れており頑強であることを示した
      - sample-and-rank
      - beam search
      - ensemble-based approaches
メモ: まとめると
- CoT は単一の推論パスのため局所的な推論の誤りに弱い
- Self-Consistency は推論パスの周辺化により安定
- 複数の正解に至る推論パスが正解の確率を高めるという人の経験を利用
- LLM ではなく推論の取得の仕方自体を工夫するというアイデア。のちの AI Agent フレームワークに直結する発想 $\to$ LLMを「外側のアルゴリズムで強化する」という研究のベース

2. SELF-CONSISTENCY OVER DIVERSE REASONING PATHS

人の問題手法の LLM によるシミュレート - 人は異なる考えをし、問題を解決する複数の手法があると考えるのが自然である。 - このプロセスは LLM のサンプリングによってシミュレートできることを提案する

Self-Consistency 手法

仮定:
- $a_i \in A$ として $A$ を可能な回答の集合とする $i=1,\dots, m$
手順
1. LLM から $m$ 回の推論を行い推論と回答をサンプルする。サンプルされた $i$ 番目の推論と回答を $r_i, a_i$ として出力を $(r_i, a_i)$ とする。このとき $r_i \to a_i$ と推論 $r_i$ から答え $a_i$ が導出される。
2. Self-Consistency は多数決をとり $r_i$ を周辺化し最終的な回答 $a = argmax_{a \in A} \sum_{i=1}^{m} I(a=a_i)$ を得る。
most consistent answer の定義
- この最終的な回答 $a$ を最も一貫性のある回答(most "consistent" answer) とする

異なる回答集約戦略について

以下の重み付け戦略、回答生成戦略として以下のように分類し、各回答生成手法について比較する

非重み付け戦略
- 多数決戦略
  - $(r_i, a_i)$ ~ $P(r_i, a_i | prompt; question)$ から $m$ 個の $(r_i, a_i)$ をサンプルする
  - $a =$ $argmax_{a \in A}$ $\sum_{i=1}^{m} I(a=a_i)$ と多数決で回答を生成する
  - $score(a)=\sum_{i=1}^{m} I(a=a_i)$
重みづけ戦略
- 非正規化条件付確率による重み付け: $w_i = P(a_i, r_i|prompt, question) =$ $\prod_{k=1}^{K} p(t_k|t_1,\dots,t_{k-1})$ を推論の重みとする
- 正規化条件確立による重みづけ: $w_i = P(r_i, a_i | prompt, question) = \exp(1/K * \sum_{k=1}^{K} \log P(t_k|prompt, question, t_1, \dots, t_{k-1})) \tag{1}$
集約手法
- Weighted average: $a \in A$ に関する平均 $score(a) = \sum_{i \in {i|a_i=a}} w_i / \sum_{i=1}^{m} I(a_i=a)$
- Weighted sum: $a \in A$ に関する合計 $score(a) = \sum_{i \in {i|a_i=a}} w_i$

回答生成戦略として以下の５つで比較する

非正規化重み付け + Weighted average
正規化重み付け + Weighted average
非正規化重み付け + Weighted sum
正規化重み付け + Weighted sum
非重み付け戦略（多数決）

結果

非重み付け戦略の多数決では正規化重み付け + Weighted sum での生成戦略と非常によく似た制度をもたらすことを示した
正規化重み付けが非正規化重み付けよりもはるかに高い精度をもたらした

メモ:

答え a を支持する推論の数が重要これは異なる考えをして同じ回答にたどり着くことが正解の可能性を高めるという人間の経験と同じことを示している。そのため、推論の長さは関係なくその答えにたどり着く確率が重要。その点で正規化が重要。また、単一の推論ではなく複数の推論でその答えにたどり着くことが重要なので平均ではなく合計や多数決により性能が改善するという結論と考えられる
生成される推論は LLM が推論確率が高くなるように生成されている。そのため、正規化した $(a_i, r_i)$ は各推論で似たような重み（どれも自然な推論となるため $w_1 \approx w_2 \approx \dots \approx w_m$ ）となる。そのため重み付けの意味が薄れ多数決と同じ結果となると考えられる

EXPERIMENTS

3.1 EXPERIMENT SETUP

Tasks and datasets
- 算術推論のタスクに関するデータセット
  - AddSub (Hosseini et al., 2014)
  - MultiArith (Roy&Roth, 2015)
  - AQUA-RAT (Ling et al., 2017)
  - GSM8K (Cobbe et al., 2021)
  - SVAMP (Patel et al., 2021)
- 常識推論のタスクに関するデータセット
  - CommonsenseQA (Talmor et al., 2019)
  - StrategyQA (Geva et al., 2021)
  - A12 Reasoning Challenge (ARC, Clark et al., 2018)
- 記号推論のタスクに関するデータセット
  - last letter concatenation
  - Coin Flip (Wei et al., 2022)
Language models and prompts
- 使用する言語モデル
  - UL2 20B (Tay et al., 2022)
  - GPT-3 175B (Brown et al., 2020)
    - code-davinci-001
    - code-davinci-002
  - LaMDA 137B (Thoppilan et al., 2022)
  - PaLM 540B (Chowdhery et al., 2022)
- 使用する prompt
  - 算術推論について CoT の論文と同じ８つの CoT プロンプト
  - 常識推論について 4-7 例をランダムに選び作成した CoT プロンプト
- Sampling schema
  - UL2 20B, LaMDA 137B について temperature $T = 0.5$ としてサンプリング。その後、top-k ( $k=40$ ) の生成確率の高いものを取得
  - PaLM 540B では $T=0.7, k=40$
  - GPT-3 では $T=0.7$ , top-k サンプリングは行わない

3.2 MAIN RESULTS

集計

各実行で40の出力をサンプル
10 回の実験の実行で平均した実験結果

比較

各 LLM モデルで greedy decoding を用いた CoT prompting の実験結果と比較

結果

算術推論結果
- Self-Consistency で４つの言語モデルすべてで CoT prompting に比較し大幅に性能を向上させた
- 学習やファインチューニングを必要とする以前の SoTA に比較し良好な結果を示した
常識推論、記号推論の結果
- 6 タスク中５タスクで SoTA となった
推論パスのサンプリング数を変えた場合の結果
- サンプリング数を 1, 5, 10, 20, 40 と変えた場合の実験を行った
- 結果、多くのサンプリング数をするにつれて性能が向上した

3.3 SELF-CONSISTENCY HELPS WHEN CHAIN-OF-THOUGH HURTS PERFORMANCE

CoT prompting では few-shot in-context learning を用いた標準 prompting を比較しパフォーマンスを低下させることがある (Ye & Durrett 2022)
- Self-Consistency がこのギャップを埋めることできるかを標準的な NLP タスクで以下のデータセットで調査
```
  - (1) Closed-Book Question Answering
      - BoolQ (Clark et al., 2019)
      - HotpotQA (Yang et al., 2018)
  - (2) Natural Language Inference
      - e-SNLI (Camburu et al., 2018)
      - ANLI (Nie et al., 2020)
      - RTE (Dagan et al., 2005; Bar-Haim et al., 2006; Giampiccolo et al., 2007; Bentivogli et al., 2009)
```
- 結果
  - Self-Consistency が頑強にパフォーマンスを向上させ，Standard，CoT prompting の結果を上回った。
  - そのため、一般的な NLP タスクの few shot in-context learning でも信頼性を向上させることができる方法と示された

3.4 COMPARE TO OTHER EXISTING APPROACHES

Self-Consistency と近い目的である生成の質を向上を目指す３つの戦略と比較する
- Sample-and-rank
  - 複数のシーケンスをデコーダからサンプリング
  - 各シーケンスの対数確率に従ってランク付けし最も高い回答を採用する
- Beam search
  - 推論パスを k 個保持 (beam) しながら推論を行っていく
  - 次のトークンを生成時に生成確率が高い推論パスに更新する
  - 最終的な k 個の推論結果から以下の場合で最終的な回答を採用する
    - 生成確率が最も高い推論パスの回答
    - Self-Consistency と同様の多数決による回答
- Ensemble-based approaches
  - 以下のプロンプトに関するアンサンブルを行う。デコーディングは greedy に行い多数決で最終的な答えを得る
    1. プロンプト順序の並べ替えを行う。たとえばプロンプトを 40 回並べ替えてそれぞれ推論をサンプルする
    2. ３種類のプロンプトセットによる推論結果のアンサンブル
Sample-and-rank との比較結果
- 比較設定
  - GPT-3 code-davinci-001 において Self-consistency と Sample-and-rank を比較
- 結果
  - Sample-and-rank の手法は Greedy Decoding の手法より性能を上昇させた
  - ただし、Self-consisntecy の手法のほうがはるかに大きく性能を向上させ Sample-and-rank の手法よりも高性能だった
Beam search との比較結果
- 比較設定
  - UL2 20B を用いて比較。Self-Consistency のサンプリング数と beam サイズを同じに設定し比較を行う
- 結果
  - beam search の手法ではどちらの場合の採用手法でも同程度の性能だった。
  - Self-Consistency はサンプル数を大きくするほど性能が上がり、beam search より優れた結果を示した
Ensemble-based approaches との比較結果
- 結果
  - 通常の CoT よりもアンサンブルの手法は少量の性能を改善させたが、Self-Consistency のほうがはるかに性能を改善させた
メモ:
- Sample-and-rank は推論の長さが長いと対数確率は低くなる。そのため、長い推論が必要な複雑な問題でも短い推論が採用され結果が悪くなると考えられる
- beam search の手法では探索途中で確率の高い推論があったときに、そこから続いて生成される推論パスの生成確率が高くなる。そのため、似たような推論が生成されることとなり推論パスの多様性が損なわれ、結果、Self-Consistency よりも結果が悪くなるのではないかと考えられる。また、短い推論の生成確率が高いため長い推論が探索に残らない可能性がある
- Ensemble-based approaches は元の CoT の論文でも CoT prompting の頑強性が示唆されており、prompt の並べ替えや変更を行っても推論過程はあまり変わらず、推論過程の多様性が少ないため Self-Consistency よりも結果が悪いと考えられる

3.5 ADDITIONAL STUDIES

Self-Consistency の以下の点を分析するため追加の実験を行った

サンプリング戦略、パラメータに対する頑強性
不完全なプロンプト
非自然言語推論パスに対する動作

サンプリング戦略に対する頑強性

サンプリング戦略とスケーリングの頑強性を調べるためいくつかのサンプリング戦略とパラメータに対して実験を行った
- temperature sampling の温度パラメータ T
- top-k サンプリングのパラメータ k
- nucleus sampling のパラメータ p
結果
- これまでと同様にサンプル数に応じて性能が向上
- greedy decoding よりもどの戦略、パラメータでも高精度な実験結果を示した
- temperature sampling で T=0.3 の場合、ほかのケースに比較し Accuracy が 10 % 程度低い場合がある
メモ
- Self-Consistency では自然かつ多様な推論を用いて多数決を行い推論パスを集約することで解の精度を上げる
- temperature sampling の T=0.3 の場合で性能がほかのサンプリング戦略より低かったのは推論の多様性が少ないためと考えられる
- top-k, nucleus sampling では生成確率の top-k や生成確率の累積確率を用いるため自然な推論が生成され、かつ、beam search のような推論の収束性を回避しているためと考えられる

プロンプトに対する頑強性

Self-consistency のプロンプトに対する頑強性を調べるため不完全や矛盾を含んだプロントと比較し実験した
- 正しい CoT prompt
- 不完全 CoT prompt
不完全なプロンプトに対する結果
- 不完全 CoT prompting のみだと正しい CoT prompting のみより 17.1 % から 14.9 % に性能を下げた
- 不完全な CoT prompting かつ $40$ 推論パスを用いたSelf-consistency だと性能を 23.4 % へ向上させた
- 最終的な推論パスの解の割合が解の正答率と比例していた。つまり、推論パスのある答えが 80 % の割合で含まれていた場合、実際の正答率が 80 % となり、最終的な推論の解の分布が解の不確実性を示している
非自然言語推論を用いて Self-Consistency の一般性について調べるために推論の方程式を用いた prompt を利用し実験した
- 推論形式に方程式を用いた prompt
  - 例: 駐車場に３台の車があり、２台が新たに到着した。結果 3+2=5 台ある.
  - prompt 例: 3 + 2 = 5
- Zero-shot CoT: 例示ではなく「Let's think step by step.」のようにプロンプトで推論をを行うように指示をする
CoT prompt に非自然言語を用いた結果
- Self-Consistency が精度を向上させたが自然言語を用いた場合よりも +1.5 % と効果は小さかった
- 自然言語を用いた場合より非自然言語を用いると推論が短く、多様性が低くなるため効果が小さくなる
- Zero-shot CoT に対し Self-Consistency を適用すると +16.2 % と大幅に性能を向上させた

Reasoning in language models

LLM は算術推論、常識推論のタスクが難しいと考えられていた。推論を改善するための専門的な手法に集中してきたが、Self-Consistency では学習やファインチューニングなしに適用できるため、幅広いタスクに適用でき、また、CoT のアプローチを大きく改善させる

Sampling-and re-raking in language models

既存のサンプリング戦略には以下がある
- temperature sampling
- top-k sampling
- nucleus sampling
- minimum Bayes risk decoding
- typical decoding
- other
LLM の生成の品質を上げるための re-ranking 手法には追加の学習、追加のアノテーションデータが必要なものとして以下があり、Self-Consistency では追加の訓練やファインチューニング、データ収集を必要としない
- 応答をフィルタリングするために人のアノテーションデータで学習した re-ranker を使用するもの
- 生成された解を re-rank するための verifier を学習し LLM のファインチューニングに比較し数学タスクの回答率を大幅に向上させるもの
- 追加の一貫性損失を事前学習時に追加し、事実知識の抽出の一貫性を向上させる

Extract reasoning

知識推論のための研究として以下があり推論パスの生成のためにタスク固有のアプローチを最小している。これらに比較し Self-Consistency ははるかに単純な手法である

knowledge graph を構築
Wikipedia グラフ上の推論パスの検索のための RNN の学習
数学の問題上の人のアノテーションを付けた推論パスによりファインチューニング

Consistency in language models

略

CONCLUSION AND DISCUSSION

Self-Consistency というシンプルかつ効果的な手法を導入し、様々なスケールを持つ 4 つの LLM に対し、算術、常識推論のタスクにおいて精度を大幅に向上させた。また複数の推論パスにより不確実性の推定と LLM の出力の改善を行うためにも有用であった

問題点としては、複数の推論パスを取得するために計算コストが高くなることである。そのため将来の研究の一環として Self-Consistency を用いてよりよい教師データを生成しファインチューニングで１回の推論でより正確な予測を行うことができる。

（次の記事で再現実験等を行っていく）

2025-11-21

gpt3.5 と gpt4o の推論能力の違い: Chain of thought 再現実験

AI Agent LLM 論文

Chain of thought 再現実験

Chain of thought の再現実験を gpt3.5 と gpt4o で行ったので結果を示す。再現実験コード置き場

実験設定

使用するデータセット

GSM8K から50問をランダムにサンプリング

使用する LLM

gpt-3.5-turbo
gpt-4o-2024-08-06

使用する prompt

論文と同じ CoT prompt
論文と同じ Standard prompt

temperature = 0 に設定、max_tokens=512 に設定し推論を行う使用した prompt は prompt に記載がある

結果

以下に正答率を示す。結果、gpt-3.5-turbo の CoT prompt において 42% から 80% と著しく性能が向上した。ただし gpt-4o では Standard prompt と CoT prompt において性能に差がみられなかった。ただし50問と小さなサンプルでの結果であり、より厳密な比較には今後サンプル数を増やした検証が必要である。

gpt-3.5の出力ログ

	standard prompt	CoT prompt
gpt-3.5-turbo	42%	80%
gpt-4o-2024-0806	92%	92%

考察

gpt-3.5 では性能が向上したが CoT prompt によって gpt-3.5 が持つ潜在的な推論能力が誘発された結果と考えられる。Standard prompt では 42% と推論能力が低い。gpt3.5 は gpt-4o に比較すると推論の内部表現が十分に強くなく、Standard prompt では推論能力が十分に発揮されない。一方で、 CoT prompt によって推論過程を外部化することでその潜在的な推論能力が顕在化し、精度が大きく向上したと考えられる。

gpt-4o では Standard prompt と CoT prompt では性能に差がなく、どちらも高精度を示している。このことは GSM8K のような多段階推論を必要とする問題に対して CoT prompting を明示的に与えなくても、内部で潜在的な推論 ( 暗黙的 CoT ) を自発的に実行している可能性を示唆している。

以上から論文内で使用された小規模モデルでは推論能力が低く CoT prompt による推論能力は創発されない。しかし、gpt-3.5 になると CoT prompt による推論の外部化により推論能力が創発される。さらに gpt4o になると CoT prompt なしに潜在的な推論能力が自然と発揮されることとなり非常に興味深い結果になった。

今後の展開

なぜ gpt4o になると LLM の内部で暗黙的 CoT の能力が創発されるのかをモデルの構造、transformer の仕組み、scaling law による創発現象の観点から考察を行う

1 高知能との対話

1.1 LLM を使いこなすために

2 LLM は"考えすぎている"のか?

2.1 LLM の思考の禁止に関する実験

2.2 実験結果からの示唆

2.3 推論の３つの状態

2.4 prompt による推論の状態の制御

3 Reasoning Gate : LLM の知能の制御の仕組み

3.1 推論はどれを使うかが重要

3.2 prompt は出力ではなく知能の使い方を選んでいる

3.3 Reasoning Gate という見方

3.4 GPT-3.5 と GPT-4o で何が違うのか

3.5 知能を制御できると何が嬉しいのか

4. 知能の制御ができると LLM は使いやすくなる

5. LLM を「訓練」するのではなく「対話を訓練する」

人間側のスキルとしての prompt

scaffolding（足場かけ）としての推論外部化

補足：Adaptive Reasoning との違い

徐々に暗黙化する使い方

6 AI Agent への示唆：知能を動的に切り替える

Agent は常に推論すべきではない

状況・ユーザ・コストに応じて切り替える

1. 状況（タスクの性質）

2. ユーザ（理解度・目的）

3. コスト（時間・計算・安全性）

Adaptive Reasoning Agent という方向性

人間と AI の関係が変わる

次に来る問い

7. まとめ：LLM の知能は「固定値」ではない

知能を「高くする」から「制御する」へ

人間と LLM の関係は変わる

LLM を訓練する時代から、対話を訓練する時代へ

結論

はじめに: なぜ CoT を禁止すると LLM は解けなくなるのか?

LLM の推論は 3 つの状態に分けられる

実験: prompt の置き方を変えると何が起きるか

使用モデル

使用 prompt

prompt の入力方法

結果：GPT-3.5 と GPT-4o はまったく違う

GPT-3.5 の結果

GPT-4o の結果

何が起きているのか？

GPT-3.5 の場合

GPT-4o の場合

モデルサイズが大きくなると、なぜ推論が「常在」するのか？

Attention と中間表現の観点

Reasoning Gate という見方

AI Agent 設計への示唆

まとめ

読解の目的

Abstract

1. Introduction

人間の知能の特徴

既存の研究

本研究

まとめ

2. REACT: SYNEGIZING REASONING + ACTING

3. KNOWLEDGE-INTENSIVE REASONING

3.1 SETUP

3.2 METHOD

3.3 RESULTS AND OBSERVATIONS

DECISION MAKING TASKS

5. RELATED WORKS

6. CONCLUSION

実験設定

結果

考察

今後の展開

Self-Consistency の確率モデル

多数決による最頻値の推定

論文のサンプリング戦略と集約戦略のまとめ

読解の目的

Abstract

1. Introduction

2. SELF-CONSISTENCY OVER DIVERSE REASONING PATHS

Self-Consistency 手法

異なる回答集約戦略について

EXPERIMENTS

3.1 EXPERIMENT SETUP