なぜGPT-4oに『考えるな』と命じても正答できるのか? 推論の潜在変数化と人間が果たすべき役割

(前回の Reasoning Gate の活用について考えていたら以下のアイデアを思いついたので掲載する。ただ、すこし思想寄りになったのとブログ用に丁寧語になっているのが気に入らない人もいるかも。scaffolding を用いた説明は ChatGPT が思いついた) 1 高知能と…

なぜCoTを禁止してもGPT-4oは賢いのか? 推論の潜在変数化とAIエージェント設計への示唆

CoT 再現実験のコードを調整していたら面白い現象を見つけたので以下にブログ用にまとめる はじめに: なぜ CoT を禁止すると LLM は解けなくなるのか? Chain-of-Thought (CoT) prompting の実験を行うと LLM の推論能力の誘発について以下の点が発生しました…

AI Agent への道2: ReAct 論文まとめ

論文: ReAct: Synergizing Reasoning and Acting in Language Models 読解の目的 これまでの手法 (CoT, Self-Consistency) プロンプトや推論アルゴリズムを工夫し LLM の内部の推論能力を引き出す技術 ReAct さらに推論アルゴリズムを工夫し、LLM の推論結果…

GPTの推論能力の進化: Self-Consistency 再現実験

Self-Consistency について再現実験を行った 実験設定 使用するデータセット GSM8K から50問をランダムにサンプリング 使用する LLM gpt-3.5-turbo 使用する prompt Chain of through 論文と同じ CoT prompt パラメータ max_tokens=512 temperature=0.7, 0.9…

Self Consistency の確率モデルによる分析

以下に Self-Consistency がどのような性質を持つ解を生成しているのかを記述する (数理統計中級者レベルなので誤りがあるかもしれない) Self-Consistency の確率モデル Standard prompting と CoT prompting を確率モデルで表現すると以下のようになると以…

AI Agent への道: Self-Consistency 論文まとめ

読解の目的 論文: Self-Consistency Improves Chain of Thought Reasoning in Language Models LLM の推論能力向上について理解 これまで: CoT prompting では prompt を工夫することで推論を出力として外部化し LLM の潜在的な推論能力を引き出した。(prom…

gpt3.5 と gpt4o の推論能力の違い: Chain of thought 再現実験

Chain of thought 再現実験 Chain of thought の再現実験を gpt3.5 と gpt4o で行ったので結果を示す。 再現実験コード置き場 実験設定 使用するデータセット GSM8K から50問をランダムにサンプリング 使用する LLM gpt-3.5-turbo gpt-4o-2024-08-06 使用す…

Chain of thought 推論精度について確率的な考察

考察の動機 self-consistency の手法でなぜ解答精度が CoT に比べて向上するのかを考えていたのでまず CoT についてまとめてあとで self-consistency と比較する Standard と CoT の確率モデルの違い Standard prompting と CoT prompting を確率モデルで表…

LLM Agent の推論能力の発現の分析: Chain-of-thought prompting 論文まとめ

記事の概要 AI Agent の技術のキャッチアップとどのような流れで発展してきたかを理解するため AI Agent 周りの論文を読んでいく 初めに chain of thought prompt に関する論文を読んだ。その結果 Chain-of-thought prompting は LLM の推論能力の発現につい…