長文のみ | Cog AI Archive

AI研究 2026-02-15 長文

Webエージェントのためのエージェンティックなテスト時スケーリング

Webのマルチステップ作業では、各ステップで同じだけ候補生成を増やす一様な推論時スケーリングは、手順が長いほど効果が早く頭打ちになり、簡単な操作にも計算が偏って無駄が生じやすいです。 / 各ステップで複数の候補行動をサンプルして投票分布を作り、その分布から不確実性（エントロピーや上位二択の差）を計算して、判断が割れているときだけ追加の選別器（Arbiter）を呼び出すCATTSを提案しています。 / CATTSはWebArena-LiteとGoBrowseでReActより最大9.1%の改善を示し、さらに一様スケーリングより最大2.3倍少ないトークンで動かせる可能性を示しつつ、どのステップで計算を増やしたかを規則として説明しやすくします。

7433 字

読む →

AI研究 2026-02-06 長文

データに潜む“サブリミナル効果”：ログ線形性で読む一般メカニズム

データのどこにも書いていないはずの性格や言語が、なぜ学習後のモデルに現れるのでしょうか？論文はその現象を「特別な細工」ではなく、もっと一般的に起こりうる仕組みとして捉え直します。この記事では、Logit-Linear Selection（LLS）が何をして、何が確かめられ、どこまで言えるのかを筋道立てて整理します。

7213 字

読む →

AI研究 2026-02-06 長文

IoTモデルを変化に強くする：コントラスト継続学習（CCL）の整理と設計指針

IoTの現場で、学習済みモデルは“いつまで”通用するのでしょうか？鍵は高性能な一発学習ではなく、変化に追従しつつ忘れにくい「学び方」でした。この記事では、IoT向けのコントラスト継続学習（CCL）を、設計と運用の両面から読み解きます。

8586 字

読む →

AI研究 2026-02-04 長文

大規模言語モデルは推論時の計画において誤った第一歩を踏み出す可能性がある

大規模言語モデル（LLM）は学習を通じて高度なシーケンスレベルの計画能力を獲得しているが、推論時には人間が作成したプロンプトとモデル内部の言語表現の乖離により、一時的に短期的で不整合な計画行動を示す。

7476 字

読む →

AI研究 2026-02-04 長文

ビジョン表現においてグローバルな幾何学構造だけでは不十分である

視覚表現学習において、埋め込み分布の均一性や等方性といったグローバルな幾何学的規則性は、要素間の関係性を捉える「構成的結合（Compositional Binding）」能力を予測する指標としては機能せず、統計的にほぼ無相関であることを明らかにした。

7190 字

読む →

AI研究 2026-02-04 長文

リスク意識の注入：有用性を損なうことなく安全性のために視覚言語モデルを較正する

視覚言語モデル（VLM）は、視覚情報の統合によって本来の安全ガードレールが機能しなくなる「リスク信号の希釈」という課題を抱えており、画像や動画を悪用したマルチモーダルな脱獄攻撃に対して極めて脆弱です。

7466 字

読む →

AI研究 2026-02-04 長文

SWE-Master：ポストトレーニングによるソフトウェアエンジニアリングエージェントの潜在能力の解放

SWE-Masterは、ソフトウェアエンジニアリング（SWE）タスクを自律的に解決するエージェントを構築するための、完全に再現可能でオープンソース化されたポストトレーニングフレームワークである。

7050 字

読む →

AI研究 2026-02-04 長文

必要な時にグラフを使用する：検索拡張生成とグラフの効率的かつ適応的な統合

大規模言語モデルのハルシネーションや知識の風化を防ぐため、クエリの構文的な複雑さを解析して、従来のRAG（検索拡張生成）と構造的な知識グラフを用いるGraphRAGを動的に切り替える新フレームワーク「EA-GraphRAG」が提案されました。

7411 字

読む →

AI研究 2026-02-04 長文

LLMはロケット科学ができるか？GTOC 12を用いた複雑な推論の限界の探究

本研究は、大規模言語モデル（LLM）が「ロケット科学のワールドカップ」と称される極めて複雑な宇宙力学競技会「GTOC 12」において、自律的なミッション設計が可能かを検証しました。最新の推論モデルは過去2年間で戦略的妥当性のスコアを9.3から17.

7883 字

読む →

AI研究 2026-02-04 長文

エージェント・プリミティブ：マルチエージェントシステムのための再利用可能な潜在的構成要素

従来のマルチエージェントシステム（MAS）が抱えていた、タスクごとに手動でプロンプトや役割を設計しなければならない構築コストの高さと、自然言語による通信が長文コンテキストやノイズによって劣化するという二つの根本的な課題を解決するため、ニューラルネットワークの構成要素に着想を得た「Agent Primitives」という再利用可能な潜在的構成ブロックが提案されました。これは、Review（推敲）、Voting and Selection（投票と選択）、Planning and Execution（計画と実行）という、多くのシステムで共通して見られる計算パターンを抽象化したものであり、エージェント間の通信にテキストではなくキー・バリュー（KV）キャッシュを直接受け渡す潜在的通信を採用することで、情報の劣化を防ぎつつ処理の高速化を実現しています。数学的推論やコード生成などのベンチマークを用いた検証の結果、単一エージェントと比較して平均精度が12.0〜16.5%向上し、従来のテキストベースのシステムよりもトークン使用量と推論遅延を3〜4倍削減することに成功したほか、長文の文脈における指示遵守率が自然言語通信の15.6%から73.3%へと劇的に改善されるなど、高い堅牢性が確認されました。

7018 字

読む →

生成AI研究を、要点から追う。

最新の記事

Webエージェントのためのエージェンティックなテスト時スケーリング

データに潜む“サブリミナル効果”：ログ線形性で読む一般メカニズム

IoTモデルを変化に強くする：コントラスト継続学習（CCL）の整理と設計指針

大規模言語モデルは推論時の計画において誤った第一歩を踏み出す可能性がある

ビジョン表現においてグローバルな幾何学構造だけでは不十分である

リスク意識の注入：有用性を損なうことなく安全性のために視覚言語モデルを較正する

SWE-Master：ポストトレーニングによるソフトウェアエンジニアリングエージェントの潜在能力の解放

必要な時にグラフを使用する：検索拡張生成とグラフの効率的かつ適応的な統合

LLMはロケット科学ができるか？GTOC 12を用いた複雑な推論の限界の探究

エージェント・プリミティブ：マルチエージェントシステムのための再利用可能な潜在的構成要素