AI研究 | Cog AI Archive

AI研究 2026-02-23

LLM Review：ブラインド・ピアレビュー型フィードバックで創作の均質化を避けるマルチエージェント枠組み。

創作では相互作用を増やすほど良くなるとは限らず、エージェント同士が互いの出力に引っ張られて内容が似通う「均質化」が起き得るため、情報の流れそのものを設計対象として扱う必要があります。 / LLM Reviewは、複数エージェントがまず独立に初稿を書き、その後に他者の初稿へ狙いを定めた批評だけを返しつつ、改稿では他者の改稿結果を見せない「ブラインド・ピアレビュー」型の反復を行います。 / サイエンスフィクション短編用データセットSciFi-100と、採点モデルによる評価・人手注釈・規則ベース新規性指標を組み合わせた検証で、提案枠組みが複数のマルチエージェント基準法より一貫して良い結果を示し、相互作用の構造がモデル規模を一部代替し得ることが示唆されます。

5989 字

読む →

AI研究 2026-02-23

インテリジェントAIへの委任

AIエージェントが複雑な目的を扱うほど、委任は単なるタスク分解では足りず、権限の移譲、責任と説明責任、役割と境界、意図の明確化、当事者間の信頼まで含めて設計する必要があります。 / 本論文は、委任を「タスク配分に関する意思決定の連なり」として捉え、環境変化や想定外の失敗に適応しつつ、人間とAIの双方が委任者にも被委任者にもなり得るネットワークで機能する枠組みを整理します。 / あわせて、能力の照合、継続的な性能監視、フィードバックに基づく調整、制約下での完了、信頼の校正といった要素を明示し、将来の「agentic web」に向けたプロトコル設計の論点を提示します。

5089 字

読む →

AI研究 2026-02-22

Webエージェントにおける異なる人間のインタラクションをモデル化する

自律的に動くWebエージェントでも実行途中に人が誤り修正や好みの反映のために介入するため、介入が起きるタイミングを見越して振る舞いを調整できるかどうかが協調体験を左右します。 / 400件の実ユーザ軌跡（人とエージェントの行動が4,200件超で交互に記録）を集め、介入の仕方を4つの型に整理したうえで、スクリーンショットとアクセシビリティツリー、履歴、提案行動から次の介入有無を逐次予測するモデルを教師ありで学習します。 / 介入予測はベースの言語モデルより61.4〜63.4%改善し、さらに予測を組み込んだ実運用のWebエージェントはユーザ評価の有用性が26.5%増加しており、介入を構造化して扱うことが適応的な協調につながります。

6318 字

読む →

AI研究 2026-02-22 長文

カスケード等価仮説：音声大規模言語モデルはいつ自動音声認識→言語モデルのパイプラインのように振る舞うのか。

書き起こしだけで解ける課題では、多くの音声大規模言語モデルが内部で暗黙の書き起こし表現を作り、その後に言語モデルとしての推論を進めるため、同じ言語モデルを組み合わせた自動音声認識→言語モデルのカスケードと、出力だけでなく失敗の仕方まで似やすいです。

7148 字

読む →

AI研究 2026-02-22 長文

SOLVAR：クライオ電子顕微鏡の共分散ベース連続ヘテロ性解析を、低ランク最適化と姿勢精密化で実用化する

クライオ電子顕微鏡（cryo-EM）で分子が連続的に形を変えるとき、構造変動を共分散で捉える考え方は筋がよい一方、共分散行列が巨大すぎて主成分を実用的に推定しにくいという計算上の壁があります。 / SOLVARは共分散が低ランクという仮定を置き、共分散そのものではなく主成分（固有ベクトルに対応する基底体積）を目的変数にした最適化へ組み替え、確率的勾配法で素早く解く枠組みにしています。 / さらに粒子画像の姿勢（回転・平行移動）を推定途中で更新できるようにし、合成データと実データの実験で主要な変動成分を捉えつつ計算効率も維持し、最近のベンチマークでも複数データセットで高い成績を示したと述べています。

7369 字

読む →

AI研究 2026-02-22

AI GameStore：人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満

AI GameStore は、汎用知能を測るために「人間が実際に作り、遊ぶゲームの宇宙」を使うべきだという立場から、Apple App Store や Steam の人気ゲームを標準化・再構築して評価ベンチマーク化する仕組みです。著者らは 100 本のゲームを生成・精査し、106 人の人間と最先端 VLM を比較しましたが、最良の GPT-5.2 でも人間中央値を 100 とした尺度で 8.5 にとどまり、しかも人間の 10 倍以上遅くプレイしています。面白いのは、AI の弱さが単なる操作ミスではなく、記憶、計画、world model learning、社会的推論のような能力が複合的に要求されるゲームで顕著に出ることです。単発ベンチでは見えにくい「統合知能の弱さ」をかなり露骨に出しています。

5661 字

読む →

AI研究 2026-02-21

AutoNumerics：自然言語から古典的な数値PDEソルバーを自律生成するマルチエージェント枠組み

AutoNumericsは、自然言語で書かれた偏微分方程式（PDE）の問題記述を受け取り、古典的な数値解析に基づく解釈可能なソルバーを、設計から実装・デバッグ・検証まで自律的に作る枠組みです。 / 複数のLLMエージェントが、問題の構造化、複数スキーム案の立案と不適切案の除外、粗い格子での論理バグ修正と高解像度での安定性確認、解析解がない場合の残差に基づく自己検証までを段階的に連携します。 / 24個の代表的なPDE問題で、既存のニューラル系やLLM系の手法と比べて同等以上の精度を示したと報告されており、PDEの構造に応じたスキーム選択も行えることから、PDE自動解法を使いやすくする実装指向の道筋を示しています。

5625 字

読む →

AI研究 2026-02-21

いつでも有効な統計的ウォーターマーキングに向けて

本論文は、統計的ウォーターマーキング検出を逐次（ストリーミング）で監視しながら、止めるタイミングをデータに応じて選んでも偽陽性（Type I error）の上限が崩れない枠組みを示しています。 / 生成側と検出側が共有するアンカー分布p0を導入し、ターゲット分布qがp0の近傍にあるという前提のもとで、トークンと疑似乱数シードの依存を埋め込みつつ、検出をe-value（非負のスーパー・マルチンゲール）として設計します。 / 理論として最悪ケースの対数成長率と期待停止時間の関係を与え、シミュレーションと既存ベンチマーク評価により、平均の検出トークン予算を最先端ベースラインより13〜15%削減できたと報告しています。

5663 字

読む →

AI研究 2026-02-21

連合U字型スプリット学習の中間表現を守るKD-UFSL：マイクロアグリゲーションと差分プライバシーの併用

UFSLはデータとラベルをクライアントに残しつつ計算の一部をサーバへオフロードできますが、クライアントが送る中間表現（smashed data）から生データが再構成され得るため、サーバが「正直だが好奇心旺盛」な場合でも漏えい経路になり得ます。

6592 字

読む →

AI研究 2026-02-21

ペルシア語言語モデルにおける「事実」と「概念」のギャップを明らかにする：DivanBenchによる診断

ペルシア語の文化的な「それらしさ」を含む問いでは、多くのモデルが適切な作法を選ぶことはできても、同じ概念に対する明確な違反を退けることが苦手で、もっともらしい文化語彙に引っ張られて肯定してしまう偏りが強く示されました。

6442 字

読む →

生成AI研究を、要点から追う。

最新の記事

LLM Review：ブラインド・ピアレビュー型フィードバックで創作の均質化を避けるマルチエージェント枠組み。

インテリジェントAIへの委任

Webエージェントにおける異なる人間のインタラクションをモデル化する

カスケード等価仮説：音声大規模言語モデルはいつ自動音声認識→言語モデルのパイプラインのように振る舞うのか。

SOLVAR：クライオ電子顕微鏡の共分散ベース連続ヘテロ性解析を、低ランク最適化と姿勢精密化で実用化する

AI GameStore：人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満

AutoNumerics：自然言語から古典的な数値PDEソルバーを自律生成するマルチエージェント枠組み

いつでも有効な統計的ウォーターマーキングに向けて

連合U字型スプリット学習の中間表現を守るKD-UFSL：マイクロアグリゲーションと差分プライバシーの併用

ペルシア語言語モデルにおける「事実」と「概念」のギャップを明らかにする：DivanBenchによる診断