継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

インテリジェントAIへの委任

AIエージェントが複雑な目的を扱うほど、委任は単なるタスク分解では足りず、権限の移譲、責任と説明責任、役割と境界、意図の明確化、当事者間の信頼まで含めて設計する必要があります。 / 本論文は、委任を「タスク配分に関する意思決定の連なり」として捉え、環境変化や想定外の失敗に適応しつつ、人間とAIの双方が委任者にも被委任者にもなり得るネットワークで機能する枠組みを整理します。 / あわせて、能力の照合、継続的な性能監視、フィードバックに基づく調整、制約下での完了、信頼の校正といった要素を明示し、将来の「agentic web」に向けたプロトコル設計の論点を提示します。

5089 字
読む →

Webエージェントにおける異なる人間のインタラクションをモデル化する

自律的に動くWebエージェントでも実行途中に人が誤り修正や好みの反映のために介入するため、介入が起きるタイミングを見越して振る舞いを調整できるかどうかが協調体験を左右します。 / 400件の実ユーザ軌跡(人とエージェントの行動が4,200件超で交互に記録)を集め、介入の仕方を4つの型に整理したうえで、スクリーンショットとアクセシビリティツリー、履歴、提案行動から次の介入有無を逐次予測するモデルを教師ありで学習します。 / 介入予測はベースの言語モデルより61.4〜63.4%改善し、さらに予測を組み込んだ実運用のWebエージェントはユーザ評価の有用性が26.5%増加しており、介入を構造化して扱うことが適応的な協調につながります。

6318 字
読む →

カスケード等価仮説:音声大規模言語モデルはいつ自動音声認識→言語モデルのパイプラインのように振る舞うのか。

書き起こしだけで解ける課題では、多くの音声大規模言語モデルが内部で暗黙の書き起こし表現を作り、その後に言語モデルとしての推論を進めるため、同じ言語モデルを組み合わせた自動音声認識→言語モデルのカスケードと、出力だけでなく失敗の仕方まで似やすいです。

7148 字
読む →

SOLVAR:クライオ電子顕微鏡の共分散ベース連続ヘテロ性解析を、低ランク最適化と姿勢精密化で実用化する

クライオ電子顕微鏡(cryo-EM)で分子が連続的に形を変えるとき、構造変動を共分散で捉える考え方は筋がよい一方、共分散行列が巨大すぎて主成分を実用的に推定しにくいという計算上の壁があります。 / SOLVARは共分散が低ランクという仮定を置き、共分散そのものではなく主成分(固有ベクトルに対応する基底体積)を目的変数にした最適化へ組み替え、確率的勾配法で素早く解く枠組みにしています。 / さらに粒子画像の姿勢(回転・平行移動)を推定途中で更新できるようにし、合成データと実データの実験で主要な変動成分を捉えつつ計算効率も維持し、最近のベンチマークでも複数データセットで高い成績を示したと述べています。

7369 字
読む →

AI GameStore:人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満

AI GameStore は、汎用知能を測るために「人間が実際に作り、遊ぶゲームの宇宙」を使うべきだという立場から、Apple App Store や Steam の人気ゲームを標準化・再構築して評価ベンチマーク化する仕組みです。 著者らは 100 本のゲームを生成・精査し、106 人の人間と最先端 VLM を比較しましたが、最良の GPT-5.2 でも人間中央値を 100 とした尺度で 8.5 にとどまり、しかも人間の 10 倍以上遅くプレイしています。 面白いのは、AI の弱さが単なる操作ミスではなく、記憶、計画、world model learning、社会的推論のような能力が複合的に要求されるゲームで顕著に出ることです。単発ベンチでは見えにくい「統合知能の弱さ」をかなり露骨に出しています。

5661 字
読む →

AutoNumerics:自然言語から古典的な数値PDEソルバーを自律生成するマルチエージェント枠組み

AutoNumericsは、自然言語で書かれた偏微分方程式(PDE)の問題記述を受け取り、古典的な数値解析に基づく解釈可能なソルバーを、設計から実装・デバッグ・検証まで自律的に作る枠組みです。 / 複数のLLMエージェントが、問題の構造化、複数スキーム案の立案と不適切案の除外、粗い格子での論理バグ修正と高解像度での安定性確認、解析解がない場合の残差に基づく自己検証までを段階的に連携します。 / 24個の代表的なPDE問題で、既存のニューラル系やLLM系の手法と比べて同等以上の精度を示したと報告されており、PDEの構造に応じたスキーム選択も行えることから、PDE自動解法を使いやすくする実装指向の道筋を示しています。

5625 字
読む →

いつでも有効な統計的ウォーターマーキングに向けて

本論文は、統計的ウォーターマーキング検出を逐次(ストリーミング)で監視しながら、止めるタイミングをデータに応じて選んでも偽陽性(Type I error)の上限が崩れない枠組みを示しています。 / 生成側と検出側が共有するアンカー分布p0を導入し、ターゲット分布qがp0の近傍にあるという前提のもとで、トークンと疑似乱数シードの依存を埋め込みつつ、検出をe-value(非負のスーパー・マルチンゲール)として設計します。 / 理論として最悪ケースの対数成長率と期待停止時間の関係を与え、シミュレーションと既存ベンチマーク評価により、平均の検出トークン予算を最先端ベースラインより13〜15%削減できたと報告しています。

5663 字
読む →

連合U字型スプリット学習の中間表現を守るKD-UFSL:マイクロアグリゲーションと差分プライバシーの併用

UFSLはデータとラベルをクライアントに残しつつ計算の一部をサーバへオフロードできますが、クライアントが送る中間表現(smashed data)から生データが再構成され得るため、サーバが「正直だが好奇心旺盛」な場合でも漏えい経路になり得ます。

6592 字
読む →

ペルシア語言語モデルにおける「事実」と「概念」のギャップを明らかにする:DivanBenchによる診断

ペルシア語の文化的な「それらしさ」を含む問いでは、多くのモデルが適切な作法を選ぶことはできても、同じ概念に対する明確な違反を退けることが苦手で、もっともらしい文化語彙に引っ張られて肯定してしまう偏りが強く示されました。

6442 字
読む →

安いチェックをいつ信じるか:推論における弱い検証と強い検証

推論を含む大規模言語モデルの運用では、速くて安いが不完全な弱い検証と、信頼を確立しやすい一方で資源を要する強い検証の使い分けがボトルネックになりやすく、本論文はその緊張関係を「いつ強い検証に委ねるか」という意思決定として整理しています。

7018 字
読む →