継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

HGP-KMR:RGB とイベントカメラを組み合わせ、地下鉄のキロ程標認識を強くする

HGP-KMR は、通常の RGB 画像だけでは厳しい地下鉄環境のキロ程標認識に対し、イベントカメラ由来の情報を hypergraph prompt として foundation model 側へ注入することで精度を上げる手法です。 あわせて EvMetro5K という 5,599 組の RGB-Event ペアからなる専用データセットを整備し、EvMetro5K で 95.1% 精度、PARSeq 比 +3.4 ポイントを達成しています。 面白いのは、単に RGB と event を結合するだけでなく、両モダリティの高次関係を hypergraph として表現し、それを prompt 的に RGB backbone 各層へ注入した点です。単純融合より精度は高く、推論速度も 89 FPS と実用圏に収まっています。

5757 字
読む →

Aletheia、自律的にFirstProofに取り組む

Gemini 3 Deep Thinkで動く数学研究エージェントAletheiaは、研究レベルの数学課題集FirstProofの初回チャレンジにおいて、許容された時間内に10問中6問(2、5、7、8、9、10)を自律的に解けたと、専門家の多数評価に基づいて報告されています。

5872 字
読む →

KV Bindingを用いたTest-Time Trainingは「記憶」ではなく学習された線形注意として理解できる、という再定式化。

KV binding型のTest-Time Trainingは、テスト時にキーと値の対応を作って保持し、クエリで検索する「一時的な記憶装置」だと説明されがちですが、観測される挙動にはその説明と噛み合わない点が複数あります。

5115 字
読む →

スケーラブルで堅牢な光学システム制御のためのエージェンティックAI

AgentOpticsは、言語モデルの推論とデバイス実行をMCPで分離し、自然言語の指示から異種な光デバイス操作を高忠実度に自律実行する枠組みです。 / 8種類の代表的な光デバイスに対して64個の標準化ツールを用意し、要求理解や複数手順の連携、言い換えへの頑健性、エラー対応まで含む410タスクのベンチマークで、商用オンラインLLMとローカルのオープンソースLLMを評価しました。 / 平均成功率は87.7%〜99.0%でコード生成方式(最大50%)を上回り、DWDMの回線設定、400 GbEとARoFの協調監視、偏波安定化、DAS監視など、装置単体を超えたオーケストレーションと閉ループ最適化も示しました。

6052 字
読む →

SAPOのゲート関数設計:滑らかなゲートはRLHFの安定性をどう変えるか

この研究は、SAPO の要である滑らかなゲート関数を「何でも滑らかならよい」とは見ず、どの形のゲートが exploration と stability のバランスをどう変えるかを理論的に整理しています。 比較対象は sigmoid だけではなく、error function、arctangent、softsign まで広げられており、勾配の裾の重さが違うと、珍しいトークンへの感度やオフポリシー更新の抑え方が変わることを示します。 重要なのは、RLHF 系の方策更新を「clip の有無」ではなく「勾配がどの比率領域でどれだけ残るか」という形で設計し直した点です。経験的最適化の話に見えて、実はかなり設計原理寄りの論文です。

5796 字
読む →

LLM Review:ブラインド・ピアレビュー型フィードバックで創作の均質化を避けるマルチエージェント枠組み。

創作では相互作用を増やすほど良くなるとは限らず、エージェント同士が互いの出力に引っ張られて内容が似通う「均質化」が起き得るため、情報の流れそのものを設計対象として扱う必要があります。 / LLM Reviewは、複数エージェントがまず独立に初稿を書き、その後に他者の初稿へ狙いを定めた批評だけを返しつつ、改稿では他者の改稿結果を見せない「ブラインド・ピアレビュー」型の反復を行います。 / サイエンスフィクション短編用データセットSciFi-100と、採点モデルによる評価・人手注釈・規則ベース新規性指標を組み合わせた検証で、提案枠組みが複数のマルチエージェント基準法より一貫して良い結果を示し、相互作用の構造がモデル規模を一部代替し得ることが示唆されます。

5989 字
読む →

インテリジェントAIへの委任

AIエージェントが複雑な目的を扱うほど、委任は単なるタスク分解では足りず、権限の移譲、責任と説明責任、役割と境界、意図の明確化、当事者間の信頼まで含めて設計する必要があります。 / 本論文は、委任を「タスク配分に関する意思決定の連なり」として捉え、環境変化や想定外の失敗に適応しつつ、人間とAIの双方が委任者にも被委任者にもなり得るネットワークで機能する枠組みを整理します。 / あわせて、能力の照合、継続的な性能監視、フィードバックに基づく調整、制約下での完了、信頼の校正といった要素を明示し、将来の「agentic web」に向けたプロトコル設計の論点を提示します。

5089 字
読む →

カスケード等価仮説:音声大規模言語モデルはいつ自動音声認識→言語モデルのパイプラインのように振る舞うのか。

書き起こしだけで解ける課題では、多くの音声大規模言語モデルが内部で暗黙の書き起こし表現を作り、その後に言語モデルとしての推論を進めるため、同じ言語モデルを組み合わせた自動音声認識→言語モデルのカスケードと、出力だけでなく失敗の仕方まで似やすいです。

7148 字
読む →

AI GameStore:人間のゲーム100本で測ると、最先端AIはまだ人間の1割未満

AI GameStore は、汎用知能を測るために「人間が実際に作り、遊ぶゲームの宇宙」を使うべきだという立場から、Apple App Store や Steam の人気ゲームを標準化・再構築して評価ベンチマーク化する仕組みです。 著者らは 100 本のゲームを生成・精査し、106 人の人間と最先端 VLM を比較しましたが、最良の GPT-5.2 でも人間中央値を 100 とした尺度で 8.5 にとどまり、しかも人間の 10 倍以上遅くプレイしています。 面白いのは、AI の弱さが単なる操作ミスではなく、記憶、計画、world model learning、社会的推論のような能力が複合的に要求されるゲームで顕著に出ることです。単発ベンチでは見えにくい「統合知能の弱さ」をかなり露骨に出しています。

5661 字
読む →

AutoNumerics:自然言語から古典的な数値PDEソルバーを自律生成するマルチエージェント枠組み

AutoNumericsは、自然言語で書かれた偏微分方程式(PDE)の問題記述を受け取り、古典的な数値解析に基づく解釈可能なソルバーを、設計から実装・デバッグ・検証まで自律的に作る枠組みです。 / 複数のLLMエージェントが、問題の構造化、複数スキーム案の立案と不適切案の除外、粗い格子での論理バグ修正と高解像度での安定性確認、解析解がない場合の残差に基づく自己検証までを段階的に連携します。 / 24個の代表的なPDE問題で、既存のニューラル系やLLM系の手法と比べて同等以上の精度を示したと報告されており、PDEの構造に応じたスキーム選択も行えることから、PDE自動解法を使いやすくする実装指向の道筋を示しています。

5625 字
読む →