継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

Avey-B:注意機構を使わないAveyを双方向エンコーダとして再定式化し、長文脈へ効率よくスケールさせる設計です。

Avey-Bは、計算資源とメモリの制約が厳しい状況でも使われやすい双方向エンコーダを、自己注意の二乗コストに依存せず長い文脈へ拡張しやすくするための注意機構なしアーキテクチャです。 / 入力列を分割して関連分割だけをランキングで取得しつつ、層ごとに「静的な線形変換」と「コサイン類似度にもとづく動的な文脈化」を分離し、類似度の安定化のための正規化と、取得文脈を一定トークン予算へ圧縮する仕組みを組み込みます。 / 標準的なトークン分類と情報検索ベンチマークでTransformer系の双方向エンコーダ4種と比較して一貫して良好に振る舞い、128〜96Kトークンでは系列が長いほど遅延面の優位が広がり、96KでModernBERT比3.38倍、NeoBERT比11.63倍の高速化が報告されています。

5885 字
読む →

シミュレーション合成データでAIエージェントを育てるには何が要るか:不足データ問題からデジタルツイン参照枠組みまで。

現代のサブシンボリックAIは大量かつ高品質な学習データに支えられますが、実世界データは取得コスト、プライバシー、安全性、組織内サイロなどの制約で集めにくく、さらに欠損や重複やノイズが使い勝手を下げるため、合成データ生成の需要が高まります。

5024 字
読む →

CrispEdit:能力劣化を抑えるために低曲率方向へ射影する、スケーラブルな非破壊LLM編集

CrispEditは、編集が一見成功しても一般的な能力が静かに壊れるという「能力保持」の難しさを正面から扱い、能力の変化を小さく抑えることを明示的な制約として組み込む手法です。 / 編集を制約付き最適化として定式化し、能力損失の地形で曲率が小さい部分空間へ更新を射影して、能力に敏感な方向の更新成分を取り除く設計にしています。 / 標準的なモデル編集ベンチマーク全体で高い編集成功を保ちながら、データセット平均の能力劣化を1%未満に抑え、従来の編集器より編集と保持のトレードオフを大きく改善したと報告されています。

4809 字
読む →

知覚するヒューマノイド・パルクール(PHP):Motion Matchingで人間スキル断片を連結し、深度入力の単一方策へまとめる枠組み。

少数で短い人間の高ダイナミクス動作データからでも、ヒューマノイドが視覚にもとづいて障害物コースを長時間にわたり自律走破できるようにする、モジュール型の枠組みが示されています。 / Motion Matchingを特徴空間での最近傍探索として使い、歩行・走行と原子スキルをつないで長時間の参照軌道を合成し、その参照を追従する複数の強化学習専門家を学習したうえで、DAggerと強化学習を組み合わせて深度入力の単一方策へ蒸留します。 / Unitree G1の実機で、深度センサと離散的な2次元速度指令だけを用い、約3 m/sの跳び越えや1.25 m(身長の96%)までの壁登り、60秒の連続走破、障害物の摂動に対する閉ループ適応が確認されています。

5494 字
読む →

長い文脈ほど焦点がぼけるのか:プライバシーと個人最適化で見えるLLMの「スケーリング・ギャップ」とPAPerBench

長い文脈を与えれば個人最適化が自然に良くなり、同時にプライバシーも堅牢になると期待しがちですが、本研究の評価では文脈長が伸びるほど個人最適化とプライバシーの両方で性能低下が一貫して観測されています。

5347 字
読む →

意味的チャンク分割と自然言語のエントロピー:階層構造から「約1ビット/文字」を説明する試み。

印刷された英語のエントロピー率が「約1ビット/文字」と推定されるほど小さいことは、ランダムなテキストに期待される「約5ビット/文字」と比べて大きな冗長性を含むことを意味し、その理由を意味の階層構造から説明しようとしています。 / 大規模言語モデルを使って文書を意味的に一貫した塊へ再帰的に分割し、トークンを葉にもつ「意味木」を作ったうえで、最大分岐数Kだけで定まるランダムなK分木アンサンブルにより、その木が現れる確率を計算できる形にします。 / 意味木の確率から得た理論的なエントロピー率の推定は、次トークン確率から得るクロスエントロピー推定と多様なコーパスで近くなり、さらにエントロピー率は固定ではなくコーパスの意味的複雑さに応じて系統的に増えるという見通しを示します。

6195 字
読む →

CM2:チェックリスト報酬でマルチターン・マルチステップのツール利用エージェントを強化学習する

現実のエージェント学習では「最終回答が正しいか」のように検証可能な報酬を用意しにくく、しかも対話の継続や提案など開放的な振る舞いを最適化したいのに、強化学習を回すための信号設計が難しい問題があります。

6121 字
読む →

Webエージェントのためのエージェンティックなテスト時スケーリング

Webのマルチステップ作業では、各ステップで同じだけ候補生成を増やす一様な推論時スケーリングは、手順が長いほど効果が早く頭打ちになり、簡単な操作にも計算が偏って無駄が生じやすいです。 / 各ステップで複数の候補行動をサンプルして投票分布を作り、その分布から不確実性(エントロピーや上位二択の差)を計算して、判断が割れているときだけ追加の選別器(Arbiter)を呼び出すCATTSを提案しています。 / CATTSはWebArena-LiteとGoBrowseでReActより最大9.1%の改善を示し、さらに一様スケーリングより最大2.3倍少ないトークンで動かせる可能性を示しつつ、どのステップで計算を増やしたかを規則として説明しやすくします。

7433 字
読む →

AttentionRetriever:大規模言語モデルのアテンション層に隠された長文検索能力の解明

長文RAGの弱点は、文脈をまたぐ依存関係や背景説明の拾い漏れを、短文向けの検索器がうまく扱えない点にあります。 / AttentionRetrieverは、事前学習済みLLMのattention mapを検索信号として使い、さらにエンティティグラフで検索範囲を広げることで、学習なしで長文検索を強化します。 / 単一文書検索では既存ベースラインを大きく上回り、QAでも入力トークンを大きく減らしながら直接生成に近い性能を示しており、長文RAGでは検索器そのものの前提を見直す必要があると分かります。

5768 字
読む →

UniT:統合型マルチモーダルモデルに複数ラウンドの推論・検証・編集を組み込み、推論時計算を画像ラウンドで拡張する枠組み

UniTは、理解と生成を同じモデルでこなしつつ、1回で答えを出すのではなく、画像を作り、確かめ、直し、また確かめるという反復をテスト時に回す枠組みです。 / 重要なのは、候補を並列にたくさん出して選ぶよりも、逐次的に考えて直していく方が、同じ計算量あたりで強い点です。画像生成、編集、視覚推論の複数ベンチで一貫して優位が出ています。 / 成功の鍵は、検証、サブゴール分解、内容記憶という三つの認知的ふるまいを学習データに埋め込んだことにあります。逆に言うと、単に推論回数を増やすだけでは足りず、何を確認し、何を覚え、どう分けて直すかまで設計しないと伸びません。

5667 字
読む →