Cog AI Archive

AI研究 2026-01-29

言語モデルが知っているのに言わないこと：汎化のための非生成的事前知識の抽出

医療や金融分野ではラベル付きデータの収集が困難であり、少数の偏ったデータで学習したモデルは未知のデータ分布に対して汎化性能が著しく低下するという深刻な課題がある。本研究が提案するLoIDは、大規模言語モデルが内部に持つ知識をテキスト生成ではなくトークン単位のロジットとして直接抽出する決定論的な手法であり、ベイズ統計学の事前分布として統合する。 10種類の公開データセットを用いた検証の結果、LoIDは既存手法を上回る精度を記録し、理想的なモデルとの性能差を最大59%回復させるなど、高い信頼性と計算効率、そして再現性を示した。

5723 字

読む →

AI研究 2026-01-29 長文

ToS: 動画内の距離推定を伴うステレオ音響イベントの定位と検出のためのスペシャリストチーム・アンサンブルフレームワーク

音響イベントの検出、定位、距離推定を同時に行う3D SELDは、意味（何が）、空間（どこで）、時間（いつ）という3つの次元を統合的に推論する必要があり、単一のモデルではこれら全ての要素を最適化することが困難という課題がありました。

7300 字

読む →

AI研究 2026-01-29

Athena：オンライン強化学習によるデータプリフェッチとオフチップ予測の相乗化

Athena（アテナ）は、プロセッサのメモリ遅延を隠蔽するためのデータプリフェッチとオフチップ予測（OCP）を、オンライン強化学習を用いて自律的に調整する革新的なフレームワークである。ワークロードのフェーズ変化によるノイズと自身の行動による真の成果を分離する独自の「複合報酬フレームワーク」を導入したことで、学習の安定性を飛躍的に高め、多様なシステム構成において既存手法を最大10.3%上回る性能向上を達成した。特定のアルゴリズムに依存しない汎用性を持ちながら、1コアあたりわずか3KBという極めて小さなハードウェアコストで実装可能であり、現代の高性能プロセッサにおけるメモリシステムの最適化に新たな道を示している。

5754 字

読む →

AI研究 2026-01-29

Split-on-Share：タスク非依存な継続学習のためのスパースな専門家混合モデル

大規模言語モデル（LLM）の継続学習において、新しい知識の習得（可塑性）と過去の知識の保持（安定性）を両立させるため、モデルをモジュール化された部分空間に分解する新フレームワーク「SETA」が提案されました。

6372 字

読む →

AI研究 2026-01-29

実環境におけるエージェンティック検索：1400万件以上の実検索リクエストから見る意図と軌跡のダイナミクス

本研究は、1444万件以上の実検索リクエストと397万件のセッションを含む大規模ログを分析し、自律型エージェントの検索行動を世界で初めて包括的に解明しました。エージェントの検索意図（事実確認、手続き、推論）によって行動パターンが大きく異なり、特に事実確認では非効率な重複が発生しやすい一方で、推論では広範な探索が行われることを特定しました。新規クエリ用語の54%が過去の検索結果に由来することを示す新指標「CTAR」を提案し、エージェントがセッション全体を通じて蓄積された文脈をクエリの洗練に活用していることを定量的に証明しました。

5780 字

読む →

AI研究 2026-01-29

RPNT：堅牢な事前学習済みニューラル・トランスフォーマー ―― 汎用的な運動デコーディングへの道筋

脳活動を解釈して行動へと翻訳する脳デコードにおいて、異なるセッション、被験者、記録部位、行動タイプといった多様なバリエーションを越えて汎化可能な新しいモデル「RPNT」が提案されました。このモデルは、実験メタデータを統合する多次元回転位置埋め込み（MRoPE）、神経活動の非定常性に対処するコンテキストベースのアテンション、そして一様ランダムマスキングを用いた自己教師あり学習という独自の構成要素を備えています。非ヒト霊長類の運動データセットを用いた検証により、RPNTはセッション間や被験者間を跨ぐデコードタスクにおいて既存のモデルを一貫して上回る性能を示し、脳コンピュータインターフェースの発展に寄与する可能性を証明しました。

5701 字

読む →

AI研究 2026-01-29

マルチモーダルRAGプライバシーの体系的な評価

マルチモーダル検索拡張生成（mRAG）システムは、外部データベースの画像を参照して回答精度を高める一方で、特定の画像がデータベースに含まれているかを特定するメンバーシップ推論攻撃（MIA）や、画像に付随する機密テキストを抽出する画像キャプション取得（ICR）攻撃に対して極めて脆弱であることが本研究の体系的な評価によって明らかになりました。実験の結果、データベース内の画像が回転、クロップ、ノイズ付加などの加工を受けている現実的な条件下でも、攻撃者は高い精度で情報の有無を判定可能であり、特に視覚的に特徴が明確なデータセットでは機密性の高いメタデータが逐語的に漏洩するリスクが実証されました。この脆弱性は、プロンプト内での画像の配置順序やリランカーの設定によって変動し、入力画像を検索結果の前に配置することで漏洩を抑制できる可能性が示唆されましたが、依然として根本的な保護メカニズムの欠如が大きな課題として残っており、今後の安全なシステム開発に向けた重要な知見を提供しています。

5800 字

読む →

AI研究 2026-01-29

AVMeme Exam：LLMの文脈的・文化的知識と思考のためのマルチモーダル・多言語・多文化ベンチマーク

本研究では、インターネット上の音声・映像ミーム1,032件を厳選し、AIモデルが人間の文化的・文脈的な意味をどの程度理解できるかを測定する新しいベンチマーク「AVMeme Exam」を開発しました。

6517 字

読む →

AI研究 2026-01-29

北極海の海氷力学における短期変動の因果効果を定量化するための時変因果処理

北極海における海氷厚さと海面水位（SSH）の複雑な因果関係を解明するため、物理的知見と変分オートエンコーダーを融合させた新開発のフレームワーク「KGCM-VAE」が提案されました。このモデルは、流速信号をシグモイド関数で動的に調整する処理生成、潜在空間での分布の偏りを正すMMD、そして物理構造を反映した因果隣接行列によるデコーダー制約を組み合わせることで、観測データからの高精度な因果推論を実現しています。実際の北極海観測データを用いた検証では、既存の最先端手法を凌駕する推定精度を記録し、特に因果隣接制約と分布調整の相乗効果によって推定誤差を1.88%削減することに成功しており、気候変動予測の精緻化に大きく寄与する成果となっています。

5679 字

読む →

AI研究 2026-01-29

UrduLM：リソース効率の高い単一言語ウルドゥー語言語モデル

ウルドゥー語は世界で2億3000万人の話者を抱える主要言語ですが、既存の多言語モデルではトークン化の非効率性や文化的な不正確さが課題となっており、専用の生成モデルや高品質なデータセットが不足していました。

6274 字

読む →

生成AI研究を、要点から追う。

最新の記事

言語モデルが知っているのに言わないこと：汎化のための非生成的事前知識の抽出

ToS: 動画内の距離推定を伴うステレオ音響イベントの定位と検出のためのスペシャリストチーム・アンサンブルフレームワーク

Athena：オンライン強化学習によるデータプリフェッチとオフチップ予測の相乗化

Split-on-Share：タスク非依存な継続学習のためのスパースな専門家混合モデル

実環境におけるエージェンティック検索：1400万件以上の実検索リクエストから見る意図と軌跡のダイナミクス

RPNT：堅牢な事前学習済みニューラル・トランスフォーマー ―― 汎用的な運動デコーディングへの道筋

マルチモーダルRAGプライバシーの体系的な評価

AVMeme Exam：LLMの文脈的・文化的知識と思考のためのマルチモーダル・多言語・多文化ベンチマーク

北極海の海氷力学における短期変動の因果効果を定量化するための時変因果処理

UrduLM：リソース効率の高い単一言語ウルドゥー語言語モデル