継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

大規模言語モデルにおいて回答すべきでない時を学ぶ知的謙虚さに報酬を与える

大規模言語モデル(LLM)が事実に基づかない情報を生成するハルシネーションを抑制するため、正解には正の報酬、不正解には負の報酬、そして「分からない」という棄権回答には特定の報酬($r_{abs}$)を与える「検証可能な報酬による強化学習(RLVR)」という枠組みを導入し、モデルに知的謙虚さを学習させた。

6093 字
読む →

ベンガル語のヘイトスピーチ検出を強化する大規模データセット「BengaliSent140」の登場

ベンガル語の感情分析とヘイトスピーチ検出において、既存のデータセットは規模が小さくドメインが限定的であるという課題を解決するため、7つの公開リソースを統合し、139,792件のユニークなテキストを含む大規模な二値分類データセット「BengaliSent140」を構築しました。

6319 字
読む →

検索システムフレームワークの分類学:その落とし穴とパラダイム

本論文は、埋め込みベースの検索システムにおける効率性と有効性のトレードオフを整理するため、「表現層」「粒度層」「オーケストレーション層」「堅牢性層」の4層からなる新しい分類学を提案している。 Bi-Encoderの高速性とCross-Encoderの高精度を両立させるLate Interactionなどのハイブリッド手法や、ドキュメント分割(チャンキング)が検索精度と生成品質に与える影響を詳細に分析し、システム全体の最適化指針を示している。 さらに、ドメイン一般化の失敗や語彙の死角、時間の経過による情報の陳腐化(時間的ドリフト)といった実運用上の課題を体系化し、タイムスタンプ注入などの具体的なアーキテクチャ上の緩和策を提示している。

6110 字
読む →

MEGにおける次脳トークン予測のスケーリング

本研究は、500時間以上の大規模な脳磁図(MEG)データセットを用い、次トークン予測のパラダイムを脳信号に適用した大規模自己回帰モデル「FlatGPT」を提案しています。 多チャネルのMEG信号を「BrainTokMix」という独自のトークナイザーで離散的なトークン列に変換し、Qwen2.

5802 字
読む →

大規模言語モデルは世界中における気候変動対策への支持に対する公衆の認識を正確に予測する

世界125カ国の世論調査データを基に、4つの主要な大規模言語モデル(LLM)が他者の気候変動対策への協力意欲をどの程度正確に予測できるかを検証したところ、ClaudeやLlamaは統計モデルに匹敵する高い精度で人々の認識のズレを捉えることが判明した。

6416 字
読む →

Trajectory2Task:合成されつつも検証可能なデータを用いた、複雑なユーザー意図のための堅牢なツール呼び出しエージェントの学習

現実世界のツール利用エージェントが直面する「曖昧な意図」「変化する意図」「実行不可能な意図」という3つの複雑なシナリオに対処するため、検証可能なデータ生成パイプラインであるTrajectory2Taskが開発されました。

6139 字
読む →

LogSieve:LLMによるCIログ分析をサステナブルにするタスク認識型ログ削減手法

継続的インテグレーション(CI)におけるログの肥大化は、LLMを用いた分析のコストと環境負荷を増大させている。本研究では、根本原因分析(RCA)に不可欠な情報を保持しつつ、不要な行をフィルタリングする軽量な手法「LogSieve」を提案し、AndroidプロジェクトのGitHub Actionsログを用いてその有効性を検証した。 LogSieveは平均で行数を42%、トークン数を40%削減しながら、意味的な忠実度(CosineおよびGPTScoreで0.93)と高い診断精度を維持し、構造重視の既存手法であるLogZipを上回る性能を示した。これにより、LLM推論前のデータ削減を通じて計算コストとエネルギー消費を抑え、持続可能なCI自動化を実現する。 埋め込みベースの分類器(BERTやLLaMA3等)を活用することで、97%という人間に近い精度で重要行の自動識別が可能である。この手法は特定のLLMに依存しない汎用的な前処理レイヤーとして機能し、実用的な開発現場でのデバッグ支援やパイプラインの監視を効率化し、グリーンなソフトウェアエンジニアリングに貢献する。

6115 字
読む →

Me-Agent:2段階の習慣学習でスマホ操作をパーソナライズするモバイルエージェント

Me-Agentは、大規模言語モデル(LLM)を基盤としたモバイルエージェントにおいて、追加のモデル訓練を行うことなく、ユーザーの過去の行動履歴や潜在的な好みを学習してパーソナライズされた操作を実現する新しいフレームワークである。

6302 字
読む →

大規模言語モデルの「暗黙的計画」能力を測定する新手法:1Bパラメータモデルでも確認

大規模言語モデルは、単に次の単語を予測するだけでなく、将来出力すべき内容を事前に準備する「暗黙的計画」の能力を備えていることが明らかになりました。 本研究では、モデルの内部状態を操作する簡便な手法を用いることで、10億パラメータ程度の比較的小規模なモデルにおいても、この計画能力が普遍的に存在することを定量的に実証しました。 この手法により、特定の韻を踏む際や質問に回答する際に、数トークン手前の段階で冠詞や中間表現を動的に調整しているメカニズムが解明され、AIの安全性と制御の理解に新たな道を開きました。

5836 字
読む →

NeuraLSP:共役勾配法のための効率的かつ厳密なニューラル左特異部分空間前処理

科学技術計算の基盤となる大規模線形システムの解決において、従来の代数的マルチグリッド法が抱えていた「ランク・インフレーション」と収束速度の低下という深刻な課題を克服するため、システム行列の近零空間ベクトルの主要な左特異部分空間を直接学習する新しいニューラル前処理手法「NeuraLSP」が提案されました。

6012 字
読む →