AI研究 | Cog AI Archive

AI研究 2026-02-01 長文

ToolWeaver：大規模言語モデルにおける拡張可能なツール利用のための協調的意味論の織り成し

従来の大規模言語モデルにおけるツール利用手法は、ツールごとに固有のトークンを割り当てる方式により、語彙数の膨張とツール間の関連性学習の困難さという課題に直面していました。本研究が提案するToolWeaverは、ツールを階層的なコード配列として表現することで、語彙の拡張を対数スケールに抑制し、ツール間の共起関係を直接学習可能な構造を実現しています。約47,000個のツールを用いた検証の結果、ToolWeaverは従来手法を大幅に上回る性能を示し、モデルの言語能力を維持しつつ複雑なタスクを完遂できる高い汎用性を証明しました。具体的には、ツールの内的な機能と外的な共起パターンを結合する「協調認識型ベクトル量子化」を導入し、複数のツールを連携させる必要がある高度な推論タスクにおいて、既存の検索ベースや生成ベースの手法を凌駕する精度を達成しています。

7621 字

読む →

AI研究 2026-02-01

タスク指向の敵対的メモリアダプテーションによる会話エージェントの強化

従来の会話エージェントにおけるメモリシステムは、オフラインでのメモリ構築がタスクに依存せず固定されていたため、実際のタスク要求との間に乖離が生じるという課題がありました。本研究が提案する「敵対的メモリアダプテーション（AMA）」は、チャレンジャー、エバリュエーター、アダプターという3つのエージェントを用いてタスク実行をシミュレーションし、メモリ構築と更新をタスク目標に動的に適合させます。長期対話ベンチマークであるLoCoMoを用いた実験の結果、AMAは既存の複数のメモリシステムに統合可能であり、下流タスクにおける推論性能と適応性を大幅に向上させることが確認されました。

6466 字

読む →

AI研究 2026-02-01

MIPにおける並列LP求解のためのバッチ化された一次手法

混合整数計画法（MIP）の計算効率を劇的に向上させるため、GPUの並列演算能力を最大限に活用して複数の線形計画問題（LP）を一括で解く「バッチ処理型一次形式解法（BatchLP）」が開発されました。

5820 字

読む →

AI研究 2026-02-01

テスト時の強化学習における分布を考慮した報酬推定手法「DARE」

大規模言語モデルがラベルのないデータで自己改善するテスト時強化学習において、従来の多数決方式が抱えていた「正解が少数派の場合に有益な情報を捨ててしまう問題」と「初期の誤答を強化し続ける確認崩壊」を理論的に特定し、解決策を提示しました。

6420 字

読む →

AI研究 2026-02-01

時系列予測のための拡散モデルにおける分解可能な順方向プロセス

従来の拡散モデルは、データの構造を考慮せず無差別にノイズを付加するため、時系列の重要な季節性やトレンドが早期に破壊される課題がありました。本研究は、信号をスペクトル成分に分解し、振幅の大きさに応じて段階的にノイズを注入する「分解可能な順方向プロセス」を提案し、重要な周波数成分の信号対雑音比を高く維持することを可能にしました。この手法はモデルアグノスティックであり、DiffWaveやCSDIといった既存の多様なモデル構造を変更することなく、計算負荷をほぼ増やさずに長期予測の精度を一貫して向上させ、データの時間的構造を最後まで保持した生成を実現します。

5712 字

読む →

AI研究 2026-02-01

メカニスティックなデータ・アトリビューション：解釈可能なLLMユニットの学習の起源の追跡

Mechanistic Data Attribution（MDA）は、大規模言語モデル（LLM）内部の誘導ヘッドなどの解釈可能なユニットが、学習データのどのサンプルから影響を受けて形成されたのかを特定する新しいフレームワークです。

5924 字

読む →

AI研究 2026-02-01

道徳的怒りは注目だけでなく積極的な関与も引き出す：YouTubeにおける日米のマルチモーダルな道徳感情分析

本研究は、YouTubeのニュース動画において、サムネイル画像とタイトルを組み合わせたマルチモーダルな分析を行い、道徳的感情のフレーミングがユーザーの関与に与える影響を韓国と米国の比較を通じて調査した。

5922 字

読む →

AI研究 2026-02-01

選好データからのノンパラメトリックなLLM評価手法「DMLEval」

従来のLLM評価はBradley-Terryモデルなどのパラメトリックな手法に依存しており、モデルの誤設定によるバイアスの発生や、複雑な機械学習モデルを用いた際の不確実性の定量化が困難であるという課題があった。

6330 字

読む →

AI研究 2026-02-01

TBDFiltering: 階層的クラスタリングを用いた効率的な学習データ選別手法

大規模言語モデル（LLM）の学習データ選別において、全文書を高コストなLLMで評価するのは不可能ですが、本手法はテキスト埋め込みによる階層的クラスタリングを活用し、品質が均一なクラスタを適応的に特定することで評価回数を劇的に削減します。

5699 字

読む →

AI研究 2026-02-01

正解ラベルなしでLLMを評価する「審査員考慮型」ランキングフレームワーク

大規模言語モデル（LLM）の評価において、別のLLMを審査員として用いる手法が普及していますが、審査員ごとの信頼性の違いを無視して一律に扱うと、ランキングに偏りが生じ、データが増えるほど誤った結論に対して過剰な自信を持ってしまうという統計的な問題があります。

5968 字

読む →

生成AI研究を、要点から追う。

最新の記事

ToolWeaver：大規模言語モデルにおける拡張可能なツール利用のための協調的意味論の織り成し

タスク指向の敵対的メモリアダプテーションによる会話エージェントの強化

MIPにおける並列LP求解のためのバッチ化された一次手法

テスト時の強化学習における分布を考慮した報酬推定手法「DARE」

時系列予測のための拡散モデルにおける分解可能な順方向プロセス

メカニスティックなデータ・アトリビューション：解釈可能なLLMユニットの学習の起源の追跡

道徳的怒りは注目だけでなく積極的な関与も引き出す：YouTubeにおける日米のマルチモーダルな道徳感情分析

選好データからのノンパラメトリックなLLM評価手法「DMLEval」

TBDFiltering: 階層的クラスタリングを用いた効率的な学習データ選別手法

正解ラベルなしでLLMを評価する「審査員考慮型」ランキングフレームワーク