継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

U-Fold:ユーザー中心のエージェントのための動的かつ意図を考慮したコンテキストフォールディング

1. 既存のコンテキスト圧縮手法は、静的な要約によってユーザーの意図の変化や詳細な制約を保持できず、複雑な対話において重要な事実を不可逆的に失い、誤った行動を招くという課題がある。 2. 提案手法「U-Fold」は、対話履歴全体を保持しつつ、各ターンでユーザーの意図を考慮した動的な対話要約と、タスクに真に関連するツールログのみを抽出する二段階のモジュールで構成される。 3. 実証実験では、長文コンテキスト設定においてReActに対し71.4%の勝率を記録し、既存の圧縮手法を最大27.0%上回る大幅な性能向上を達成し、情報の完全性と圧縮の両立を証明した。

6933 字
読む →

Temp-R1:逆カリキュラム強化学習による複雑な時間的KGQAのための統合自律エージェント

Temp-R1は、動的な事実と複雑な時間的制約を伴う知識グラフ質問応答(TKGQA)を解決するために開発された、強化学習ベースの統合自律エージェントである。 単一の思考タグによる認知負荷を分散させるため、内部アクションとして計画、フィルタリング、順位付けを導入し、さらに難易度の高い問題から学習を開始する逆カリキュラム学習を採用した。 80億パラメータのモデルでありながら、複雑な質問において既存手法を19.8%上回る精度を達成し、GPT-4oベースのシステムを凌駕する新たな状態最新(SOTA)を確立した。

5721 字
読む →

Transformer事前学習における最終層の隠れ状態の跳躍の抑制

Transformer言語モデルの内部挙動において、最終層付近で隠れ状態の角度距離が急激に変化する「跳躍(ジャンプ)」現象が多くのモデルで共通して観察されており、これが中間層の能力を十分に活用できていない原因であるという課題を特定しました。

5964 字
読む →

英語を超えたキャリブレーション:より良い量子化多言語LLMのための言語多様性

大規模言語モデルの量子化において、従来の英語のみを用いたキャリブレーション手法が多言語モデルの性能を制限していることを明らかにし、非英語および多言語混合データセットを用いることで、モデル全体のパープレキシティを最大3.52ポイント改善できることを示した。 Llama3.1 8BやQwen2.

6038 字
読む →

MultiVis-Agent:論理規則を用いた信頼性が高く包括的なクロスモーダルデータ可視化のためのマルチエージェントフレームワーク

従来のテキストから可視化を行うシステムは、単一の入力形式や一度限りの生成プロセス、柔軟性に欠けるワークフローといった限界を抱えており、大規模言語モデル(LLM)を用いた手法でも無限ループや致命的な失敗といった信頼性の問題が課題となっていました。

6150 字
読む →

頑健なマルチモーダル感情推論のためのきめ細かい視聴覚証拠の統合

従来のマルチモーダル大規模言語モデルは、視覚と音声の微細な信号を統合できず、特定のモダリティに偏る「単一モダリティ優位」の問題を抱えていました。 本研究では、60万件の動画クリップからなる大規模データセット「SABER」と、証拠抽出を推論から分離する「構造化証拠分解(SED)」パラダイムを提案しました。

6413 字
読む →

言葉よりコードを:コードに基づく推論による意味的慣性の克服

大規模言語モデル(LLM)が、文脈上の新しいルールよりも学習済みの事前知識を優先してしまう「意味的慣性」という問題を特定し、パズルゲーム「Baba Is You」を用いてその影響を定量的に評価しました。

6391 字
読む →

優れた文章は生成可能か?高品質な書籍でのファインチューニングによる専門家レベルのAIライティングの創発

アイオワ・ライターズ・ワークショップ等の名門校に所属する28名の専門作家と3つの大規模言語モデルを対象に、著名な作家50名の文体を模倣する能力を比較する大規模な行動実験が行われました。 文脈内学習のみの条件では専門家は82.

5707 字
読む →

CitiLink:検索可能な会議録を通じた自治体の透明性と市民参加の向上

地方自治体が公開する議事録は、官僚的で難解な記述スタイルや膨大な文書量により、市民やジャーナリストが特定の情報を効率的に検索することが困難であるという課題を抱えている。本研究では、大規模言語モデル(LLM)であるGemini 2.

6498 字
読む →

LLMによって洗練されたタクソノミーを用いた階層的テキスト分類

階層的テキスト分類(HTC)において、人間が作成した従来のタクソノミー(分類体系)には曖昧さや不整合が含まれており、言語モデルの学習を妨げているという課題がある。 本研究が提案する「TAXMORPH」は、大規模言語モデル(LLM)をタクソノミストとして活用し、リネームや統合、再配置を通じて分類体系全体をモデルの内部表現に適した構造へと自動的に洗練させるフレームワークである。 実験の結果、LLMで洗練されたタクソノミーは人間による元の体系を最大で2.9ポイント上回るF1スコアを記録し、モデルの推論バイアスとより密接に一致することで分類精度を向上させることが確認された。

6054 字
読む →