継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

共感を持って話す前に二度熟考する:共感を意識したエンドツーエンド音声対話のための自己反省的交互推論

共感的な音声対話では、返答そのものだけでなく、相手の感情をどう読み取り、なぜその返答に至ったかという“途中の推論”まで扱わないと品質が伸びにくい、という問題設定が置かれています。 / そこで著者らは、共感の良し悪しを自然言語の説明として出力する評価器 EmpathyEval と、反省文と音声応答を交互に生成する ReEmpathy を組み合わせ、話す前に二度振り返るような推論過程を end-to-end の音声対話モデルへ埋め込みました。 / 実験では、記述型の共感評価、スコア型評価との相関、人手評価のいずれでも改善が見られ、単純な Chain-of-Thought を話す前に入れるだけでは足りず、反省と発話を交互に回す設計が効いていることが示されます。

7117 字
読む →

思考強化型関数呼び出し:埋め込み推論によるLLMパラメータ精度の向上

本研究は、大規模言語モデル(LLM)の関数呼び出しにおいて、関数の引数(パラメータ)ごとに明示的な推論プロセスを組み込む新フレームワーク「TAFC」を提案した。 従来の関数呼び出しが抱えていた「パラメータ生成時の推論の不透明性」を解消するため、関数シグネチャに「think」パラメータを追加し、モデルが意思決定の根拠を記述してから値を生成する仕組みを導入している。 ToolBenchを用いた検証では、GPT-4oやLlama-3.1などの主要モデルにおいて、特に複雑な複数パラメータを持つ関数の生成精度と推論の整合性が大幅に向上し、小規模モデルでも顕著な改善が確認された。

5719 字
読む →

U-Fold:ユーザー中心のエージェントのための動的かつ意図を考慮したコンテキストフォールディング

1. 既存のコンテキスト圧縮手法は、静的な要約によってユーザーの意図の変化や詳細な制約を保持できず、複雑な対話において重要な事実を不可逆的に失い、誤った行動を招くという課題がある。 2. 提案手法「U-Fold」は、対話履歴全体を保持しつつ、各ターンでユーザーの意図を考慮した動的な対話要約と、タスクに真に関連するツールログのみを抽出する二段階のモジュールで構成される。 3. 実証実験では、長文コンテキスト設定においてReActに対し71.4%の勝率を記録し、既存の圧縮手法を最大27.0%上回る大幅な性能向上を達成し、情報の完全性と圧縮の両立を証明した。

6933 字
読む →

TriPlay-RL:LLMの安全性アライメントのための三役割自己対戦強化学習

大規模言語モデル(LLM)の安全性向上を目的として、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)の3つの役割が互いに学習し合う閉ループ強化学習フレームワーク「TriPlay-RL」が提案されました。

6794 字
読む →

Temp-R1:逆カリキュラム強化学習による複雑な時間的KGQAのための統合自律エージェント

Temp-R1は、動的な事実と複雑な時間的制約を伴う知識グラフ質問応答(TKGQA)を解決するために開発された、強化学習ベースの統合自律エージェントである。 単一の思考タグによる認知負荷を分散させるため、内部アクションとして計画、フィルタリング、順位付けを導入し、さらに難易度の高い問題から学習を開始する逆カリキュラム学習を採用した。 80億パラメータのモデルでありながら、複雑な質問において既存手法を19.8%上回る精度を達成し、GPT-4oベースのシステムを凌駕する新たな状態最新(SOTA)を確立した。

5721 字
読む →

Transformer事前学習における最終層の隠れ状態の跳躍の抑制

Transformer言語モデルの内部挙動において、最終層付近で隠れ状態の角度距離が急激に変化する「跳躍(ジャンプ)」現象が多くのモデルで共通して観察されており、これが中間層の能力を十分に活用できていない原因であるという課題を特定しました。

5964 字
読む →

英語を超えたキャリブレーション:より良い量子化多言語LLMのための言語多様性

大規模言語モデルの量子化において、従来の英語のみを用いたキャリブレーション手法が多言語モデルの性能を制限していることを明らかにし、非英語および多言語混合データセットを用いることで、モデル全体のパープレキシティを最大3.52ポイント改善できることを示した。 Llama3.1 8BやQwen2.

6038 字
読む →

MultiVis-Agent:論理規則を用いた信頼性が高く包括的なクロスモーダルデータ可視化のためのマルチエージェントフレームワーク

従来のテキストから可視化を行うシステムは、単一の入力形式や一度限りの生成プロセス、柔軟性に欠けるワークフローといった限界を抱えており、大規模言語モデル(LLM)を用いた手法でも無限ループや致命的な失敗といった信頼性の問題が課題となっていました。

6150 字
読む →

頑健なマルチモーダル感情推論のためのきめ細かい視聴覚証拠の統合

従来のマルチモーダル大規模言語モデルは、視覚と音声の微細な信号を統合できず、特定のモダリティに偏る「単一モダリティ優位」の問題を抱えていました。 本研究では、60万件の動画クリップからなる大規模データセット「SABER」と、証拠抽出を推論から分離する「構造化証拠分解(SED)」パラダイムを提案しました。

6413 字
読む →

不均衡補正を伴う音源定位のための解析的増分学習

本研究は、音源定位(SSL)の増分学習において、特定の方向のデータが極端に多い「タスク内不均衡」と、タスク間でクラス分布が重なり歪む「タスク間不均衡」の二重の課題を解決する新フレームワーク「SSL-GCIL」を提案しました。

7020 字
読む →