分散型LLMコラボレーションを学習するマルチエージェントActor-Critic手法
TL;DR本研究は、分散型LLMコラボレーションを最適化するためのマルチエージェントActor-Critic(MAAC)手法を提案しています。中央集権型Criticを持つCoLLM-CCと分散型Criticを持つCoLLM-DCの2つのアプローチを開発し、長期的タスクや報酬が疎な環境におけるCoLLM-CCの優位性を示しました。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR本研究は、分散型LLMコラボレーションを最適化するためのマルチエージェントActor-Critic(MAAC)手法を提案しています。中央集権型Criticを持つCoLLM-CCと分散型Criticを持つCoLLM-DCの2つのアプローチを開発し、長期的タスクや報酬が疎な環境におけるCoLLM-CCの優位性を示しました。
TL;DR大規模言語モデル(LLM)のハルシネーションを抑制するため、自己チェックを用いたデコーディング手法「Token-Guard」が提案された。これは各推論ステップで内部検証を行い、ハルシネーションのリスクがあるトークンを検出・修正する。実験ではハルシネーションの大幅な削減と生成精度の向上が確認された。
TL;DR大規模な教師モデルから効率的な生徒モデルへ推論能力を転移させる新しい手法「OVD」が提案された。従来の手法と異なり、トークンレベルの確率一致ではなく、教師からの離散的な言語スコア(0〜9)を用いた軌跡マッチングを採用している。これによりメモリ消費を大幅に削減しつつ、Web質問応答や数学タスクで顕著な性能向上を達成した。
TL;DRAI研究ではこれまでアルゴリズムの性能が優先されてきたが、グリーンAIの台頭によりエネルギー消費も重要な指標となっている。本研究は、自動プランニングにおけるドメインモデルの設計がエネルギー消費に与える影響を実証的に調査したものである。
TL;DRSoftMolは、分子生成のための新しい統合フレームワークであり、従来のトークン予測の限界を克服するために開発された。SMILESのルールフリーなブロック表現である「ソフトフラグメント」を導入し、拡散モデルと自己回帰生成を組み合わせたSoftBDを提案している。
TL;DR本研究は、生成AIと誤情報に関する2024年の調査以降の脅威の変化を報告し、文献レビューから実践的な対策へと焦点を移行させています。AI生成ニュースに対する人間の認識を評価する「JudgeGPT」と、研究用の刺激生成エンジン「RogueGPT」を開発し、実験パイプラインを構築しました。
TL;DRウェブエージェントの意思決定における視覚的属性の影響を定量化する評価パイプライン「VAF」を提案した研究です。背景色のコントラスト、アイテムのサイズ、配置位置などがエージェントの行動に強く影響する一方、フォントスタイルやテキスト色の影響は軽微であることが、5つの実在サイトと4種のエージェントを用いた実験で明らかになりました。
TL;DRデータ駆動型最適化(DBO)は、代理モデルを用いて空力性能向上のための形状最適化を効率化するが、訓練データ外のサンプルに対する予測誤差が課題である。本研究では、不確実性を定量化し最適化プロセスに組み込むUA-DBOフレームワークを提案する。
TL;DR従来のLLMのツール利用手法は、ツールの増加に伴う語彙の爆発やツール間の関係性の学習不足という課題を抱えていました。本研究が提案する「ToolWeaver」は、ツールを階層的なコードシーケンスに符号化することで、語彙の増加を対数的に抑えます。
TL;DR拡散モデルの収束解析において、ターゲット分布の幾何学的仮定を置かずに、シャノンエントロピーを用いた次元フリーな新しいアプローチを提案した研究である。ターゲット分布と生成分布間のKLダイバージェンスを評価し、学習損失のみを利用する軽量な「損失適応型スケジュール(LAS)」
Pricing