オフライン好みの最適化のための潜在空間における敵対的正則化
TL;DR従来の言語モデルの学習ではトークン単位の正則化が主流でしたが、意味的な類似性を捉えきれない課題がありました。本研究は、モデル内部の潜在表現の乖離を抑える手法「GANPO」を提案します。GANの手法を応用して潜在空間での正則化を行うことで、ノイズや分布の変化に強く、より頑健な学習が可能になることを示しました。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR従来の言語モデルの学習ではトークン単位の正則化が主流でしたが、意味的な類似性を捉えきれない課題がありました。本研究は、モデル内部の潜在表現の乖離を抑える手法「GANPO」を提案します。GANの手法を応用して潜在空間での正則化を行うことで、ノイズや分布の変化に強く、より頑健な学習が可能になることを示しました。
TL;DRマルチモーダル大規模言語モデル(MLLM)の知識不足を補うため、視覚・テキスト検索を強化する「Vision-DeepResearch」が提案された。これは複数回のターン、複数エンティティ、複数スケールでの検索を行い、ノイズの多い実環境でもロバストに機能する。
TL;DR複雑なデータを再利用可能な要素に分解し、それらを組み合わせて新しいサンプルを合成する手法の研究です。拡散モデルを用いて、教師データなしで潜在空間の要素分解を学習します。識別器による敵対的学習を導入し、要素を再結合した生成物の物理的・意味的な整合性を高めることで、画像の属性分解やロボットの動作生成において従来手法を上回る性能を達成しました。
TL;DRSIAは、予測情報を活用する深層強化学習(DRL)エージェントの意思決定プロセスをリアルタイムで解釈可能にする世界初の手法である。記号的AIと知識グラフを融合し、既存手法より200倍以上高速に動作する。
TL;DRエージェントが異なるモダリティを持ち、知覚的な共通基盤を欠く状況でのコミュニケーションゲームを研究した論文である。知覚の不整合があるにもかかわらず、マルチモーダルシステムは入力に基づいた一貫性のあるメッセージに収束することが示された。また、意味は構成的ではなく分布的にエンコードされていることが明らかになった。
TL;DR従来の小規模言語モデルでは、埋め込み行列がパラメータの多くを占有し、効率が低下するという課題がありました。本研究では、離散的なルックアップテーブルを連続的な埋め込み生成器に置き換える新アーキテクチャ「Leviathan」を提案します。評価の結果、同等のパラメータ数で標準的なモデルを凌駕し、最大2.
TL;DRエージェント型AIの効率と堅牢性を向上させるフレームワーク「Agent Workflow Optimization (AWO)」が提案された。AWOは、繰り返されるツール実行パターンを分析して「メタツール」に変換し、中間の推論ステップを省略する。これにより、LLM呼び出し数を最大11.9%削減し、タスク成功率を最大4.
TL;DR自己回帰型モデルは左から右への生成順序に縛られるため、結論を先に述べる形式では推論が困難になる課題があります。本研究は、全トークンを並列に洗練する拡散言語モデル(MDLM)が、出力順序に依存せず推論を行う「順序の堅牢性」を持つことを示しました。実験では、回答を先に求める設定でもMDLMは高い精度を維持しました。
TL;DRCAR-benchは、車載音声アシスタントのような実世界の不確実な状況下で、LLMエージェントの一貫性と能力認識を評価する新しいベンチマークである。ナビゲーションや車両制御など58のツールを備え、曖昧な指示の明確化や、不可能な要求への対応能力(幻覚の回避)をテストする。
TL;DRLLMアプリ開発における評価主導型ワークフロー(定義、テスト、診断、修正)と、推奨評価セットであるMVESを提案する研究である。実験では、一般的に「改良された」とされるプロンプトが、特定のタスク(抽出やRAG準拠)の性能を低下させるトレードオフが確認された。
Pricing