意味内容がアルゴリズムの性能を決定する
TL;DR大規模言語モデル(LLM)が実行するアルゴリズムの性能は、入力される情報の意味内容に依存することが明らかになりました。新ベンチマーク「WhatCounts」を用いた調査の結果、最新モデルでも数える対象が都市か化学物質かによって正解率が40%以上変動します。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR大規模言語モデル(LLM)が実行するアルゴリズムの性能は、入力される情報の意味内容に依存することが明らかになりました。新ベンチマーク「WhatCounts」を用いた調査の結果、最新モデルでも数える対象が都市か化学物質かによって正解率が40%以上変動します。
TL;DR大規模言語モデル(LLM)において、数え上げなどのアルゴリズム的タスクの性能が、入力される単語の意味内容に依存することを明らかにした研究です。新ベンチマーク「WhatCounts」を用いた検証により、対象が都市か化学物質かによって正解率が40%以上変動することが判明しました。
TL;DREC検索の精度向上に向け、大規模言語モデルの多角的な思考プロセスを軽量モデルに継承させる新手法が提案されました。多視点からの思考連鎖(CoT)を教師モデルに導入し、それを潜在的な推論抽出器として生徒モデルへ蒸留することで、低遅延かつ高度な推論を実現します。大規模な実環境でのテストでも優れた成果を収めています。
TL;DREC検索の関連性向上に向け、多視点Chain-of-Thought(MPCoT)と潜在推論蒸留(LRKD)を組み合わせた新手法が提案されました。大規模言語モデルの多角的な推論能力を軽量な学生モデルに継承させることで、高い精度と低遅延な推論を両立しています。
TL;DR本研究は、深さ方向の再帰を利用して潜在的な推論を強化するフレームワーク「Dreamer」を提案します。シーケンス、深さ、スパースな専門家のアテンションを組み合わせることで、従来のモデルが抱えていた隠れ層サイズのボトルネックを解消します。少ない学習トークンで既存のSOTAモデルを凌駕する高い効率性を実現しました。
TL;DR深度再帰はパラメータ共有により潜在的な推論を促進するが、隠れ層サイズの制約が課題であった。本研究は、シーケンス、深度、スパースな専門家アテンションを組み合わせた「Dreamer」を提案する。これにより、従来のSOTAモデルと比較して2〜8倍少ない学習トークン数で同等の精度を達成し、高い専門家選択の多様性を実現した。
TL;DRASTRAは、ツール利用エージェントを訓練するための完全自動化されたエンドツーエンドのフレームワークです。ツール呼び出しグラフに基づく多様な軌跡合成と、検証可能な強化学習環境の自動生成を組み合わせることで、教師あり学習と強化学習を統合しました。複数のベンチマークで、クローズドソースに迫る最高水準の性能を達成しています。
TL;DRASTRAは、ツール利用エージェントを訓練するための完全自動化されたエンドツーエンドのフレームワークです。ツール呼び出しグラフに基づく多様な軌跡の合成と、検証可能な実行環境の自動生成を組み合わせることで、教師あり学習と強化学習を統合しました。
TL;DRエージェント型LLMの長期記憶と並列実行を支える、階層型メモリサービス「ShardMemo」が提案されました。メモリを3層に分け、特にTier BではマスクされたMoEルーティングを用いて、制約に基づき適切なシャードを選択します。これにより、検索精度を向上させつつ、計算コストと遅延を大幅に削減することに成功しました。
TL;DRShardMemoは、エージェント型LLM向けの予算制約付き階層型メモリサービスです。情報を3つの層に分類し、特にTier BではマスクされたMixture-of-Experts(MoE)ルーティングを用いて、制約に基づき適切なシャードを選択します。
Pricing