モデルリポジトリに眠る「隠れた名作」の発掘
TL;DR公開リポジトリには数百万のモデルが存在するが、利用は少数の基盤モデルに集中している。本研究は2,000以上のモデルを評価し、人気はないが高性能な「隠れた名作」が多数存在することを示した。さらに、多腕バンディット問題としてモデル探索を定式化し、探索を50倍以上高速化する手法を提案した。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR公開リポジトリには数百万のモデルが存在するが、利用は少数の基盤モデルに集中している。本研究は2,000以上のモデルを評価し、人気はないが高性能な「隠れた名作」が多数存在することを示した。さらに、多腕バンディット問題としてモデル探索を定式化し、探索を50倍以上高速化する手法を提案した。
TL;DR本研究は、膨大な事前学習用ドキュメントを数十億規模の合成指示・回答ペアに変換する手法「FineInstructions」を提案します。約1,800万のテンプレートと既存の文書を組み合わせ、指示チューニング形式のみでLLMをゼロから事前学習します。
TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。
TL;DR大規模言語モデル(LLM)は高性能だが高コストであり、小規模モデル(SLM)は低コストだが精度が劣るという課題に対し、LLMに短い「ヒント」だけを生成させ、それをSLMに渡す「LLM Shepherding」という手法を提案する。
TL;DRSWE-Replayは、ソフトウェアエンジニアリングタスクにおけるLLMエージェントのテスト時スケーリングを効率化する新しい手法である。過去の試行の軌跡を再利用し、重要な中間ステップで分岐することで、ゼロからの探索と過去の経験の活用を動的に切り替える。これにより、コストを最大17.
TL;DRハミルトニアン系の長時間シミュレーションにおける小さなタイムステップの制約を克服するため、ハミルトニアンフローマップを学習する枠組みを提案する。時間平均されたハミルトニアンダイナミクスに対する平均流整合性条件を導入することで、従来の積分器の限界を大きく超える安定した大規模タイムステップ更新を実現した。
TL;DR本研究は、複数のドローン(UAS)群の観測データを用いて、4次元の大気風速場を再構成するフレームワークを提案しています。双方向LSTMで局所的な風を推定し、物理法則に基づくニューラルネットワーク(PINN)で時空間的に連続な風速場を復元します。専用センサーなしで高精度な風速場の再構成が可能であることを示しました。
TL;DR少量の検証済み目標情報を用いて、基盤モデルの事前学習を制御する「V-Pretraining」という手法が提案された。この手法は、下流タスクの勾配と整合するように事前学習タスク(データ拡張など)を選択し、計算リソースを効率的に配分する。言語モデルや画像処理において、推論能力や精度の向上が確認された。
TL;DR大規模言語モデル(LLM)の学習において、高精度のマスターウェイトを保持する必要性を排除する新しい最適化手法「ECO」が提案された。ECOは量子化されたパラメータに直接更新を適用し、量子化誤差をオプティマイザのモーメンタムに注入することで補正する。
TL;DR条件付きバリュー・アット・リスク(CVaR)の方策勾配法は、テールの性能に焦点を当てるためサンプル効率が悪いという課題がある。本研究では、CVaRに期待分位点項を追加することで、すべてのサンプリングデータを利用可能な動的計画法を導入し、サンプル効率を改善する手法を提案する。
Pricing