DASH: 大規模言語モデルの再現可能な学習を実現する高スループットな決定論的アテンション・スケジューリング
TL;DRLLM学習の再現性には決定論的な計算が不可欠だが、FlashAttention-3等では勾配蓄積の直列化によりスループットが最大37.9%低下する課題がある。本研究は、決定論的アテンションのバックワード・パスをDAGスケジューリング問題として定式化するDASHを提案した。これにより、従来比で最大1.
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRLLM学習の再現性には決定論的な計算が不可欠だが、FlashAttention-3等では勾配蓄積の直列化によりスループットが最大37.9%低下する課題がある。本研究は、決定論的アテンションのバックワード・パスをDAGスケジューリング問題として定式化するDASHを提案した。これにより、従来比で最大1.
TL;DR正解ラベルのないタスクにおけるLLM評価手法として、審査員ごとの信頼性の違いを考慮した新しいランキングフレームワークを提案する研究である。Bradley-Terry-Luceモデルを拡張し、ペアワイズ比較からモデルの品質と審査員の信頼性を同時に推定することで、人間の好みとの一致度を高め、より正確なランキングと不確実性の定量化を実現した。
TL;DR人間の選好データから大規模言語モデル(LLM)を評価する新しいノンパラメトリック統計フレームワーク「DMLEval」が提案された。これは、従来の制限的な仮定や不確実性定量の欠如といった問題を解決し、複雑な応答(引き分けなど)を含むランキングスコアを効率的に推定する手法である。
TL;DR本研究は、時系列予測のための新しいモデル非依存の順方向拡散プロセスを提案する。信号をスペクトル成分に分解し、エネルギーに基づいてノイズ注入を段階的に行うことで、季節性などの構造的な時間パターンを標準的な拡散モデルよりも効果的に保持する。
TL;DRLoRAアダプターのプールから最適なものを選択・合成するための新しいフレームワーク「LORAUTER」を提案する。既存手法と異なり、クエリを直接アダプターにマッピングするのではなく、タスク表現を介してルーティングを行う。これにより、アダプターの学習データを必要とせず、タスク数に応じた効率的なスケーリングが可能となる。
TL;DR大規模視覚言語モデル(LVLM)におけるプライバシー漏洩や有害コンテンツ生成への対策として、特定のデータを忘却させる「アンラーニング」が注目されている。本研究では、勾配計算を伴わない訓練不要の手法「Knowledge Vector Weakening (KVW)」を提案する。
TL;DR暗号化トラフィックの急増に伴い、ネットワークセキュリティとQoS管理には効果的な分類が不可欠である。本研究では、Transformerの計算非効率性やデータ表現の不備、ロングテール分布の問題を解決するNetMamba+を提案する。Mambaアーキテクチャを初めてトラフィック分類に適用し、F1スコアを最大6.
TL;DRECSELは、シグノミアル方程式(signomial equations)という数式形式を学習することで、分類と説明を同時に行う新しい手法です。既存の記号回帰手法よりも少ない計算量で多くの目標式を復元し、高い解釈性を維持しながら標準的な機械学習モデルに匹敵する精度を達成します。
TL;DR学習済みの人工ニューラルネットワーク(ANN)をスパイキングニューラルネットワーク(SNN)に変換する手法は、強化学習において有望だが、連続制御タスクでは性能が低い。本研究はこの原因が、小さな行動近似誤差が時間的に相関し、累積的な状態分布のシフトを引き起こす「誤差増幅」にあると特定した。
TL;DRAdam最適化手法において、モーメンタムパラメータを$\beta1 = \beta2$とする設定が、検証スコアや学習の挙動を改善することが経験的に知られていました。本研究はこの現象を「勾配スケール不変性」という概念で理論的に解明しました。
Pricing