FBS: Transformer内部におけるネイティブな並列読解のモデリング
TL;DR大規模言語モデルの逐次的な推論を改善するため、人間の読解プロセスを模倣した「Fovea-Block-Skip Transformer(FBS)」が提案されました。PAW、CH、SGという3つのモジュールを導入することで、パラメータ数を増やさずに品質と効率のトレードオフを向上させています。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR大規模言語モデルの逐次的な推論を改善するため、人間の読解プロセスを模倣した「Fovea-Block-Skip Transformer(FBS)」が提案されました。PAW、CH、SGという3つのモジュールを導入することで、パラメータ数を増やさずに品質と効率のトレードオフを向上させています。
TL;DRLLMは文化的な意思決定を支援する一方で、学習データの偏りにより価値観の不一致が生じることが課題です。本研究は、世界価値観調査に基づき文化オントロジーを構築し、複数の価値観ペルソナエージェントを介して推論を行うフレームワーク「OG-MAR」を提案します。これにより、文化的整合性と推論の透明性が向上します。
TL;DR本研究は、計算資源が限られた環境で小規模言語モデルがマルチホップ推論を行う際の課題を解決するフレームワーク「DAVID-GRPO」を提案します。従来の強化学習は高コストな環境に依存していましたが、本手法は証拠の想起に基づく報酬設計や探索の改善により、1.5B規模のモデルでも高い精度を実現しました。
TL;DR大規模言語モデルの推論能力を高めるテスト時スケーリングにおいて、従来の探索手法は各試行を使い捨てにするため、計算の冗長性が課題でした。本研究は、過去の試行から得られた知見を蓄積・再利用する「Recycling Search Experience (RSE)」を提案します。
TL;DR大規模言語モデルにおける継続的かつ大量の削除要求に対応するため、新フレームワーク「FIT」が提案されました。厳格なデータフィルタリング、重要度を考慮した更新、ターゲット層の特定により、モデルの性能低下や破滅的忘却を抑制します。
TL;DR小規模言語モデルは未知の複雑なコードベースへの対応が困難という課題がある。本研究は、多様なタスクを学ぶ従来の学習法から、特定のリポジトリを深く理解する「リポジトリ中心学習(RCL)」への転換を提案する。開発されたSWE-Spot-4Bは、軽量ながら大規模モデルや商用モデルに匹敵する性能を、高い効率性で実現している。
TL;DR離散拡散言語モデル(DLM)において、推論時に生成内容を制御する新手法「ILRR」が提案されました。これは学習不要なフレームワークで、生成中の内部活性化状態を単一の参照シーケンスに動的に合わせることで、感情などの属性を制御します。計算負荷を抑えつつ、従来手法より高い属性精度と生成品質を両立しています。
TL;DR離散拡散言語モデル(DLM)の制御を可能にする学習不要なフレームワーク「ILRR」が提案されました。生成過程で内部アクティベーションをリファレンス配列と動的に整合させることで、感情などの高次な意味属性を転送します。計算負荷を抑えつつ、従来手法より属性精度を10〜60%向上させ、高品質なテキスト生成を実現します。
TL;DRLLMの推論能力を向上させる「並列思考」において、全問題に一律の並列度を割り当てることで生じる予算の冗長性「オーバースケーリングの呪い」を定義しました。この問題を解決するため、デコード前に各サンプルに最適な並列度を推定する軽量手法「T2」を提案しています。
TL;DRLLMの推論において、全サンプルに一律の大規模な並列処理を適用すると、簡単な問題でも過剰な計算資源を消費する「オーバースケーリングの呪い」が発生する。本研究はこの問題を定式化し、デコード前に各サンプルに最適な並列度を推定する軽量な手法「T2」を提案した。これにより、精度を維持しつつ計算コストを大幅に削減できる。
Pricing