RedSage: サイバーセキュリティに特化した汎用LLM
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。
運営: Cognitive Research Labs(CRL) / crl.co.jp
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。
TL;DR大規模言語モデルにおける継続的かつ大量の削除要求に対応するため、新フレームワーク「FIT」が提案されました。厳格なデータフィルタリング、重要度を考慮した更新、ターゲット層の特定により、モデルの性能低下や破滅的忘却を抑制します。
TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法では圧縮による情報の欠落を考慮できず、堅牢性を過大評価する傾向がありました。提案手法「CAGE」は、圧縮プロセスを考慮した最適化により、効率的なモデルにおける真の脆弱性を明らかにします。
TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法は圧縮工程を考慮していないため、モデルの堅牢性を過大評価する傾向があります。
TL;DR機械学習を用いたIoTデバイス識別プロセスにおける一般的な失敗を批判的に検証した研究です。識別手法のトレードオフ、データの不均質性、特徴抽出の課題、評価指標などを分析しています。不適切なデータ拡張や誤解を招くセッション識別子の使用といった具体的なエラーを指摘し、研究の再現性と一般化可能性を高めるための堅牢なガイドラインを提供します。
TL;DRフィッシングURL検出において、大規模言語モデル(LLM)の推論能力を引き出す新しいフレームワークが提案されました。本研究では「Least-to-Most」プロンプティングに「回答感度」メカニズムを導入し、反復的な推論を強化しました。これにより、わずかな学習データで教師ありモデルに匹敵する精度を達成し、従来手法を上回る性能を示しています。
TL;DR大規模言語モデルの有害な振る舞いを防ぐため、内部の「アクティベーション」を監視する新手法GAVELが提案された。アクティベーションを「脅迫」や「支払い処理」といった解釈可能な要素に分解し、それらを組み合わせたルールで監視を行う。これにより、再学習なしで高精度かつ柔軟な安全対策が可能となる。
TL;DR大規模言語モデル(LLM)のセキュリティ強化のため、パラメータ更新なしで防御策を学習する「RvB(Red Team vs. Blue Team)」フレームワークが提案されました。この手法は、攻撃と防御の反復的なゲームを通じて脆弱性を特定・修復し、コード強化とジェイルブレイク対策において高い防御成功率と極めて低い誤検知率。
TL;DR大規模言語モデル(LLM)へのスポンジ攻撃(過剰な計算負荷によるDoS)に対し、従来の防御は攻撃の進化に対応困難でした。本研究は、自己修復機能を備えたマルチエージェント防御フレームワーク「SHIELD」を提案します。防御・知識更新・プロンプト最適化の3種のエージェントが連携し、進化する脅威に対して防御性能を継続的に向上。
Pricing