論文検索 新着 人気
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

新着 論文 人気 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 10 クリック 4

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

読了 3 分 1554 字
読む →

StepShield: 暴走エージェントへの介入は「いつ」すべきか

TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。

読了 0 分 1353 字
読む →

FIT: 継続的なLLMアンラーニングにおける破滅的忘却の克服

TL;DR大規模言語モデルにおける継続的かつ大量の削除要求に対応するため、新フレームワーク「FIT」が提案されました。厳格なデータフィルタリング、重要度を考慮した更新、ターゲット層の特定により、モデルの性能低下や破滅的忘却を抑制します。

読了 0 分 1254 字
読む →

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法では圧縮による情報の欠落を考慮できず、堅牢性を過大評価する傾向がありました。提案手法「CAGE」は、圧縮プロセスを考慮した最適化により、効率的なモデルにおける真の脆弱性を明らかにします。

読了 0 分 1278 字
読む →

視覚トークン圧縮下における大規模視覚言語モデルの敵対的堅牢性について

TL;DR大規模視覚言語モデルの高速化に用いられる視覚トークン圧縮が、敵対的攻撃への耐性に与える影響を調査した研究です。従来の攻撃手法は圧縮工程を考慮していないため、モデルの堅牢性を過大評価する傾向があります。

読了 0 分 1289 字
読む →

機械学習を用いたIoTデバイス識別:よくある落とし穴とベストプラクティス

TL;DR機械学習を用いたIoTデバイス識別プロセスにおける一般的な失敗を批判的に検証した研究です。識別手法のトレードオフ、データの不均質性、特徴抽出の課題、評価指標などを分析しています。不適切なデータ拡張や誤解を招くセッション識別子の使用といった具体的なエラーを指摘し、研究の再現性と一般化可能性を高めるための堅牢なガイドラインを提供します。

読了 0 分 1177 字
読む →

フィッシングURL検出のためのLeast-to-Most推論の抽出

TL;DRフィッシングURL検出において、大規模言語モデル(LLM)の推論能力を引き出す新しいフレームワークが提案されました。本研究では「Least-to-Most」プロンプティングに「回答感度」メカニズムを導入し、反復的な推論を強化しました。これにより、わずかな学習データで教師ありモデルに匹敵する精度を達成し、従来手法を上回る性能を示しています。

読了 0 分 1389 字
読む →

GAVEL:アクティベーション監視を通じたルールベースの安全性に向けて

TL;DR大規模言語モデルの有害な振る舞いを防ぐため、内部の「アクティベーション」を監視する新手法GAVELが提案された。アクティベーションを「脅迫」や「支払い処理」といった解釈可能な要素に分解し、それらを組み合わせたルールで監視を行う。これにより、再学習なしで高精度かつ柔軟な安全対策が可能となる。

読了 0 分 1295 字
読む →

RvB:反復的なレッド・ブルー・ゲームによるAIシステム堅牢化の自動化

TL;DR大規模言語モデル(LLM)のセキュリティ強化のため、パラメータ更新なしで防御策を学習する「RvB(Red Team vs. Blue Team)」フレームワークが提案されました。この手法は、攻撃と防御の反復的なゲームを通じて脆弱性を特定・修復し、コード強化とジェイルブレイク対策において高い防御成功率と極めて低い誤検知率。

読了 0 分 1342 字
読む →

SHIELD:LLMリソース枯渇攻撃に対する自己修復型エージェント防御フレームワーク

TL;DR大規模言語モデル(LLM)へのスポンジ攻撃(過剰な計算負荷によるDoS)に対し、従来の防御は攻撃の進化に対応困難でした。本研究は、自己修復機能を備えたマルチエージェント防御フレームワーク「SHIELD」を提案します。防御・知識更新・プロンプト最適化の3種のエージェントが連携し、進化する脅威に対して防御性能を継続的に向上。

読了 0 分 1238 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める