タグ: cs.AI | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 450件タグ: cs.AI

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 9 クリック 4

最新人気保存済み長文のみ

AI研究 2026-01-29

RedSage: サイバーセキュリティに特化した汎用LLM

読了 3 分 1554 字

読む →

AI研究 2026-01-29

エージェントのための推論報酬モデル「Agent-RRM」の探求

TL;DRエージェント強化学習における報酬の課題に対処するため、構造化されたフィードバックを提供する「Agent Reasoning Reward Model (Agent-RRM)」が提案された。このモデルは推論の過程、欠陥への批判、全体スコアを出力し、これらを統合した手法「Reagent-U」

読了 0 分 1412 字

読む →

AI研究 2026-01-29

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

TL;DR大規模言語モデル（LLM）を用いた自律型ウェブエージェントの訓練において、実インターネットとの相互作用に伴う非効率性やリスクを解決する「DynaWeb」が提案された。これはウェブ環境のワールドモデルを学習し、その中でのシミュレーションを通じてエージェントを訓練するモデルベース強化学習（MBRL）の手法である。

読了 0 分 1459 字

読む →

AI研究 2026-01-29

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

TL;DR推論指向の大規模言語モデル（LLM）は、情報不足や曖昧さがある場合でも内部推論を強行する「盲目的な自己思考」という限界を抱えている。本研究では、推論と明確化のための質問を交互に行う「Proactive Interactive Reasoning (PIR)」を提案する。

読了 0 分 1303 字

読む →

AI研究 2026-01-29

StepShield: 暴走エージェントへの介入は「いつ」すべきか

TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。

読了 0 分 1353 字

読む →

AI研究 2026-01-29

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

TL;DR最先端の大規模言語モデル（LLM）は、複雑な企業システム内での自律エージェントとしての能力が未検証です。本研究は、ServiceNowを基盤としたリアルな環境「World of Workflows (WoW)」と、234のタスクを含むベンチマーク「WoW-bench」を提案しました。

読了 0 分 1494 字

読む →

AI研究 2026-01-29

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

TL;DRSWE-Replayは、ソフトウェアエンジニアリングタスクにおけるLLMエージェントのテスト時スケーリングを効率化する新しい手法である。過去の試行の軌跡を再利用し、重要な中間ステップで分岐することで、ゼロからの探索と過去の経験の活用を動的に切り替える。これにより、コストを最大17.

読了 0 分 1480 字

読む →

AI研究 2026-01-29

SINA: AIを用いた回路図画像からネットリストへの自動生成ツール

TL;DR回路図画像を機械可読なネットリストへ変換する際、部品認識や接続推論に課題があった。本研究では、深層学習による部品検出、CCLによる接続抽出、OCRとVLMを組み合わせた参照指定子の割り当てを統合したオープンソースツール「SINA」を提案する。実験では、既存の最先端手法の2.72倍となる96.47%の全体精度を達成した。

読了 0 分 1206 字

読む →

AI研究 2026-01-29

下流タスクのフィードバックを用いた価値ベースの事前学習

TL;DR少量の検証済み目標情報を用いて、基盤モデルの事前学習を制御する「V-Pretraining」という手法が提案された。この手法は、下流タスクの勾配と整合するように事前学習タスク（データ拡張など）を選択し、計算リソースを効率的に配分する。言語モデルや画像処理において、推論能力や精度の向上が確認された。

読了 0 分 1234 字

読む →

AI研究 2026-01-29

ECO: フル精度マスターウェイト不要の量子化トレーニング

TL;DR大規模言語モデル（LLM）の学習において、高精度のマスターウェイトを保持する必要性を排除する新しい最適化手法「ECO」が提案された。ECOは量子化されたパラメータに直接更新を適用し、量子化誤差をオプティマイザのモーメンタムに注入することで補正する。

読了 0 分 1441 字

読む →

保存済みの記事がまだありません。

読み込み中…

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

RedSage: サイバーセキュリティに特化した汎用LLM

エージェントのための推論報酬モデル「Agent-RRM」の探求

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

StepShield: 暴走エージェントへの介入は「いつ」すべきか

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

SWE-Replay: ソフトウェアエンジニアリングエージェントのための効率的なテスト時スケーリング

SINA: AIを用いた回路図画像からネットリストへの自動生成ツール

下流タスクのフィードバックを用いた価値ベースの事前学習

ECO: フル精度マスターウェイト不要の量子化トレーニング

論文×チャット×知識DBを続けるなら

Free

Plus

Pro