論文検索 新着 人気
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

新着 論文 人気 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 5 クリック 3

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

読了 2 分 1554 字
読む →

モデルリポジトリに眠る「隠れた名作」の発掘

TL;DR公開リポジトリには数百万のモデルが存在するが、利用は少数の基盤モデルに集中している。本研究は2,000以上のモデルを評価し、人気はないが高性能な「隠れた名作」が多数存在することを示した。さらに、多腕バンディット問題としてモデル探索を定式化し、探索を50倍以上高速化する手法を提案した。

読了 0 分 1341 字
読む →

エージェントのための推論報酬モデル「Agent-RRM」の探求

TL;DRエージェント強化学習における報酬の課題に対処するため、構造化されたフィードバックを提供する「Agent Reasoning Reward Model (Agent-RRM)」が提案された。このモデルは推論の過程、欠陥への批判、全体スコアを出力し、これらを統合した手法「Reagent-U」

読了 0 分 1412 字
読む →

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

TL;DRUEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。

読了 0 分 1478 字
読む →

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

TL;DR大規模言語モデル(LLM)を用いた自律型ウェブエージェントの訓練において、実インターネットとの相互作用に伴う非効率性やリスクを解決する「DynaWeb」が提案された。これはウェブ環境のワールドモデルを学習し、その中でのシミュレーションを通じてエージェントを訓練するモデルベース強化学習(MBRL)の手法である。

読了 0 分 1459 字
読む →

FineInstructions: 合成指示データを事前学習規模まで拡張する手法の提案

TL;DR本研究は、膨大な事前学習用ドキュメントを数十億規模の合成指示・回答ペアに変換する手法「FineInstructions」を提案します。約1,800万のテンプレートと既存の文書を組み合わせ、指示チューニング形式のみでLLMをゼロから事前学習します。

読了 0 分 1272 字
読む →

質問しながら推論する:受動的な解決者から能動的な探求者へのLLMの変革

TL;DR推論指向の大規模言語モデル(LLM)は、情報不足や曖昧さがある場合でも内部推論を強行する「盲目的な自己思考」という限界を抱えている。本研究では、推論と明確化のための質問を交互に行う「Proactive Interactive Reasoning (PIR)」を提案する。

読了 0 分 1303 字
読む →

StepShield: 暴走エージェントへの介入は「いつ」すべきか

TL;DR既存のエージェント安全性ベンチマークは違反の有無のみを評価し、介入のタイミングを無視している。本研究は、違反が「いつ」検出されたかを評価する初のベンチマーク「StepShield」を提案する。9,213件の軌跡データと新たな時間的指標を用いた評価により、LLMベースの判定器が静的解析よりも早期介入に優れていることを明らかにした。

読了 0 分 1353 字
読む →

ヒントにお金を払え、答えではなく:コスト効率の良い推論のためのLLMシェパディング

TL;DR大規模言語モデル(LLM)は高性能だが高コストであり、小規模モデル(SLM)は低コストだが精度が劣るという課題に対し、LLMに短い「ヒント」だけを生成させ、それをSLMに渡す「LLM Shepherding」という手法を提案する。

読了 0 分 1376 字
読む →

World of Workflows: 企業システムに世界モデルをもたらすためのベンチマーク

TL;DR最先端の大規模言語モデル(LLM)は、複雑な企業システム内での自律エージェントとしての能力が未検証です。本研究は、ServiceNowを基盤としたリアルな環境「World of Workflows (WoW)」と、234のタスクを含むベンチマーク「WoW-bench」を提案しました。

読了 0 分 1494 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める