論文検索 新着 人気 料金
運営: Cognitive Research Labs(CRL) crl.co.jp
毎日更新
AI Data Base

生成AIの最新動向を、読みやすいアーカイブで。

AI研究の要点を整理。最新の論文記事をカテゴリやタグで探索できます。

運営: Cognitive Research Labs(CRL) / crl.co.jp

新着 論文 人気 料金 無料で試す
Popular

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

Cog AI Archive

最新の記事

人気記事ピックアップ

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 40 クリック 16

Token-Guard: 自己チェックによるトークンレベルのハルシネーション制御

TL;DR大規模言語モデル(LLM)のハルシネーションを抑制するため、自己チェックを用いたデコーディング手法「Token-Guard」が提案された。これは各推論ステップで内部検証を行い、ハルシネーションのリスクがあるトークンを検出・修正する。実験ではハルシネーションの大幅な削減と生成精度の向上が確認された。

読了 0 分 1242 字
読む →

古典的プランニングにおけるドメインモデル設計のエネルギーへの影響

TL;DRAI研究ではこれまでアルゴリズムの性能が優先されてきたが、グリーンAIの台頭によりエネルギー消費も重要な指標となっている。本研究は、自動プランニングにおけるドメインモデルの設計がエネルギー消費に与える影響を実証的に調査したものである。

読了 0 分 1190 字
読む →

産業化された欺瞞:LLMによる誤情報がデジタルエコシステムに与える付随的影響

TL;DR本研究は、生成AIと誤情報に関する2024年の調査以降の脅威の変化を報告し、文献レビューから実践的な対策へと焦点を移行させています。AI生成ニュースに対する人間の認識を評価する「JudgeGPT」と、研究用の刺激生成エンジン「RogueGPT」を開発し、実験パイプラインを構築しました。

読了 0 分 1240 字
読む →

ウェブエージェントは見た目に左右されるか?UIデザイン要因の包括的評価

TL;DRウェブエージェントの意思決定における視覚的属性の影響を定量化する評価パイプライン「VAF」を提案した研究です。背景色のコントラスト、アイテムのサイズ、配置位置などがエージェントの行動に強く影響する一方、フォントスタイルやテキスト色の影響は軽微であることが、5つの実在サイトと4種のエージェントを用いた実験で明らかになりました。

読了 0 分 1462 字
読む →

ToolWeaver:大規模言語モデルにおける拡張可能なツール利用のための協調的意味論の織り成し

TL;DR従来のLLMのツール利用手法は、ツールの増加に伴う語彙の爆発やツール間の関係性の学習不足という課題を抱えていました。本研究が提案する「ToolWeaver」は、ツールを階層的なコードシーケンスに符号化することで、語彙の増加を対数的に抑えます。

読了 0 分 1212 字
読む →

検索注入型推論サンドボックス:検索能力と推論能力を分離するためのベンチマーク

TL;DR大規模言語モデルが真に新しい科学的情報に基づいて推論できるかを評価するため、DeR2という新しいサンドボックス環境が提案されました。DeR2は、検索と推論の能力を分離して測定するために4つの異なる条件下でテストを行い、モデルが知識を記憶しているかではなく、与えられた文書に基づいて論理的に結論を導けるかを厳密に検証します。

読了 0 分 1402 字
読む →

AgenticSimLaw:説明可能な意思決定のための法廷シミュレーション型マルチエージェント

TL;DRAgenticSimLawは、検察官・弁護人・裁判官の役割を持つエージェントによる7ターンの法廷論争を通じ、透明性の高い意思決定を行うフレームワークである。若年成人の再犯予測タスクにおいて、従来の思考の連鎖(CoT)よりも安定的で汎用性の高い性能を示し、完全な監査可能性と説明責任を実現した。

読了 0 分 1308 字
読む →

JADE: 動的なAgentic RAGにおける戦略と実行のギャップを埋める

TL;DRJADEは、動的なAgentic RAGにおける計画と実行の不一致を解消する統合フレームワークである。計画担当と実行担当を単一のバックボーン下で協力的なマルチエージェントとしてモデル化し、結果に基づく報酬でエンドツーエンドの共同最適化を行う。

読了 0 分 1455 字
読む →

ProRAG: 検索拡張生成のためのプロセス監視型強化学習

TL;DRProRAGは、複雑な推論タスクにおける検索拡張生成(RAG)を最適化するための新しい強化学習フレームワークである。従来の手法が抱える報酬の希薄さや誤った推論過程の問題を解決するため、ステップごとのプロセス報酬モデル(PRM)を導入し、中間的な推論の質を評価する。

読了 0 分 1435 字
読む →

TraceRouter: 大規模基盤モデルのための経路レベル介入による堅牢な安全性

TL;DR大規模基盤モデル(LFM)の敵対的な操作に対する脆弱性を克服するため、有害な意味論の伝播回路を追跡・切断する「TraceRouter」が提案された。従来の局所的な介入とは異なり、注意の分岐分析、スパースオートエンコーダ、因果経路のマッピングを組み合わせることで、有害な情報の流れを物理的に遮断しつつ、一般的な有用性を維持することに成功している。

読了 0 分 1378 字
読む →
保存済みの記事がまだありません。
読み込み中…

Pricing

論文×チャット×知識DBを続けるなら

Free

¥0
  • 要約閲覧
  • 全文は月 2 本まで
  • チャットは月 3 回まで
無料で始める

Plus

¥1,780 / 月
  • 全文閲覧無制限
  • スレッド保存
  • Flashモデル
  • チャット上限 300 回/月
Plusで始める

Pro

¥2,980 / 月
  • 全文閲覧無制限
  • スレッド保存
  • 長文回答(Proモデル)
  • チャット上限 800 回/月
Proで始める