タグ: cs.CL | Cog AI Archive

Cog AI Archive

最新の記事

公開記事: 257件タグ: cs.CL

RedSage: サイバーセキュリティに特化した汎用LLM

TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。

AI研究 2026-01-29 閲覧 11 クリック 5

最新人気保存済み長文のみ

AI研究 2026-01-29

RedSage: サイバーセキュリティに特化した汎用LLM

読了 3 分 1554 字

読む →

AI研究 2026-01-29

モデルリポジトリに眠る「隠れた名作」の発掘

TL;DR公開リポジトリには数百万のモデルが存在するが、利用は少数の基盤モデルに集中している。本研究は2,000以上のモデルを評価し、人気はないが高性能な「隠れた名作」が多数存在することを示した。さらに、多腕バンディット問題としてモデル探索を定式化し、探索を50倍以上高速化する手法を提案した。

読了 0 分 1341 字

読む →

AI研究 2026-01-29

エージェントのための推論報酬モデル「Agent-RRM」の探求

TL;DRエージェント強化学習における報酬の課題に対処するため、構造化されたフィードバックを提供する「Agent Reasoning Reward Model (Agent-RRM)」が提案された。このモデルは推論の過程、欠陥への批判、全体スコアを出力し、これらを統合した手法「Reagent-U」

読了 0 分 1412 字

読む →

AI研究 2026-01-29

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

TL;DRUEvalは、画像とテキストの両方を生成できる「統合モデル」を評価するための新しいベンチマークである。8つの実世界タスクから厳選された1,000の質問で構成され、画像とテキストの両方を必要とする出力を評価する。

読了 0 分 1478 字

読む →

AI研究 2026-01-29

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

TL;DR大規模言語モデル（LLM）を用いた自律型ウェブエージェントの訓練において、実インターネットとの相互作用に伴う非効率性やリスクを解決する「DynaWeb」が提案された。これはウェブ環境のワールドモデルを学習し、その中でのシミュレーションを通じてエージェントを訓練するモデルベース強化学習（MBRL）の手法である。

読了 0 分 1459 字

読む →

AI研究 2026-01-29

FineInstructions: 合成指示データを事前学習規模まで拡張する手法の提案

TL;DR本研究は、膨大な事前学習用ドキュメントを数十億規模の合成指示・回答ペアに変換する手法「FineInstructions」を提案します。約1,800万のテンプレートと既存の文書を組み合わせ、指示チューニング形式のみでLLMをゼロから事前学習します。

読了 0 分 1272 字

読む →

AI研究 2026-01-29

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

TL;DR推論指向の大規模言語モデル（LLM）は、情報不足や曖昧さがある場合でも内部推論を強行する「盲目的な自己思考」という限界を抱えている。本研究では、推論と明確化のための質問を交互に行う「Proactive Interactive Reasoning (PIR)」を提案する。

読了 0 分 1303 字

読む →

AI研究 2026-01-29

ECO: フル精度マスターウェイト不要の量子化トレーニング

TL;DR大規模言語モデル（LLM）の学習において、高精度のマスターウェイトを保持する必要性を排除する新しい最適化手法「ECO」が提案された。ECOは量子化されたパラメータに直接更新を適用し、量子化誤差をオプティマイザのモーメンタムに注入することで補正する。

読了 0 分 1441 字

読む →

AI研究 2026-01-29

VTC-R1: 長文脈推論を効率化する視覚・テキスト圧縮技術

TL;DRVTC-R1は、長文脈推論の計算コストを削減する新しい手法である。中間の推論過程をテキストではなく画像としてレンダリングし、「視覚的メモリ」としてモデルに再入力することで、トークン数を約3.4倍圧縮する。これにより、MATH500などのベンチマークで性能を向上させつつ、推論速度を2.7倍高速化した。

読了 0 分 1239 字

読む →

AI研究 2026-01-29

MasalBench：LLMにおけるペルシャ語ことわざの文脈的・異文化的理解のためのベンチマーク

TL;DR本研究は、低リソース言語であるペルシャ語のことわざ理解を評価するベンチマーク「MasalBench」を提案する。8つの最先端LLMを評価した結果、文脈内でのことわざ識別は高精度だったが、英語の同義ことわざを見つけるタスクでは性能が低下した。これはLLMの文化的知識と類推推論における限界を示唆している。

読了 0 分 1294 字

読む →

保存済みの記事がまだありません。

読み込み中…

生成AIの最新動向を、読みやすいアーカイブで。

RedSage: サイバーセキュリティに特化した汎用LLM

最新の記事

RedSage: サイバーセキュリティに特化した汎用LLM

RedSage: サイバーセキュリティに特化した汎用LLM

モデルリポジトリに眠る「隠れた名作」の発掘

エージェントのための推論報酬モデル「Agent-RRM」の探求

UEval: 画像とテキストの両方を生成する統合モデルのためのベンチマーク

DynaWeb: ウェブエージェントのためのモデルベース強化学習フレームワーク

FineInstructions: 合成指示データを事前学習規模まで拡張する手法の提案

質問しながら推論する：受動的な解決者から能動的な探求者へのLLMの変革

ECO: フル精度マスターウェイト不要の量子化トレーニング

VTC-R1: 長文脈推論を効率化する視覚・テキスト圧縮技術

MasalBench：LLMにおけるペルシャ語ことわざの文脈的・異文化的理解のためのベンチマーク

論文×チャット×知識DBを続けるなら

Free

Plus

Pro