エントロピーに基づく拡散モデルの次元フリー収束と損失適応型スケジュール
拡散モデルの収束解析において、ターゲット分布の幾何学的仮定を置かずに、シャノンエントロピーを用いた次元フリーな新しいアプローチを提案した研究である。ターゲット分布と生成分布間のKLダイバージェンスを評価し、学習損失のみを利用する軽量な「損失適応型スケジュール(LAS)」
最新の論文記事を読みやすく整理。カテゴリとタグで横断して探せます。
運営: Cognitive Research Labs(CRL)
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
Cog AI Archive
TL;DRRedSageは、プライバシーリスクを回避しつつ多様なセキュリティ業務を支援するために開発された、オープンソースのサイバーセキュリティ特化型LLMである。118億トークンの専門データによる事前学習と、エージェントベースのパイプラインで生成された26.6万件の指示データによる調整を経て、既存モデルを上回る性能を実現した。
拡散モデルの収束解析において、ターゲット分布の幾何学的仮定を置かずに、シャノンエントロピーを用いた次元フリーな新しいアプローチを提案した研究である。ターゲット分布と生成分布間のKLダイバージェンスを評価し、学習損失のみを利用する軽量な「損失適応型スケジュール(LAS)」
大規模言語モデルが真に新しい科学的情報に基づいて推論できるかを評価するため、DeR2という新しいサンドボックス環境が提案されました。DeR2は、検索と推論の能力を分離して測定するために4つの異なる条件下でテストを行い、モデルが知識を記憶しているかではなく、与えられた文書に基づいて論理的に結論を導けるかを厳密に検証します。
AgenticSimLawは、検察官・弁護人・裁判官の役割を持つエージェントによる7ターンの法廷論争を通じ、透明性の高い意思決定を行うフレームワークである。若年成人の再犯予測タスクにおいて、従来の思考の連鎖(CoT)よりも安定的で汎用性の高い性能を示し、完全な監査可能性と説明責任を実現した。
学習データ属性特定(TDA)におけるスケーラビリティの課題を解決する手法「LoRIF」が提案された。勾配の低ランク構造を活用し、保存容量と計算コストを大幅に削減しつつ、従来手法と同等以上の精度を実現した。これにより、数千万件のデータで学習された700億パラメータ規模のモデルでも実用的なTDAが可能になる。
LLMの多対話においてKVキャッシュの増大は課題です。本論文は、過去のセグメントを「Nexus」トークンへ圧縮する学習ベースのフレームワーク「SONIC」を提案しました。動的予算トレーニングにより、再学習なしでメモリ制約に適応可能です。既存手法を上回る性能を示し、推論速度を50.1%向上させることに成功しました。
本研究は、関連するソースタスクの経験を利用するオンライン転移強化学習において、ベルマン回帰ターゲットに基づく新しい転移手法を提案する。従来の報酬や遷移に基づく類似性定義の限界を克服するため、1ステップのベルマンアライメントを導入し、RWTという補正手法を開発した。
JADEは、動的なAgentic RAGにおける計画と実行の不一致を解消する統合フレームワークである。計画担当と実行担当を単一のバックボーン下で協力的なマルチエージェントとしてモデル化し、結果に基づく報酬でエンドツーエンドの共同最適化を行う。
ProRAGは、複雑な推論タスクにおける検索拡張生成(RAG)を最適化するための新しい強化学習フレームワークである。従来の手法が抱える報酬の希薄さや誤った推論過程の問題を解決するため、ステップごとのプロセス報酬モデル(PRM)を導入し、中間的な推論の質を評価する。
大規模基盤モデル(LFM)の敵対的な操作に対する脆弱性を克服するため、有害な意味論の伝播回路を追跡・切断する「TraceRouter」が提案された。従来の局所的な介入とは異なり、注意の分岐分析、スパースオートエンコーダ、因果経路のマッピングを組み合わせることで、有害な情報の流れを物理的に遮断しつつ、一般的な有用性を維持することに成功している。
GPTやClaudeなどのLLMが生成する人間らしいテキストの悪用を防ぐため、新しい検出アルゴリズムが提案された。本研究では、リライトベースの検出手法を幾何学的に解明し、適応的に距離を学習する新手法を導入した。
Pricing