長文のみ | Cog AI Archive

AI研究 2026-01-29 長文

確率的環境における分布型価値勾配法：分布型ソボレフ学習

連続アクション空間の強化学習において、報酬の期待値だけでなく、累積報酬とそのアクション勾配の両方をジョイント分布として同時にモデル化する「分布型ソボレフ学習」という新しい枠組みを提案した。理論面では、最大スライス最大平均不一致（MSMMD）という指標を用いることで、提案したソボレフ・ベルマン演算子が唯一の不動点に収束する縮小写像であることを数学的に証明し、さらに条件付き変分オートエンコーダ（cVAE）を用いた微分可能なワールドモデルを導入することで、非微分可能な環境への適用を可能にした。実験では、マルチモーダルな不確実性を持つトイタスクやMuJoCoベンチマークにおいて、従来の決定論的な勾配手法や勾配を考慮しない分布型手法を大幅に上回るサンプル効率と堅牢性を実証し、勾配情報の分布を捉えることが連続制御における学習に極めて有効であることを示した。

7737 字

読む →

AI研究 2026-01-29 長文

ブルームの分類学に基づくドメインガイドラインからの自動ベンチマーク生成

本研究は、専門家のガイドラインからブルームの分類学に基づいた評価問題を自動生成するフレームワーク「BLOOMQA」を開発し、既存の試験データに依存しない新しい評価手法を確立しました。教育、栄養学、介護の3つの実務ドメインにおいて、指針への違反を題材とした多肢選択式問題と対話データを合計約6万件生成し、大規模言語モデル（LLM）の推論能力を多角的な認知レベルで測定可能にしました。検証の結果、LLMは「分析」のような高次の推論で高い性能を示す一方で、「記憶」のような基礎的な項目で失敗するという、人間の学習プロセスとは異なる非直感的な挙動を示すことが明らかになりました。

7261 字

読む →

AI研究 2026-01-29 長文

フィッシングURL検出のためのLeast-to-Most推論の抽出

フィッシングURL検出において、複雑な問題を段階的なサブ問題に分解して解く「Least-to-Most」プロンプティングと、確信度を数値化して推論を制御する独自の「回答感度」メカニズムを組み合わせた新しいフレームワークを提案した。

7044 字

読む →

AI研究 2026-01-29 長文

CE-RM：2段階ロールアウトと統一基準で最適化された4Bパラメータの生成型報酬モデル

従来の生成型報酬モデルは、ベンチマークでの高スコアが実際の強化学習の成果に結びつかない「乖離」や、ペアワイズ評価による計算コストの増大、評価基準の不一致という課題を抱えていた。本研究は、クエリのみに基づいた「統一基準」を生成した後に各回答を個別に評価する、2段階ロールアウトを採用した40億パラメータのポイントワイズ報酬モデル「CE-RM-4B」を提案した。約5,700件の高品質データを用いた学習により、700億パラメータ級のモデルを凌駕する評価精度を達成し、実際の強化学習（RL）においても一貫性のある報酬信号を提供することで、下流タスクの性能を効果的に向上させることに成功した。

7326 字

読む →

AI研究 2026-01-29 長文

トポロジーを考慮した最適輸送による異常セグメンテーションのテスト時適応

従来の異常セグメンテーションは、分布シフトに対して脆弱な固定の閾値設定に依存しており、未知のドメインやノイズに対して精度が著しく低下する課題がありました。本研究では、トポロジー的データ解析（TDA）と最適輸送（OT）を統合した「TopoOT」を提案し、データの幾何学的構造の持続性を利用して、閾値に依存しない安定した擬似ラベルを生成する仕組みを構築しました。検証の結果、2Dおよび3Dの主要ベンチマークにおいて従来手法を最大24.1%上回る性能を達成し、121 FPSという高速な処理速度と低メモリ消費を両立しつつ、多様なバックボーンへの高い適応能力を示しました。

7296 字

読む →

AI研究 2026-01-29 長文

生成順序とトークン空間の同時探索による拡散言語モデルのデコーディング改善

拡散言語モデル（DLM）が持つ「生成順序に依存しない」という潜在的な利点を引き出すため、生成順序とトークンの値を同時に探索する新しいアルゴリズム「Order-Token Search」が提案されました。

7231 字

読む →

AI研究 2026-01-29 長文

Floresが間違ってBloomzするとき：機械翻訳評価における言語方向間の汚染

大規模言語モデル（LLM）の評価において、学習データにテストセットが混入する「データ汚染」が深刻な問題となっており、特に多言語翻訳では、ある言語方向の学習が未学習の言語方向にまで影響を及ぼす「方向間汚染」が発生していることが明らかになった。

7070 字

読む →

AI研究 2026-01-29 長文

SNR-Edit: インバージョン不要なフローベース編集のための構造認識型ノイズ補正

近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要（Inversion-Free）」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル（SAM2）と幾何学的エンコーディング（RoPE）を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。

7083 字

読む →

AI研究 2026-01-29 長文

GLOVE：LLMの記憶と環境の再整合のためのグローバル検証器

大規模言語モデル（LLM）を用いたエージェントが、外部の正解ラベルやモデル自身の内省能力に過度に依存することなく、環境の変化に合わせて記憶を自律的に更新するための新しいフレームワーク「GLOVE」を提案する。

7394 字

読む →

AI研究 2026-01-29 長文

ニューラル・ニューラルスケーリング則

従来のべき乗則やロジスティック関数に基づくスケーリング則は、平均検証損失という単一の指標に依存しており、下流タスクで見られる「逆スケーリング」や「性能の停滞」といった多様な挙動を正確に予測できないという根本的な課題を抱えていました。

7280 字

読む →

生成AI研究を、要点から追う。

最新の記事

確率的環境における分布型価値勾配法：分布型ソボレフ学習

ブルームの分類学に基づくドメインガイドラインからの自動ベンチマーク生成

フィッシングURL検出のためのLeast-to-Most推論の抽出

CE-RM：2段階ロールアウトと統一基準で最適化された4Bパラメータの生成型報酬モデル

トポロジーを考慮した最適輸送による異常セグメンテーションのテスト時適応

生成順序とトークン空間の同時探索による拡散言語モデルのデコーディング改善

Floresが間違ってBloomzするとき：機械翻訳評価における言語方向間の汚染

SNR-Edit: インバージョン不要なフローベース編集のための構造認識型ノイズ補正

GLOVE：LLMの記憶と環境の再整合のためのグローバル検証器

ニューラル・ニューラルスケーリング則