タグ: cs.LG | Cog AI Archive

AI研究 2026-02-01

ノイズはあるが有効：不完全な評価者によるLLMの堅牢な統計的評価

大規模言語モデル（LLM）の安全性を評価する「LLM-as-a-Judge」は、拡張性に優れる一方で評価者の誤りやバイアスが統計的信頼性を損なうという深刻な課題を抱えていたが、本研究は少量の人間によるラベル付きデータを用いて評価者の特性（真陽性率と偽陽性率）を精密に推定し、大規模な自動評価データセットに対して分散補正を適用する新しい統計的枠組み「Noisy but Valid」を提案することで、この問題を根本から解決した。この枠組みは、評価者が不完全であっても、安全でないモデルを誤って合格させてしまう「第一種過誤」を理論的に有限サンプル内で厳密に制御することを保証しており、従来の人間による直接的な評価手法と比較して、評価者の品質が一定の基準を超えている場合には統計的な検出力を大幅に向上させることが可能であり、評価コストの劇的な削減と信頼性の向上を同時に達成している。既存の予測駆動型推論（PPI）とは異なり、評価者のエラープロファイルを明示的にモデル化することで、評価プロセスの透明性と診断能力を確保しており、実務者が評価者の信頼性を客観的に判断し、データセットの規模や認定要件に応じた最適な評価プロトコルを設計するための理論的かつ実践的な基盤を提供している点が、本研究の最も重要な貢献である。

6279 字

読む →

AI研究 2026-02-01

世界的な子どもの発達のための事前学習済みエンコーダ：転移学習がデータ不足の環境における展開を可能にする

毎年2億5000万人もの子どもが予防可能な発達の遅れに直面していますが、新しい国で機械学習モデルを導入する際には、数千規模のデータが必要になるという「データのボトルネック」が大きな障壁となっていました。

5746 字

読む →

AI研究 2026-02-01

MADE：クローズドループ材料発見のためのベンチマーク環境

従来の材料探索ベンチマークは静的な予測や個別の計算タスクの評価に留まっており、実際の科学的発見が持つ反復的かつ適応的な性質を十分に捉えられていないという課題がありました。本研究では、自律的な材料探索パイプラインをエンドツーエンドで評価するための新しいフレームワークであるMADE（MAterials Discovery Environments）を提案し、限られた予算内での逐次的な探索をシミュレートします。実験の結果、化学的な複雑さが増すにつれて、大規模言語モデルを活用したエージェントや適応的な探索アルゴリズムが、ランダムな探索手法と比較して探索効率を大幅に向上させることが確認されました。

5946 字

読む →

AI研究 2026-02-01

Solver-in-the-Loop: オペレーションズ・リサーチにおける自己修正と行動合理性のためのMDPベースのベンチマーク

従来のLLM評価は数理最適化モデルの生成を単発の翻訳作業として扱っていたが、本研究はソルバーのフィードバックを用いた反復的な自己修正プロセスを評価する「OR-Debug-Bench」と、在庫管理における意思決定の偏りを測定する「OR-Bias-Bench」を提案した。

5806 字

読む →

AI研究 2026-02-01

順序を考慮したテスト時適応：頑健なストリーミング推論のための時間的ダイナミクスの活用

従来のテスト時適応（TTA）はデータストリームを独立したサンプルの集合として扱い、連続する観測値の間に存在する時間的な依存関係を無視していましたが、本研究はこれを解決するために時間的動態を教師信号として利用する「Order-Aware Test-Time Adaptation（OATTA）」を提案しました。

6445 字

読む →

AI研究 2026-02-01

エネルギーベース生成モデル学習のための拡散分類損失

従来のスコアマッチング手法は、離れた高密度領域間の相対的な重みを正しく推定できない「モード盲目性」という根本的な課題を抱えていたが、本研究はこの問題を解決するために、エネルギーベースモデル（EBM）の学習を異なるノイズレベル間での教師あり分類問題として再定義する新しい目的関数「Diffusive Classification（DiffCLF）」を提案した。 DiffCLFは、モデルにどの時間ステップのノイズが付加されたデータであるかを識別させることで、エネルギー関数とその正規化定数を直接的かつ正確に推定することを可能にし、従来のデノイジング・スコアマッチングと容易に組み合わせることができる軽量で柔軟な枠組みを提供するとともに、理論的にも真の分布を一意に復元できることが証明されている。ガウス混合モデルを用いた検証や、物理学・化学分野でのボルツマンジェネレーターの構築、複数のモデルを組み合わせる合成タスクにおいて、提案手法は既存のスコアベース手法を上回る高い忠実度と広範な適用性を示し、生成品質の維持と正確なエネルギー値の利用を両立させることで、生成AIの応用範囲を大きく広げる成果を達成した。

5656 字

読む →

AI研究 2026-02-01

SIGMA-PPG: PPG基盤モデルのための統計的事前情報を活用した生成的マスキングアーキテクチャ

光電容積脈波（PPG）信号の解析において、従来のランダムマスキングが信号の周期性ゆえに容易に解けてしまう問題と、対照学習が微細な形態的特徴を軽視する課題を解決するため、統計的事前情報を導入した生成型基盤モデル「SIGMA-PPG」が提案されました。

6201 字

読む →

AI研究 2026-02-01

フレームで考える：視覚的コンテキストとテスト時スケーリングがいかにビデオ推論を強化するか

従来のマルチモーダル大規模言語モデル（MLLM）は、テキストベースの推論において優れた成果を収めてきましたが、物理的なダイナミクスや精密な空間的理解を必要とするタスクには依然として課題を抱えています。

5845 字

読む →

AI研究 2026-02-01

教師なし組合せ最適化のためのテスト時適応

従来の教師なしニューラル組合せ最適化（NCO）には、推論が高速な「汎用型モデル」と、個別の問題に特化して最適化を行う「インスタンス特化型モデル」という、互いに相容れない二つの手法が存在していました。

6677 字

読む →

AI研究 2026-02-01

SMKC：可変カーディナリティ時系列異常検知のためのスケッチに基づくカーネル相関画像

従来の多変量時系列異常検知は変数の数が不変であることを前提としていたが、実際の運用環境ではセンサーの追加・削除・名称変更といった「センサーの入れ替わり」が頻繁に発生し、入力の次元数が変動するという課題がある。

5681 字

読む →

生成AI研究を、要点から追う。

最新の記事

ノイズはあるが有効：不完全な評価者によるLLMの堅牢な統計的評価

世界的な子どもの発達のための事前学習済みエンコーダ：転移学習がデータ不足の環境における展開を可能にする

MADE：クローズドループ材料発見のためのベンチマーク環境

Solver-in-the-Loop: オペレーションズ・リサーチにおける自己修正と行動合理性のためのMDPベースのベンチマーク

順序を考慮したテスト時適応：頑健なストリーミング推論のための時間的ダイナミクスの活用

エネルギーベース生成モデル学習のための拡散分類損失

SIGMA-PPG: PPG基盤モデルのための統計的事前情報を活用した生成的マスキングアーキテクチャ

フレームで考える：視覚的コンテキストとテスト時スケーリングがいかにビデオ推論を強化するか

教師なし組合せ最適化のためのテスト時適応

SMKC：可変カーディナリティ時系列異常検知のためのスケッチに基づくカーネル相関画像