タグ: cs.LG | Cog AI Archive

AI研究 2026-01-29

モデルが審査員より賢くなるとベンチマークは飽和する

大規模言語モデル（LLM）の数学能力を測定する既存ベンチマーク「Omni-MATH」を精査し、データセットの不備修正と詳細なタグ付けを行った改訂版「Omni-MATH-2」を構築した。検証の結果、評価役のモデル（審査員）が被評価モデルの実力向上に追いつけず、正解の同等性を正しく判定できないことで、モデル間の真の性能差が隠蔽される「審査員による飽和」現象が確認された。特に難易度が高い問題ほど審査員間の不一致が増大し、従来の審査員は不一致事例の96.4%で誤判定を下していたことから、今後の評価には被評価モデルを上回る高度な審査員の存在が不可欠である。

5717 字

読む →

AI研究 2026-01-29

AROMMA：単一分子と混合物のための嗅覚埋め込みの統合

嗅覚研究における長年の課題であった、単一分子データと混合物データの断片化を解消するため、両者を同一のベクトル空間で扱う統一的フレームワーク「AROMMA」を提案しました。大規模化学基盤モデルSPMMとアテンション機構を用いた独自のアグリゲーターにより、分子間の複雑な非線形相互作用を捉えつつ、知識蒸留とクラス分布を考慮した疑似ラベル生成によってデータの不均一性を克服しています。実験では、混合物データで19.1%、単一分子で3.2%の精度向上を達成し、混合物の学習から得られた知見が単一分子の理解を深めるという双方向の知識転移が可能であることを世界で初めて実証しました。

6019 字

読む →

AI研究 2026-01-29

大規模言語モデルにおけるヘッド間相互作用のための明示的なマルチヘッドアテンション

従来のTransformerが抱えていたアテンションヘッド間の独立性という制約を打破するため、ヘッド間の明示的な相互作用を可能にする「Multi-head Explicit Attention（MEA）」を提案し、学習の安定性と表現力を大幅に向上させた。

5927 字

読む →

AI研究 2026-01-29

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

大規模推論モデルの学習において、グループ内の報酬差が消失し学習が停滞する「アドバンテージの崩壊」を防ぐため、過去の履歴を活用するクロスコンテキスト・リプレイ（CCR）、失敗から学ぶインコンテキスト自己内省（ISR）、およびトークン単位のエントロピーに基づく構造的エントロピー・ランキング報酬（SERR）を統合した強化学習メカニズム「R^3」が提案されました。 DeepSeek-R1-Distill-Qwen-1.5Bおよび7Bをベースに数学ドメインで訓練した結果、1.5Bという小規模なモデルでありながらAIME 2024などの難関ベンチマークで従来の7Bクラスのモデルを凌駕する最先端の性能を達成し、同時に推論に必要なトークン数の削減にも成功しています。本手法は、プロセスレベルの注釈に頼ることなく、外部的な介入と内部的な自己最適化を組み合わせることで、困難なタスクにおいても安定した学習信号を維持し、モデルが自身の過去の誤りから自律的に推論プロセスを洗練させることを可能にした画期的なフレームワークです。

6027 字

読む →

AI研究 2026-01-29 長文

Grasynda：グラフに基づく合成時系列データの生成

Grasyndaは、単変量の時系列データをグラフ構造へと変換し、状態間の遷移確率を基に現実的な合成データを生成する新しいデータ拡張手法である。時系列を離散的な状態（ノード）とそれらの遷移（エッジ）としてモデル化することで、データの局所的なパターンと全体的な構造の両方を効果的に符号化し、統計的性質を維持したデータ生成を可能にする。 6つのベンチマークデータセットを用いた検証の結果、NHITSやKANなどの最新モデルにおいて、AmazonのChronosで採用されている手法を含む既存のデータ拡張技術を上回る予測精度の向上が確認された。この手法はSTL分解を併用することで、トレンドや季節性といった非定常な特性を保持しながら、効率的かつ高精度なデータ拡張を実現し、深層学習モデルの汎化性能を大幅に向上させる実用的な枠組みを提供している。

7106 字

読む →

AI研究 2026-01-29

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

大規模言語モデル（LLM）の内部状態を「認知要素（CE）」という解釈可能な最小単位に分解し、それらを論理ルールで組み合わせることで、高度な安全監視を実現するフレームワーク「GAVEL」が提案されました。

6268 字

読む →

AI研究 2026-01-28 長文

グランドトゥルースなしのキャリブレーション

公開されている人間によるテキストデータが今後10年以内に枯渇するという予測に基づき、正解ラベル（Ground Truth）に依存せずにモデルの性能を向上させる手法が求められています。本研究は、強力だが予測の確信度と実際の正解率が乖離している（校正されていない）モデルを、性能は低いが校正が適切になされている参照モデルを用いて後処理し、性能を厳密に向上させるフレームワークを提案しています。この手法は経済学の「裁定取引」や「ノー・トレード定理」の概念を機械学習に導入したものであり、ラベルなしのデータのみを用いて、大規模言語モデルの予測誤差や校正エラーを監督ありのベースラインに匹敵するレベルまで削減することに成功しました。

7680 字

読む →

生成AI研究を、要点から追う。

最新の記事

モデルが審査員より賢くなるとベンチマークは飽和する

AROMMA：単一分子と混合物のための嗅覚埋め込みの統合

大規模言語モデルにおけるヘッド間相互作用のための明示的なマルチヘッドアテンション

R^3：LLMの強化学習のためのリプレイ、リフレクション、およびランキング報酬

Grasynda：グラフに基づく合成時系列データの生成

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

グランドトゥルースなしのキャリブレーション