AI研究 | Cog AI Archive

AI研究 2026-02-01

ETS: 強化学習アライメントを学習なしで実現するエネルギー誘導型テスト時スケーリング

言語モデルの強化学習（RL）による事後学習アライメントは、複雑なトレーニングプロセスや高コストな報酬モデリング、不安定な学習動態といった課題を抱えていますが、本研究では追加の学習を一切行わずに推論時に最適なRLポリシーから直接サンプリングを行う手法「Energy-Guided Test-Time Scaling（ETS）」を提案しています。 ETSは、マスク言語モデリング（MLM）の枠組みにおいて遷移確率をリファレンスポリシーとエネルギー項に分解し、オンラインモンテカルロ法を用いてこのエネルギー項を推定することで、学習なしでのアライメントを実現し、推論時の計算量を増やすことで生成品質を向上させる新しいテスト時スケーリングの形態を提示しています。実用的な効率を確保するために、重点サンプリングと軽量なプロポーザルモデルを組み合わせた加速戦略を導入しており、理論的な収束性を保証しながら推論の遅延を大幅に削減し、推論やコーディングなどのベンチマークにおいて従来の学習ベースのRL手法を凌駕する性能を一貫して達成していることが確認されました。

5780 字

読む →

AI研究 2026-02-01

最小抵抗の経路：接頭辞の合意によるLLM推論軌道の誘導

大規模言語モデル（LLM）の推論精度を向上させる自己整合性（Self-Consistency）は、全推論経路を最後まで生成するため計算コストが極めて高いという課題がありますが、本研究は推論の初期段階である「接頭辞」に正解を予測する強力な信号が含まれるという「接頭辞の合意」現象に着目した新手法PoLR（Path of Least Resistance）を提案しました。 PoLRは、まず複数の短い接頭辞を生成してクラスタリングを行い、最も支配的な推論グループのみを最後まで拡張することで、精度を維持または向上させながらトークン使用量を最大60パーセント、実行時間を最大50パーセント削減することに成功しており、モデルの微調整を必要としない推論時のプラグインとして機能します。数学（GSM8K、MATH500、AIME24/25）や科学（GPQA-DIAMOND）などの難解な推論タスクにおいて、既存の適応型推論手法（Adaptive Consistencyなど）と組み合わせることでさらなる効率化が可能であり、1.5Bから32Bまでの多様なモデル規模でその有効性と実用性が実証されました。

6812 字

読む →

AI研究 2026-02-01

MAR: モジュールを意識したアーキテクチャの洗練による効率的な大規模言語モデル

大規模言語モデルの計算コストとエネルギー消費を削減するため、アテンション機構を状態空間モデル（SSM）に置き換えて線形時間処理を実現し、さらにFFN層をスパイキングニューラルネットワーク（SNN）で疎化する二段階フレームワーク「MAR」を提案しています。

5991 字

読む →

AI研究 2026-02-01

タスク認識はLLMの生成と不確実性を改善する

大規模言語モデル（LLM）の出力は、自然言語の形式をとりながらも、その背後にはラベル、数値、グラフといった特定のタスク構造が潜在していますが、従来のデコーディング手法は言語空間のみで動作し、この構造的情報を十分に活用できていないという課題がありました。

5989 字

読む →

AI研究 2026-02-01

MAR: モジュールを考慮したアーキテクチャ洗練による効率的な大規模言語モデル

MARは、計算負荷の高い注意機構を線形時間の状態空間モデル（SSM）に置き換えた上で、フィードフォワードネットワーク（FFN）をスパイキングニューラルネットワーク（SNN）によってスパース化する、二段階のモジュール対応アーキテクチャ洗練フレームワークである。

5918 字

読む →

AI研究 2026-02-01

大型言語モデルの制御におけるスタイルベクトルの有効性：人間による評価

大型言語モデルの内部活性化を直接操作するアクティベーション・ステアリングは、追加学習や複雑なプロンプトを必要とせずに、出力の感情トーンを精密かつ段階的に制御できる軽量な手法である。本研究では、190人の参加者から7,000件以上の評価を収集する初の大規模な人間評価を実施し、人間がモデルの感情変化を明確に知覚できること、および自動評価指標と人間の直感が平均r=0.776という高い相関を示すことを証明した。特定の強度（λ≈0.15）でステアリングを行うことで、テキストの読みやすさを維持したまま「嫌悪」や「恐怖」などの感情を効果的に増幅できる一方、「驚き」の制御は比較的困難であるという感情ごとの特性や、モデルの基礎能力が制御の一貫性に寄与することが明らかになった。

5808 字

読む →

AI研究 2026-02-01

LLMの感情制御におけるスタイルベクトルの有効性：人間による評価

本研究は、大規模言語モデル（LLM）の内部活性化を直接操作する「アクティベーション・ステアリング」を用い、出力の感情トーンを制御する手法の有効性を、190人の参加者による7,000件以上の評価を通じて初めて人間中心の視点から検証した。実験の結果、ステアリング強度を適切な値（$\lambda \approx 0.

5806 字

読む →

AI研究 2026-02-01

LLaMEA-SAGE: 説明可能なAIによる構造的フィードバックを用いたアルゴリズム自動設計の誘導

LLaMEA-SAGEは、大規模言語モデル（LLM）を用いたアルゴリズム自動設計において、生成されたコードの抽象構文木（AST）から抽出した構造的特徴量と説明可能なAI（XAI）を組み合わせ、進化の方向性を論理的に誘導する新しいフレームワークである。

6470 字

読む →

AI研究 2026-02-01

LLaMEA-SAGE: 説明可能なAIによる構造的フィードバックを用いた自動アルゴリズム設計の進化

LLaMEA-SAGEは、大規模言語モデル（LLM）を用いた自動アルゴリズム設計において、生成コードの抽象構文木から抽出した構造的特徴を説明可能AI（XAI）で解析し、性能向上に繋がる具体的な修正指針を自然言語でフィードバックする新しいフレームワークである。

5965 字

読む →

AI研究 2026-02-01

MURAD: 大規模な多領域統合型アラビア語逆引き辞書データセット

1. MURADは、96,243組の単語と定義のペアを収録した、アラビア語において過去最大規模を誇る多領域統合型の逆引き辞書データセットであり、17の信頼できる学術的・教育的出典から構築されている。 2.

5817 字

読む →

生成AI研究を、要点から追う。

最新の記事

ETS: 強化学習アライメントを学習なしで実現するエネルギー誘導型テスト時スケーリング

最小抵抗の経路：接頭辞の合意によるLLM推論軌道の誘導

MAR: モジュールを意識したアーキテクチャの洗練による効率的な大規模言語モデル

タスク認識はLLMの生成と不確実性を改善する

MAR: モジュールを考慮したアーキテクチャ洗練による効率的な大規模言語モデル

大型言語モデルの制御におけるスタイルベクトルの有効性：人間による評価

LLMの感情制御におけるスタイルベクトルの有効性：人間による評価

LLaMEA-SAGE: 説明可能なAIによる構造的フィードバックを用いたアルゴリズム自動設計の誘導

LLaMEA-SAGE: 説明可能なAIによる構造的フィードバックを用いた自動アルゴリズム設計の進化

MURAD: 大規模な多領域統合型アラビア語逆引き辞書データセット