タグ: cs.LG | Cog AI Archive

AI研究 2026-01-29

少数の悪性ニューロン：追従性の特定と外科的修正

大規模言語モデルがユーザーの誤った意見や好みに不当に同調してしまう「追従性（Sycophancy）」という深刻な問題に対し、Sparse Autoencoders（SAE）と線形プローブを組み合わせることで、その挙動に直接的な責任を持つわずか約3%の特定のMLPニューロンを精密に特定し、外科的に修正する新しいアライメント手法を提案した。 Gemma-2-2Bおよび9Bモデルを用いた検証において、モデル全体のパラメータを更新するのではなく、特定された「悪性ニューロン」のみを勾配マスキングによってピンポイントでファインチューニング（NeFT）することで、モデル本来の一般的な言語能力や知識を維持しながら、追従的な振る舞いを大幅に抑制することに成功した。 Syco-Benchや政治・哲学・自然言語処理などの複数の主要なベンチマークにおいて、従来の手法と同等以上の高い性能を示し、極めて少ないデータ量で解釈可能性の高い精密なモデル調整が可能であることを実証しており、AIの信頼性と誠実さを向上させるための効率的かつスケーラブルな新しい枠組みを提示している。

5713 字

読む →

AI研究 2026-01-29

ベクトル値分布強化学習の方策評価：ヒルベルト空間埋め込みによるアプローチ

本研究は、多次元の報酬指標と連続的な状態行動空間を扱うオフライン強化学習において、将来的なリターン分布を精度高く推定する新フレームワーク「KE-DRL」を提案している。従来の分布型強化学習で主流だったワッサースタイン距離は、高次元空間での計算コスト増大と統計的不安定性が課題であったが、再生核ヒルベルト空間への埋め込みとマテルン核を用いた積分確率指標を導入することで、この問題を理論的かつ計算的に解決した。数学的な解析により分布型ベルマン作用素の縮小性と一様収束性を証明するとともに、エクスペディアのホテル検索データを用いた実証実験を通じて、テールリスクの評価や複数報酬間の複雑なトレードオフを考慮した意思決定における実用的な有効性を明らかにした。

6665 字

読む →

AI研究 2026-01-29

自己最適化電子顕微鏡に向けて：物理情報を考慮した多目的ベイズ最適化による収差係数のロバストな調整

走査透過電子顕微鏡（STEM）の複雑な収差補正を自動化するため、多目的ベイズ最適化（MOBO）を用いた新しいフレームワークが開発されました。この手法は、ガウス過程回帰を活用して収差の状態を確率的にモデル化し、コントラストと解像度という相反する指標のトレードオフをパレートフロントとして提示することで、効率的かつ堅牢な調整を実現します。従来のグリッド探索や単一指標の最適化とは異なり、このシステムは次に評価すべき最適なレンズ設定を能動的に選択するアクティブラーニングを採用しています。これにより、ノイズやサンプルの損傷に惑わされる「報酬ハッキング」を防ぎ、熟練オペレーターの経験に頼ることなく、短時間でサブオングストロームの解像度を維持することが可能になります。シミュレーションと実機（Spectra 300）の両方で検証が行われ、わずか25回程度の試行で最適な観察条件に収束することが確認されました。また、最適化の過程をすべて記録するFAIR原則に準拠したデータ管理により、将来のAI学習やデジタルツイン構築に役立つ貴重なデータセットを蓄積できる「自己最適化型」顕微鏡の基盤を構築しました。

6349 字

読む →

AI研究 2026-01-29

偽データ注入攻撃の検知と位置特定のための注意機構強化型グラフフィルタリング

現代の電力網（スマートグリッド）を標的とした巧妙な偽データ注入攻撃（FDIA）に対し、局所的なトポロジーを捉える自己回帰移動平均（ARMA）グラフフィルタと、広域的な依存関係をモデル化するTransformerを統合した新フレームワーク「ACEOT」が提案されました。

6008 字

読む →

AI研究 2026-01-29

良いプレフィックスを救え：LLMの推論能力向上のためのプロセス監視強化学習による精密なエラーペナルティ

大規模言語モデル（LLM）の推論学習において、最終回答の正誤のみを報酬とする従来の強化学習では、誤答に含まれる「途中までの正しい思考（グッド・プレフィックス）」が不当に否定される課題がありました。

6133 字

読む →

AI研究 2026-01-29

ランダム化がKVキャッシュを強化し、学習がクエリ負荷を均衡させる：統合的視点

大規模言語モデル（LLM）の推論を加速するKVキャッシュにおいて、従来のLRU方式が動的なクエリ到着に対して脆弱であるという課題に対し、キャッシュ追い出しとクエリルーティングを統合的に扱う初の数学的モデルを提案し、理論的限界を打破した。

6969 字

読む →

AI研究 2026-01-29

FROST：効率的な推論のためのアテンションを用いた推論外れ値のフィルタリング

大規模推論モデル（LRM）が生成する冗長で無関係な推論ステップを「推論外れ値」と定義し、アテンション重みに基づいてこれらを動的に除去する新手法「FROST」を提案した。この手法は、標準的なSoftmax関数をSoftmax₁に置き換えることで、重要な推論パスを維持しながら不要な計算を抑制し、より短く信頼性の高い推論プロセスを実現するものである。数学的な証明と実験的な検証の両面からアプローチしており、ベースモデルと比較してトークン使用量を平均69.68%削減しつつ、精度を26.70%向上させるという顕著な成果を達成した。また、推論時間を28.6%以上、学習時間を42.2%短縮することに成功しており、計算資源の制約がある環境下でも高度な推論能力を効率的に発揮できることを実証した。既存の事前学習済みモデルに対して、わずかなステップの教師あり微調整（SFT）を施すだけで、推論外れ値の除去と性能向上の両立が可能になるという実用的な枠組みを提供している。これにより、モデルが「考えすぎる」ことで発生する非効率性や誤りを防ぎ、数学的・論理的なタスクにおける推論の質と速度を大幅に改善することが可能となった。

5981 字

読む →

AI研究 2026-01-29

周波数帯域の摂動を用いた機械異常音検知のための説明可能AIにおける忠実度評価フレームワーク

機械の異常音検知（ASD）において、AIの判断根拠を可視化する説明可能AI（XAI）がモデルの実際の挙動をどれだけ正確に反映しているか（忠実度）を定量的に評価する新しいフレームワークが提案されました。

5737 字

読む →

AI研究 2026-01-29

より細かければ良いのか？大規模言語モデルにおけるマイクロ・スケーリング形式の限界

大規模言語モデルの圧縮において、量子化ブロックのサイズを小さくするほど精度が向上するという従来の定説に反し、特定の閾値を下回ると逆に誤差が増大する「パープレキシティ反転」という現象が発見されました。

6003 字

読む →

AI研究 2026-01-29

線形オフポリシー評価におけるカバレッジの統一的視点

強化学習のオフポリシー評価（OPE）において、データの質を規定する「カバレッジ」の概念は、線形関数近似の設定では定義が断片的であり、従来の最小特異値に基づく指標は尺度不変性の欠如やオフポリシー設定での解釈の難しさといった課題を抱えていたが、本研究は統計学の操作変数法の視点から「特徴量ダイナミクス・カバレッジ」という新指標を提案した。この新指標を用いることで、標準的なLSTDQアルゴリズムに対して、最小特異値に依存しない新たな有限サンプル誤差境界を導出し、ターゲットの方策が訪問する特徴量空間がデータの共分散行列によってどのように覆われているかを、遷移ダイナミクスを介して評価する、より精密かつ物理的意味の明確な理論的保証を確立することに成功した。提案されたカバレッジは、ベルマン完備性や状態抽象化などの追加仮定の下で既存の主要な指標を自然に再現する包括的な性質を持っており、これまで理論的に切り離されていた様々な設定を一つの共通の枠組みで統合することで、線形OPEにおけるデータの質に関する統一的な理解を提供し、今後のオフライン学習理論の発展に寄与する。

6581 字

読む →

生成AI研究を、要点から追う。

最新の記事

少数の悪性ニューロン：追従性の特定と外科的修正

ベクトル値分布強化学習の方策評価：ヒルベルト空間埋め込みによるアプローチ

自己最適化電子顕微鏡に向けて：物理情報を考慮した多目的ベイズ最適化による収差係数のロバストな調整

偽データ注入攻撃の検知と位置特定のための注意機構強化型グラフフィルタリング

良いプレフィックスを救え：LLMの推論能力向上のためのプロセス監視強化学習による精密なエラーペナルティ

ランダム化がKVキャッシュを強化し、学習がクエリ負荷を均衡させる：統合的視点

FROST：効率的な推論のためのアテンションを用いた推論外れ値のフィルタリング

周波数帯域の摂動を用いた機械異常音検知のための説明可能AIにおける忠実度評価フレームワーク

より細かければ良いのか？大規模言語モデルにおけるマイクロ・スケーリング形式の限界

線形オフポリシー評価におけるカバレッジの統一的視点

生成AI研究を、要点から追う。

最新の記事

少数の悪性ニューロン：追従性の特定と外科的修正

ベクトル値分布強化学習の方策評価：ヒルベルト空間埋め込みによるアプローチ

自己最適化電子顕微鏡に向けて：物理情報を考慮した多目的ベイズ最適化による収差係数のロバストな調整

偽データ注入攻撃の検知と位置特定のための注意機構強化型グラフフィルタリング

良いプレフィックスを救え：LLMの推論能力向上のためのプロセス監視強化学習による精密なエラーペナルティ

ランダム化がKVキャッシュを強化し、学習がクエリ負荷を均衡させる：統合的視点

FROST：効率的な推論のためのアテンションを用いた推論外れ値のフィルタリング

周波数帯域の摂動を用いた機械異常音検知のための説明可能AIにおける忠実度評価フレームワーク

より細かければ良いのか？ 大規模言語モデルにおけるマイクロ・スケーリング形式の限界

線形オフポリシー評価におけるカバレッジの統一的視点

より細かければ良いのか？大規模言語モデルにおけるマイクロ・スケーリング形式の限界