AI研究 | Cog AI Archive

AI研究 2026-02-01

意味的内容がアルゴリズムの性能を決定する

大規模言語モデル（LLM）は、本来なら入力の意味に左右されないはずの計数のようなアルゴリズム的タスクにおいて、対象が「都市名」か「化学物質名」かといった意味的内容（セマンティック・クラス）によって正解率が40%以上も変動するという重大な脆弱性を持っていることが明らかになった。

6346 字

読む →

AI研究 2026-02-01

オーバースケーリングの呪いを打破する：並列思考の前に並列性を考える

大規模言語モデル（LLM）の推論において、複数の推論パスを並列生成して多数決で統合する「並列思考」は有効ですが、全データに一律の大規模な並列数（予算）を割り当てると、多くのサンプルで計算資源が無駄になる「オーバースケーリングの呪い」が発生します。

6188 字

読む →

AI研究 2026-02-01

オーバースケーリングの呪いを打破する：並列的思考の前に並列性を考える

大規模言語モデルの推論において、複数の回答を生成して統合する「並列的思考」は精度を向上させますが、全問題に一律の大きな並列度を割り当てると、簡単な問題などで計算資源が無駄になる「オーバースケーリングの呪い」が発生することを明らかにしました。

6273 字

読む →

AI研究 2026-02-01

深層ニューラルネットワークにおける学習メモリ：メカニズム、エビデンス、および測定のギャップ

現代の深層学習のトレーニングプロセスは、過去の状態を保持しない「メモリレス」なものではなく、オプティマイザのモーメント、データの提示順序、非凸な損失関数上の経路、およびバッチ正規化の統計量といった多様な補助的状態に依存して更新が行われる「学習メモリ」を持つプロセスである。

6997 字

読む →

AI研究 2026-02-01

深層学習におけるトレーニングメモリ：メカニズム、証拠、および測定のギャップ

深層学習のトレーニングプロセスは、現在のパラメータとミニバッチのみに依存するメモリレスな過程ではなく、過去の勾配履歴、データの提示順序、非凸な損失関数上の経路、外部バッファ、および教師モデルの統計量といった多層的な「トレーニングメモリ」に強く依存して進行する。

6724 字

読む →

AI研究 2026-02-01 長文

HeRo-Q: ヘッセ行列の条件付けによる安定した低ビット量子化のための汎用フレームワーク

大規模言語モデル（LLM）の量子化において、重みの誤差が小さいにもかかわらず性能が急落する「低誤差・高損失」の矛盾を解決するため、損失曲面の幾何学的構造を改善する新フレームワーク「HeRo-Q」が提案されました。

7108 字

読む →

AI研究 2026-02-01

HeRo-Q: ヘッセ行列の調整による安定した低ビット量子化のための汎用フレームワーク

大規模言語モデルの量子化において、誤差は小さいのに性能が大幅に低下する「低誤差・高損失」の矛盾を解決するため、損失曲面の幾何学的構造であるヘッセ行列の曲率を調整する新しいフレームワーク「HeRo-Q」が提案されました。

5705 字

読む →

AI研究 2026-02-01

Seg-MoE: 時系列予測のためのセグメント単位の混合エキスパートモデル

従来の時系列予測向け混合エキスパート（MoE）モデルは、各時間ステップを独立して処理するトークン単位のルーティングを採用していたが、データの連続性や局所的な構造を十分に活用できていないという課題があった。

5796 字

読む →

AI研究 2026-02-01

Seg-MoE: 時系列予測のためのセグメント単位の混合専門家モデル

時系列予測におけるTransformerモデルのスケーリングと長期的な動態把握の課題に対し、従来のトークン単位ではなく、連続するタイムステップを一つのセグメントとしてルーティングする新しい疎な混合専門家（MoE）アーキテクチャ「Seg-MoE」を提案している。

5734 字

読む →

AI研究 2026-02-01

ILRR: マスク型拡散言語モデルのための推論時ステアリング手法

離散拡散言語モデル（DLM）の生成プロセスを推論時に制御するための、学習を必要としない新しいフレームワーク「反復的潜在表現洗練（ILRR）」が提案されました。この手法は、生成中のシーケンスの内部活性化状態を、単一の参照シーケンスの活性化状態と動的に位置合わせすることで、特定の属性やスタイルを効果的に転送します。

6185 字

読む →

生成AI研究を、要点から追う。

最新の記事

意味的内容がアルゴリズムの性能を決定する

オーバースケーリングの呪いを打破する：並列思考の前に並列性を考える

オーバースケーリングの呪いを打破する：並列的思考の前に並列性を考える

深層ニューラルネットワークにおける学習メモリ：メカニズム、エビデンス、および測定のギャップ

深層学習におけるトレーニングメモリ：メカニズム、証拠、および測定のギャップ

HeRo-Q: ヘッセ行列の条件付けによる安定した低ビット量子化のための汎用フレームワーク

HeRo-Q: ヘッセ行列の調整による安定した低ビット量子化のための汎用フレームワーク

Seg-MoE: 時系列予測のためのセグメント単位の混合エキスパートモデル

Seg-MoE: 時系列予測のためのセグメント単位の混合専門家モデル

ILRR: マスク型拡散言語モデルのための推論時ステアリング手法