継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

パラメーター微調整を超えて:ノード分類のためのテスト時表現洗練

グラフニューラルネットワーク(GNN)が未知のデータ分布(OOD)に直面した際の性能低下を解決するため、従来のモデルパラメーターを更新する手法(PaFT)に代わり、潜在的な表現のみを修正する新しいパラメーター効率的な学習フレームワーク「TTReFT」が提案されました。

6375 字
読む →

パラメータのファインチューニングを超えて:ノード分類のためのテスト時の表現の精緻化

グラフニューラルネットワーク(GNN)が未知のデータ分布に直面した際の性能低下を解決するため、モデルのパラメータを更新せずに潜在的な表現層のみを調整する新しい学習枠組み「TTReFT」が提案されました。

6125 字
読む →

オーバースケーリングの呪いを打破する:並列思考の前に並列性を考える

大規模言語モデル(LLM)の推論において、複数の推論パスを並列生成して多数決で統合する「並列思考」は有効ですが、全データに一律の大規模な並列数(予算)を割り当てると、多くのサンプルで計算資源が無駄になる「オーバースケーリングの呪い」が発生します。

6188 字
読む →

オーバースケーリングの呪いを打破する:並列的思考の前に並列性を考える

大規模言語モデルの推論において、複数の回答を生成して統合する「並列的思考」は精度を向上させますが、全問題に一律の大きな並列度を割り当てると、簡単な問題などで計算資源が無駄になる「オーバースケーリングの呪い」が発生することを明らかにしました。

6273 字
読む →

深層ニューラルネットワークにおける学習メモリ:メカニズム、エビデンス、および測定のギャップ

現代の深層学習のトレーニングプロセスは、過去の状態を保持しない「メモリレス」なものではなく、オプティマイザのモーメント、データの提示順序、非凸な損失関数上の経路、およびバッチ正規化の統計量といった多様な補助的状態に依存して更新が行われる「学習メモリ」を持つプロセスである。

6997 字
読む →

深層学習におけるトレーニングメモリ:メカニズム、証拠、および測定のギャップ

深層学習のトレーニングプロセスは、現在のパラメータとミニバッチのみに依存するメモリレスな過程ではなく、過去の勾配履歴、データの提示順序、非凸な損失関数上の経路、外部バッファ、および教師モデルの統計量といった多層的な「トレーニングメモリ」に強く依存して進行する。

6724 字
読む →

HeRo-Q: ヘッセ行列の条件付けによる安定した低ビット量子化のための汎用フレームワーク

大規模言語モデル(LLM)の量子化において、重みの誤差が小さいにもかかわらず性能が急落する「低誤差・高損失」の矛盾を解決するため、損失曲面の幾何学的構造を改善する新フレームワーク「HeRo-Q」が提案されました。

7108 字
読む →

HeRo-Q: ヘッセ行列の調整による安定した低ビット量子化のための汎用フレームワーク

大規模言語モデルの量子化において、誤差は小さいのに性能が大幅に低下する「低誤差・高損失」の矛盾を解決するため、損失曲面の幾何学的構造であるヘッセ行列の曲率を調整する新しいフレームワーク「HeRo-Q」が提案されました。

5705 字
読む →

Seg-MoE: 時系列予測のためのセグメント単位の混合エキスパートモデル

従来の時系列予測向け混合エキスパート(MoE)モデルは、各時間ステップを独立して処理するトークン単位のルーティングを採用していたが、データの連続性や局所的な構造を十分に活用できていないという課題があった。

5796 字
読む →

Seg-MoE: 時系列予測のためのセグメント単位の混合専門家モデル

時系列予測におけるTransformerモデルのスケーリングと長期的な動態把握の課題に対し、従来のトークン単位ではなく、連続するタイムステップを一つのセグメントとしてルーティングする新しい疎な混合専門家(MoE)アーキテクチャ「Seg-MoE」を提案している。

5734 字
読む →