継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

散逸学習:生存可能な適応システムのためのフレームワーク

学習を本質的にエネルギーを消費し情報を捨てる「散逸プロセス」と定義し、忘却や正則化をシステムの生存に不可欠な構造的要件として再構築するBEDSフレームワークを提案している。 情報幾何学と熱力学に基づき、フィッシャー・ラオ正則化が最小の散逸で学習を実現する唯一の最適戦略であることを理論的に証明し、既存の多様な機械学習手法を単一の方程式で統一的に説明することに成功した。 過学習を「過剰な結晶化」、壊滅的忘却を「散逸制御の不全」と捉え直し、有限のリソース下で精度と適応性のバランスを維持し続ける「生存可能性」を、従来の評価基準に代わる新たな指標として提示している。

5782 字
読む →

幾何学的推論器:長文脈推論のための多様体情報を活用した潜在的予見探索

大規模言語モデルの推論能力を向上させるための推論時計算量の拡張において、従来の強化学習やサンプリング手法は膨大な学習コストやメモリ消費、推論経路の重複といった深刻な課題を抱えていましたが、本研究が提案する「TGR(The Geometric Reasoner)」は、追加学習を一切必要とせず、推論過程をチャンク単位に分割してメモリ消費を抑えつつ、潜在空間での多様体情報を活用した「潜在的予見探索」を行う革新的なフレームワークです。 具体的には、推論を短いチャンクに分割し、各境界で潜在アンカーを抽出・サンプリングして、予見スコア、軌跡の滑らかさを表す凹凸ペナルティ、多様性を促す一様性正則化からなる幾何学的スコアで最適な経路を選択し、低ランクの残差注入によってモデルを制御することで、KVキャッシュのメモリ消費を文脈長に対して線形に保ちながら、長大で論理的一貫性のある多様な推論を効率的に生成することに成功しました。 Qwen3-8Bを用いた数学やコード生成の難解なベンチマークでの検証では、Pass@k曲線の曲線下面積(AUC)を最大13ポイント向上させ、計算負荷をわずか1.1倍から1.3倍程度に抑えつつ、既存の強化学習ベースの手法(GRPOやSimKO)を凌駕する高い網羅性と予算効率を実証しており、モデルの重みを更新することなく推論時の工夫のみで高度な探索を実現できる実用性の高い手法であることを示しました。

6150 字
読む →

TensorLens:高階アテンションテンソルによるエンドツーエンドのTransformer分析

従来のTransformer分析は、個別のヘッドや特定の層といった局所的な挙動に焦点を当てており、モデル全体のグローバルな情報の流れを数学的に統一して記述する枠組みが欠如していました。本研究で提案された「TensorLens」は、自己アテンションだけでなく、FFN、レイヤー正規化、残差接続、埋め込み層を含むすべての構成要素を統合し、単一の入力依存型線形オペレータとして再定式化する画期的な手法です。 この枠組みは、モデル全体を4階のアテンション相互作用テンソルとして表現することで、トークン間およびチャネル間の複雑な相互作用を理論的に厳密な形で捉えることを可能にし、従来のアテンション行列という2次元の構造をより高次な空間へと拡張しました。 実験では、視覚モデルのDeiTや言語モデルのBERTを用いた入力摂動テストにおいて、従来のアテンションロールアウトやヒューリスティックな集約手法を大幅に上回る精度でモデルの内部表現を反映できることが実証され、メカニスティックな解釈可能性の研究に新たな数学的基盤を提供しました。

6812 字
読む →

均質なTransformerモデルを用いたペアなしマルチモーダルデータのための連合学習

従来のマルチモーダル学習は画像とテキストのペアが揃った大規模な中央集権的データを必要としていましたが、医療や金融などの機密分野ではデータが分散し、かつペアが存在しない「ペアなしデータ」の状態が一般的であるという課題がありました。

6626 字
読む →

最小限の深層学習アーキテクチャの体系的な特性評価:収束、枝刈り、量子化の統一的解析

本研究は、深層ニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、およびビジョン・トランスフォーマー(ViT)を対象に、特定のタスクを解決するために必要な「最小限のアーキテクチャ」を特定するための統一的な計算手法を提案し、学習の収束性、枝刈りへの耐性、量子化の堅牢性を体系的に解析した。

5851 字
読む →

より効果的な炭素削減に向けた大規模負荷シェイピングのためのチェリーピッキング・アプローチ

データセンター等の大規模負荷において、単一の指標に頼らず日々の系統信号に基づき最適な制御戦略を「チェリーピッキング(厳選)」することで、従来の価格ベースの手法より2〜3倍高いCO2削減効果が得られることが判明しました。

7076 字
読む →

ハーン・コルモゴロフ・アーノルド・ネットワークを用いた時系列予測

従来の時系列予測で主流だったTransformerの計算量の多さや、MLPが抱える高周波成分の学習の苦手さ(スペクトルバイアス)を解決するため、Hahn多項式を学習可能な活性化関数として組み込んだ新しいネットワーク構造「HaKAN」が開発されました。

5904 字
読む →

フローベースモデルによる極値的な数学的構造の発見

数学の極値幾何学における構造発見において、従来の離散的な手法や大規模言語モデル(LLM)に依存する手法の限界を打破するため、連続的な空間で直接動作する新しい生成フレームワークであるFlowBoostを提案しました。

7031 字
読む →

確率的焼きなまし法のメモリ効率的なFPGA実装

組合せ最適化問題を高速に解く手法として期待される確率的シミュレーテッドアニーリング(SSA)において、ハードウェア実装時の課題であった膨大なメモリ使用量を削減するため、中間状態の保存タイミングを最適化したHA-SSAアルゴリズムが提案されました。

6334 字
読む →

ランダムな概念の注入によるLLMの多様性への対処

大規模言語モデル(LLM)が特定の一般的な回答ばかりを生成してしまう「ロングテール問題(モード崩壊)」に対し、プロンプトの先頭に無関係なランダムな単語や文章を付加するだけで、出力の多様性が統計的に有意に向上することを明らかにしました。

5849 字
読む →