学習済みモデルは何を測定しているのか?
機械学習モデルを単なる予測器ではなく、センサーデータ等から物理量などを算出する「測定機器」として利用する場面が増えていますが、従来の汎化性能や頑健性の指標だけでは、モデルが何を測定しているかを十分に評価できないという問題があります。
最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。
Cog AI Archive
機械学習モデルを単なる予測器ではなく、センサーデータ等から物理量などを算出する「測定機器」として利用する場面が増えていますが、従来の汎化性能や頑健性の指標だけでは、モデルが何を測定しているかを十分に評価できないという問題があります。
本研究は、大規模言語モデル(LLM)の関数呼び出しにおいて、関数の引数(パラメータ)ごとに明示的な推論プロセスを組み込む新フレームワーク「TAFC」を提案した。 従来の関数呼び出しが抱えていた「パラメータ生成時の推論の不透明性」を解消するため、関数シグネチャに「think」パラメータを追加し、モデルが意思決定の根拠を記述してから値を生成する仕組みを導入している。 ToolBenchを用いた検証では、GPT-4oやLlama-3.1などの主要モデルにおいて、特に複雑な複数パラメータを持つ関数の生成精度と推論の整合性が大幅に向上し、小規模モデルでも顕著な改善が確認された。
大規模言語モデル(LLM)の安全性向上を目的として、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)の3つの役割が互いに学習し合う閉ループ強化学習フレームワーク「TriPlay-RL」が提案されました。
Temp-R1は、動的な事実と複雑な時間的制約を伴う知識グラフ質問応答(TKGQA)を解決するために開発された、強化学習ベースの統合自律エージェントである。 単一の思考タグによる認知負荷を分散させるため、内部アクションとして計画、フィルタリング、順位付けを導入し、さらに難易度の高い問題から学習を開始する逆カリキュラム学習を採用した。 80億パラメータのモデルでありながら、複雑な質問において既存手法を19.8%上回る精度を達成し、GPT-4oベースのシステムを凌駕する新たな状態最新(SOTA)を確立した。
強化学習の標準的な動的計画法は関数近似下で収縮性を失い収束が不安定になる課題があるが、本研究はベルマン残差最小化を政策最適化(制御タスク)へ拡張し、非凸・非平滑な目的関数が持つ区分的二次構造や局所リプシッツ連続性を解明することで、関数近似を用いても安定して解を探索できる理論的基盤を確立した。
大規模推論モデル(LRM)が生成する膨大な思考プロセスは、メモリ消費と計算コストを増大させ、効率的な展開を妨げる深刻なボトルネックとなっています。本研究では、アテンションマップの解析により、思考トークンのうち最終的な回答に寄与するのはわずか約20%から30%の重要なトークンのみであり、残りの大部分は冗長であるという「推論におけるパレートの法則」を発見しました。この知見に基づき、重要な思考トークンを動的に予測・選択して保持し、不要なキャッシュを破棄する手法「DYNTS」を提案し、推論速度を最大2.62倍向上させ、メモリ使用量を最大5.73倍削減しつつ、フルキャッシュと同等の高い精度を維持することに成功しました。
化学や製薬の工程で不可欠な液液分離において、装置の溢流を防ぐ鍵となる稠密充填層(DPZ)の高さは、光学的な制約により直接測定が困難で高価という課題がありました。本研究では、安価な流量データのみからフェーズ高さを推定するため、低忠実度の機構モデルによる事前学習と少量の実験データによる微調整を組み合わせた「物理情報ニューラルネットワーク(PINN)」を提案しました。このPINNを拡張カルマンフィルタ(EKF)に予測モデルとして組み込むことで、従来の純粋なデータ駆動型モデルや機構モデルを凌駕する精度で、動的なフェーズ高さの推移をリアルタイムに追跡することに成功しました。さらに、物理的な制約をモデルに持たせることで、学習データに含まれない未知の運転条件下でも安定した推定が可能となり、プロセスの安全性向上とコスト削減を両立する新たな監視手法としての有効性が示されました。
本論文は、標準的な自己注意機構の二次計算量 $O(L^2)$ を打破し、シーケンス長 $L$ に対して $O(L^{1+1/N})$ の劣二次計算量を実現する「スーパーリニア・アテンション」を提案しています。
ゲームの学習における回転ダイナミクス(振動)を抑制するため、離散力学系の周波数推定に基づきLookAheadアルゴリズムのハイパーパラメータを自動選択する新手法「MoLA」を提案した。 複素周波数空間(z平面)でのモード解析により、システムの安定性を最大化する更新回数 $k$ と補間重み $\alpha$ を決定することで、単調かつリプシッツ連続な演算子に対する $O(1/T)$ の収束を理論的に保証した。 双線形ゲームや強凸強凹ゲームを用いた検証において、従来のLookAheadや他の変分不等式手法を上回る収束速度を達成し、計算コストを最小限に抑えつつ訓練を効率的に加速させることに成功した。
深層学習の訓練において、初期段階の収束を劇的に加速させる自然勾配法(NGD)と、損失景観の平坦な領域を探索して汎化性能を高める勾配正則化(GR)を統合した新しい最適化フレームワーク「GRNG」を提案した。