継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

タスク複雑性で「表層的アラインメント仮説(SAH)」を操作可能にする:短いプログラム長で測る適応の情報量

SAHは「大規模言語モデルは事前学習で知識の大半を得て、事後学習はそれを表に出すだけ」という見立てですが、重要語の定義が曖昧なため、支持と批判が同じ土俵で噛み合いにくい状況でした。 / 本研究は、目標性能を満たすための「最短プログラム長」をタスク複雑性として定義し、少量データでの微調整、少数パラメータ更新、推論時のプロンプト制御を、短いプログラムを見つけるための別戦略として同一の指標で比較できるようにします。 / 数学推論・機械翻訳・指示追従で複雑性を推定したところ、事前学習モデルへのアクセスにより複雑性が非常に小さくなり得る一方、強い性能へ到達するには長大なプログラムが必要になる場合もあり、事後学習は同等の性能へ到達する複雑性を大きく縮め、適応に必要な情報が数キロバイトで足りることが多いと示されました。

5466 字
読む →

BPP:重要な履歴キーフレームに注目して長い文脈を扱うロボット模倣学習

ロボットが過去の出来事を覚える必要があるタスクでは、観測履歴をそのまま入力に足すだけでは学習時の履歴に含まれる偶然の手掛かりへ依存しやすく、運用時に少し軌跡がずれただけで未学習の履歴に遭遇して失敗が連鎖しやすいと分析されています。

5868 字
読む →

マスクド拡散言語モデルを超えたスケーリング

Scaling Beyond Masked Diffusion Language Models:離散拡散言語モデルを「パープレキシティ中心」から拡張して捉え直す

6172 字
読む →

低分解能から中分解能スペクトルへ:単純なニューラルネットによる恒星パラメータ推定のクロスサーベイ汎化(DESI事例)。

低分解能サーベイで学習した単純な多層パーセプトロン(MLP)でも、別サーベイの中分解能スペクトルへそのまま適用しても良好に推定でき、少量データでの追加学習でさらに整えられることを示しました。 / LAMOSTの低分解能スペクトルそのもの、またはトランスフォーマー系の自己教師ありモデルが作る埋め込みを入力としてMLPを事前学習し、DESIスペクトルに対してゼロショット適用と少数ショットの微調整を行い、残差ヘッド、LoRA、全層微調整を比較しました。 / 鉄の存在度では金属量が高い領域([Fe/H] > −1.0)で埋め込みが有利になり得る一方、金属量が低い領域ではスペクトル直接入力のMLPが相対的に優位になり、最適な微調整法は推定したい恒星パラメータによって変わることが分かりました。

6119 字
読む →

言語の共起統計にある「平行移動対称性」が、モデル表現の幾何を形づくる

大規模言語モデルの内部表現で、月が円環状に並ぶ、年が滑らかな一次元のまとまりになる、都市の緯度経度が線形な読み出しで復号できるといった幾何学的構造が現れる理由を、学習データ側の二語共起統計から説明する枠組みが示されています。

5355 字
読む →

長い文脈ほど焦点がぼけるのか:プライバシーと個人最適化で見えるLLMの「スケーリング・ギャップ」とPAPerBench

長い文脈を与えれば個人最適化が自然に良くなり、同時にプライバシーも堅牢になると期待しがちですが、本研究の評価では文脈長が伸びるほど個人最適化とプライバシーの両方で性能低下が一貫して観測されています。

5347 字
読む →

UniT:統合型マルチモーダルモデルに複数ラウンドの推論・検証・編集を組み込み、推論時計算を画像ラウンドで拡張する枠組み

UniTは、理解と生成を同じモデルでこなしつつ、1回で答えを出すのではなく、画像を作り、確かめ、直し、また確かめるという反復をテスト時に回す枠組みです。 / 重要なのは、候補を並列にたくさん出して選ぶよりも、逐次的に考えて直していく方が、同じ計算量あたりで強い点です。画像生成、編集、視覚推論の複数ベンチで一貫して優位が出ています。 / 成功の鍵は、検証、サブゴール分解、内容記憶という三つの認知的ふるまいを学習データに埋め込んだことにあります。逆に言うと、単に推論回数を増やすだけでは足りず、何を確認し、何を覚え、どう分けて直すかまで設計しないと伸びません。

5667 字
読む →

擬似可逆ニューラルネットワーク

線形システムにおけるMoore-Penroseの擬似逆行列(PInv)を非線形領域および深層学習へと拡張し、情報の損失を伴う全射的な写像においても厳密な代数的整合性を保持する新アーキテクチャ「SPNN」を提案した。

5798 字
読む →

データに潜む“サブリミナル効果”:ログ線形性で読む一般メカニズム

データのどこにも書いていないはずの性格や言語が、なぜ学習後のモデルに現れるのでしょうか? 論文はその現象を「特別な細工」ではなく、もっと一般的に起こりうる仕組みとして捉え直します。 この記事では、Logit-Linear Selection(LLS)が何をして、何が確かめられ、どこまで言えるのかを筋道立てて整理します。

7213 字
読む →

IoTモデルを変化に強くする:コントラスト継続学習(CCL)の整理と設計指針

IoTの現場で、学習済みモデルは“いつまで”通用するのでしょうか? 鍵は高性能な一発学習ではなく、変化に追従しつつ忘れにくい「学び方」でした。 この記事では、IoT向けのコントラスト継続学習(CCL)を、設計と運用の両面から読み解きます。

8586 字
読む →