継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

岩石―流体相互作用のサロゲートモデル:グリッドサイズ不変アプローチ

岩石―流体相互作用を含む多孔質媒体の流動予測は高解像度の数値計算ほど計算負荷が重くなりやすいため、学習ベースのサロゲートで「多数の条件を何度も回す」用途に適した代替手段を整理して示しています。 / 圧縮と予測を分ける縮約モデルと、学習時より大きい計算領域にも推論できるグリッドサイズ不変の単一ネットワークという二系統で計8モデルを構築し、UNetとUNet++、敵対的学習、rollout training、境界条件の罰則化などの設計差を比較しています。 / UNet++がUNetよりサロゲートとして良い予測性能を示し、学習メモリを抑えやすいグリッドサイズ不変アプローチが予測と真値の相関の良さにつながり、検討した縮約モデルより良い結果を示したと報告されています。

6499 字
読む →

GUI-Libra:ネイティブGUIエージェントを「推論」と「実行可能な行動」の両方に強くする学習レシピ

オープンソースのネイティブGUIエージェントが長い手順のナビゲーションで伸びにくい背景として、行動に整合した高品質な推論データの不足と、GUI特有の難しさを十分に織り込まない事後学習手順の流用があり、GUI-Libraはこの両方を同時にほどく設計になっています。

6167 字
読む →

翻訳で取り戻す:ベンチマークとデータセットの自動翻訳に向けた効率的パイプライン

多言語の大規模言語モデルを公平に評価するには、翻訳済みベンチマークの品質ばらつきによる意味のずれや文脈欠落を減らし、指標が誤解を招かない状態に整える必要があります。 / データセット向けとベンチマーク向けを切り分けた完全自動の翻訳フレームワークを用い、テスト時の計算量スケーリング戦略としてUSIと多ラウンド順位付けのT-RANK、さらにSCやBest-of-Nも選べる形で翻訳工程を構成します。 / 東欧・南欧の8言語に人気ベンチマーク/データセットを翻訳して参照ベース指標とLLM-as-a-judgeで検証したところ、既存資源を上回る翻訳が得られ、下流のモデル評価をより正確にし得ることと、枠組みと改善版ベンチマークを公開する点が示されています。

5916 字
読む →

UPipe(Untied Ulysses):注意ヘッド単位の段階実行で長文脈学習の活性化メモリを抑える文脈並列

Transformerで超長い系列を学習するとき、文脈並列は系列長方向に計算を分割できますが、自己注意に必要な活性化と通信バッファが積み上がり、非常に長い系列ではメモリが先に限界になります。 / UPipeは注意ヘッドを小さな塊に分け、注意層を複数ステージで順に実行しつつ、各ステージで同じバッファを使い回すことで、自己注意の中間テンソルとオールトゥオール用バッファのピークを下げます。 / 32BのTransformerで注意層の中間テンソルメモリを最大87.5%削減し、学習速度は既存の文脈並列と同程度で、Llama3-8Bを単一の8×H100ノードで最大5Mトークンまで扱えると報告されています。

5699 字
読む →

Aletheia、自律的にFirstProofに取り組む

Gemini 3 Deep Thinkで動く数学研究エージェントAletheiaは、研究レベルの数学課題集FirstProofの初回チャレンジにおいて、許容された時間内に10問中6問(2、5、7、8、9、10)を自律的に解けたと、専門家の多数評価に基づいて報告されています。

5872 字
読む →

KV Bindingを用いたTest-Time Trainingは「記憶」ではなく学習された線形注意として理解できる、という再定式化。

KV binding型のTest-Time Trainingは、テスト時にキーと値の対応を作って保持し、クエリで検索する「一時的な記憶装置」だと説明されがちですが、観測される挙動にはその説明と噛み合わない点が複数あります。

5115 字
読む →

Squint:視覚強化学習を「分」で回し、15分学習の方策をSim-to-RealでSO-101へゼロショット展開する高速SAC

Squintは、カメラ画像と自己受容情報から操作方策を学習する視覚SACで、並列シミュレーションと経験再利用を両立させつつ、学習の実時間を従来の視覚オフポリシー法・オンポリシー法より短くすることを狙った手法です。

7304 字
読む →

Vision Transformerのスケーリング:画像中心のワークロードにおけるDeepSpeedの評価

Vision Transformerは画像内のパッチ間の関係を自己注意で同時に扱える一方、計算量とメモリ要求が大きく、GPUを増やしても学習が素直に速くならない状況が起こり得ます。 / 本研究はDeepSpeedをVision Transformer(ViT b16)の学習に組み込み、ノード内・ノード間のデータ並列を複数GPU構成で動かし、学習時間・通信オーバーヘッド・強いスケーリングと弱いスケーリングの傾向を、主にCIFAR-10とCIFAR-100で追跡しています。 / 実測では、GPUの同質性が崩れると同期待ちが増えてスケーリングが乱れやすく、またバッチサイズを大きくすると同期コストが下がる傾向が見られ、64または128が通信とメモリの折り合いとして有望だと整理されています。

7140 字
読む →

Skill-Inject:スキルファイル攻撃に対する大規模言語モデルエージェントの脆弱性を測るベンチマーク

エージェントのスキル機能は外部のコードや手順を取り込んで能力を広げますが、その「指示の塊」自体に悪性の指示が混ざると、ユーザーが気づきにくいまま乗っ取りが起き得ます。 / 著者らは、スキルファイル内に埋め込まれた露骨に危険な指示と、文脈次第で正当にも見える二面性のある指示を、実タスクと組にして評価するSkillInjectを整備し、安全性と有用性を同時に測れるようにしました。 / 評価の結果、現在のエージェントは高い割合で注入指示を実行してしまい、データの持ち出しや破壊的操作、ランサムウェアに似た振る舞いまで起こり得るため、単純な入力フィルタやモデルの大型化ではなく文脈を踏まえた認可の枠組みが重要だと示唆されました。

6456 字
読む →

SAPOのゲート関数設計:滑らかなゲートはRLHFの安定性をどう変えるか

この研究は、SAPO の要である滑らかなゲート関数を「何でも滑らかならよい」とは見ず、どの形のゲートが exploration と stability のバランスをどう変えるかを理論的に整理しています。 比較対象は sigmoid だけではなく、error function、arctangent、softsign まで広げられており、勾配の裾の重さが違うと、珍しいトークンへの感度やオフポリシー更新の抑え方が変わることを示します。 重要なのは、RLHF 系の方策更新を「clip の有無」ではなく「勾配がどの比率領域でどれだけ残るか」という形で設計し直した点です。経験的最適化の話に見えて、実はかなり設計原理寄りの論文です。

5796 字
読む →