継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ノイズの幾何学:なぜ拡散モデルはノイズ条件付けを必要としないのか

ノイズレベルを入力しない自律(ノイズ非依存)生成モデルでも、学習された単一の時間不変ベクトル場は「闇雲なデノイズ」ではなく、未知ノイズを周辺化した周辺密度 \(p(\mathbf{u})=\int p(\mathbf{u}\mid t)p(t)\,dt\) に対応する周辺エネルギー \(E_{\text{marg}}(\mathbf{u})=-\log p(\mathbf{u})\) の幾何と結び付いています。 / ただし周辺エネルギーの生の勾配はデータ多様体の法線方向に \(1/t^p\) 型の特異性を持ち、通常の勾配降下では不安定になり得ますが、論文は相対エネルギー分解により、学習場が局所的な共形計量(実効ゲイン)を暗黙に含むリーマン勾配流として振る舞い、特異性を前処理して打ち消す構図を示します。 / さらに自律サンプリングの構造安定性条件を与え、ノイズ予測パラメータ化には推定誤差を増幅し得る「Jensen Gap」がある一方、速度ベースのパラメータ化は有界ゲイン条件により後部分布の不確実性を滑らかな幾何学的ドリフトへ吸収できる、という含意を導きます。

7236 字
読む →

LoRAの重み基底で視覚アナロジー空間を張る:LoRWeBによる例示ベース画像編集

言葉では説明しにくい編集でも、見本の「前→後」画像から変換を読み取り別画像へ移す視覚アナロジーは有用ですが、単一のLoRAに多様な変換を詰め込む設計は未知の変換への一般化を妨げやすいです。 / LoRWeBは、複数のLoRAを「変換の部品」として学習可能な基底にしておき、入力された三つ組(a, a′, b)を手がかりに軽量エンコーダが混合係数を推定して、推論時に1つのMixed LoRAとして動的に合成して注入します。 / 包括的な評価により最先端の性能が示され、学習時に見ていない視覚変換への一般化も大きく改善したと報告されており、LoRAを基底分解して混ぜる方針が柔軟な例示ベース編集に有望だと示唆されます。

5854 字
読む →

MEGのための次脳トークン予測のスケーリング

本研究では、500時間以上の大規模なMEG(磁気脳鳴図)データセットであるCamCAN、Omega、MOUSを統合し、多チャネルの脳信号を離散的なトークン列として予測する大規模自己回帰モデル「FlatGPT」を構築した。

6200 字
読む →

効率的な学習型画像圧縮のための二次曲率の活用:理論と実証的根拠

学習型画像圧縮(LIC)の訓練において、従来のAdam等の1次最適化手法はビットレートと歪みの目的関数間で生じる勾配競合により、収束の遅延や性能不足という課題を抱えていたが、本研究は2次準ニュートン最適化手法「SOAP」を導入することでこれを解決した。

6294 字
読む →

ToS: 動画内の距離推定を伴うステレオ音響イベントの定位と検出のためのスペシャリストチーム・アンサンブルフレームワーク

音響イベントの検出、定位、距離推定を同時に行う3D SELDは、意味(何が)、空間(どこで)、時間(いつ)という3つの次元を統合的に推論する必要があり、単一のモデルではこれら全ての要素を最適化することが困難という課題がありました。

7300 字
読む →

MEGにおける次脳トークン予測のスケーリング

本研究は、500時間以上の大規模な脳磁図(MEG)データセットを用い、次トークン予測のパラダイムを脳信号に適用した大規模自己回帰モデル「FlatGPT」を提案しています。 多チャネルのMEG信号を「BrainTokMix」という独自のトークナイザーで離散的なトークン列に変換し、Qwen2.

5802 字
読む →

画像圧縮学習の効率化:二次曲率を活用した最適化手法「SOAP」の威力

学習ベースの画像圧縮(LIC)モデルの訓練において、ビットレート削減と歪み最小化という相反する目的が引き起こす「勾配の衝突」を解決するため、二次曲率情報を活用する準ニュートン最適化手法「SOAP」を導入した。

5892 字
読む →