継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ストリーミング自動音声認識にSelf-Attentionは本当に必要なのか?

ストリーミング自動音声認識(ASR)において、Self-Attentionは全域的な依存関係を捉える設計でありながら、実際にはチャンク内の局所的な情報処理に終始していることが判明しました。 本研究では、Self-Attentionを軽量な可変形畳み込み(Deformable Convolution)に置き換える「ソフト手法」と、完全に削除する「ハード手法」を提案し、計算コストを大幅に削減しました。 LibriSpeech等のデータセットを用いた検証の結果、単語誤り率(WER)の悪化を最小限に抑えつつ、パラメータ数を最大19.4%削減し、GPU上での処理速度を約2倍に高速化することに成功しました。

5799 字
読む →

観測からイベントへ:強化学習のためのイベント認識型世界モデル

従来のモデルベース強化学習が抱えていた、生のピクセル情報への過度な依存やノイズに対する脆弱性を克服するため、人間の認知機能を模倣して連続的な観測を意味のある「イベント」として切り出す「イベント認識型世界モデル(EAWM)」が提案されました。

6001 字
読む →

SETA:複合AIシステムのための統計的障害要因特定

現代のAIシステムは複数のニューラルネットワークを組み合わせた複合的なパイプライン構造を持つが、一部の構成要素で発生した微細な誤差が連鎖的に増幅し、システム全体の致命的な失敗を招く「カスケード故障」が大きな課題となっている。

5743 字
読む →

MeanCache: Flow Matching推論を加速するための、瞬時速度から平均速度へ

Flow Matchingを用いた生成モデルにおいて、従来のキャッシュ手法が依存していた「瞬間速度」の情報は変動が激しく、高い加速率では軌道の逸脱や誤差の蓄積を招くという課題がありました。本研究が提案する「MeanCache」は、瞬間速度を「区間平均速度」へと変換し、キャッシュされたヤコビアン・ベクトル積(JVP)を用いて軌道を補正することで、学習不要かつ軽量な形で生成品質を維持しながら推論を大幅に高速化します。FLUX.1やHunyuanVideoなどの商用規模モデルを用いた検証では、最大で4.56倍の高速化を達成し、既存の最先端手法と比較しても高い画像・動画品質と構造的一貫性を保持できることが実証されました。

5636 字
読む →

LLMポストトレーニングにおけるパラメータサーバの再考

大規模言語モデル(LLM)の事後学習では、入力データのシーケンス長が大きく異なるため、従来の集合通信を用いた分散学習(FSDP)ではデバイス間に深刻な計算負荷の不均衡が生じ、最大50%もの待機時間が発生していました。

6169 字
読む →

Tri-Reader:スクリーニングCTにおける肺結節の一次アノテーションのためのオープンアクセスかつ多段階のAIパイプライン

肺がんスクリーニング用AIの開発において、高品質なCT画像のアノテーションには膨大な時間と専門知識、そして高額な費用が必要という課題を解決するため、複数のオープンアクセスモデルを統合した「Tri-Reader」という多段階パイプラインが開発されました。

6079 字
読む →

PROTEUS:ラグランジュ強化学習によるマルチLLMサービングシステムのためのSLAを考慮したルーティング

LLM ルーティングの現場では、運用者が本当に指定したいのは「閾値をいくつにするか」ではなく、「最低でもこの精度は守ってほしい」という SLA です。ところが既存ルータは、精度目標を直接受け取れず、事前調整と勘に依存していました。 / PROTEUS は、精度目標 τ を実行時入力として受け取り、ラグランジュ双対制御と強化学習を使って、その τ を満たすようにクエリごとのルーティングを学習する設計です。1つの学習済み方策で τ∈[0.85, 0.95] をまたげる点が核です。 / RouterBench と SPROUT で、精度下限の順守率は 100%、τ と出力品質選好 μ の相関は 0.97〜0.98 を達成し、RouterBench では 90.1% 精度、SPROUT では 94.0% 精度を出しつつ、固定モデル比で最大 89.8% のコスト削減も示しました。

6062 字
読む →

RPO:部分的推論最適化を用いた強化学習ファインチューニング

大規模言語モデルの強化学習において、推論の全行程を毎回ゼロから生成する非効率性を解消するため、過去の正解パスの接頭辞を再利用して末尾のみを生成・最適化する「RPO(部分的推論最適化)」が提案されました。 この手法は、キャッシュされた成功例をヒントとして活用することで、トレーニング中のトークン生成量を約95%削減し、1.

5734 字
読む →

APC-RL: 適応的な方策合成でデータ駆動型の事前分布を超える強化学習手法

従来の強化学習におけるデモンストレーションの活用は、データが最適かつタスクに完全に適合していることを前提としていたが、現実の不完全なデータでは性能が低下するという課題があった。 本研究が提案するAPC(Adaptive Policy Composition)は、複数の正規化流を用いた事前分布を持つアクターと、事前分布を一切持たないアクターを階層的に組み合わせ、オンラインの報酬に基づいて適切な行動を適応的に選択する。 実験の結果、APCはデモンストレーションが不適合な場合でも堅牢性を維持し、適合している場合には学習を大幅に加速させ、さらに不完全なデータからでも最適な行動を導き出すことが確認された。

6056 字
読む →

タスク条件付き潜在アライメントによる神経スパイクデータのセッション間デコーディング

侵襲的脳コンピュータインターフェースにおいて、記録セッション間の神経信号の非定常性はデコーダの精度を低下させる大きな課題であり、新しいセッションごとに大量の再学習データを収集することはユーザーの負担となっていた。

6197 字
読む →