継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

MeanCache: Flow Matching推論を加速するための、瞬時速度から平均速度へ

Flow Matchingを用いた生成モデルにおいて、従来のキャッシュ手法が依存していた「瞬間速度」の情報は変動が激しく、高い加速率では軌道の逸脱や誤差の蓄積を招くという課題がありました。本研究が提案する「MeanCache」は、瞬間速度を「区間平均速度」へと変換し、キャッシュされたヤコビアン・ベクトル積(JVP)を用いて軌道を補正することで、学習不要かつ軽量な形で生成品質を維持しながら推論を大幅に高速化します。FLUX.1やHunyuanVideoなどの商用規模モデルを用いた検証では、最大で4.56倍の高速化を達成し、既存の最先端手法と比較しても高い画像・動画品質と構造的一貫性を保持できることが実証されました。

5636 字
読む →

Tri-Reader:スクリーニングCTにおける肺結節の一次アノテーションのためのオープンアクセスかつ多段階のAIパイプライン

肺がんスクリーニング用AIの開発において、高品質なCT画像のアノテーションには膨大な時間と専門知識、そして高額な費用が必要という課題を解決するため、複数のオープンアクセスモデルを統合した「Tri-Reader」という多段階パイプラインが開発されました。

6079 字
読む →

GMS-CAVP:マルチスケールの対照学習および生成的事前学習による視聴覚対応の改善

GMS-CAVPは、映像と音声の間の意味的・時間的な対応関係を高度にモデル化するため、マルチスケールでの対照学習と拡散モデルベースの生成学習を統合した新しい視聴覚事前学習フレームワークである。 従来の単一スケールによるグローバルな整列の限界を克服するため、階層的な空間・時間構造を捉える「マルチスケール空間・時間整列(MSA)」と、モダリティ間の翻訳能力を高める「マルチスケール空間・時間拡散(MSD)」を導入している。 VGGSound、AudioSet、Panda70Mを用いた大規模な実験において、映像からの音声生成および双方向検索の双方で従来手法を大幅に上回る世界最高水準の性能を達成し、高い同期性と音響品質を証明した。

5982 字
読む →

スケーラブルなビジョンモデル初期化のための自己教師あり重みテンプレート

現代の視覚モデルの急速な大規模化に伴い、特定のサイズで事前学習されたモデルを異なる規模のアーキテクチャに適応させる際の膨大な計算コストが課題となっているが、本研究はこの問題を解決するために、Tucker分解に基づく構造的制約を用いた自己教師あり学習フレームワークであるSWEETを提案した。

5962 字
読む →

サイズは重要:単眼画像からの食事量推定のための実寸3Dモデル再構築

従来の単眼画像からの3D再構築手法では、ブルーベリーとカボチャが同じサイズに見えるような「物理的スケールの欠如」が課題でしたが、本研究はCLIPの視覚的特徴と多角的なレンダリング画像を組み合わせることで、実寸大の3Dモデルを復元する手法を提案しました。

5766 字
読む →

中間を見よ:スケーラブルなVisual RAGインデクシングのための構造的アンカープルーニング

Visual RAGの普及を阻む最大の課題であるインデックスサイズの巨大化に対し、追加学習を一切必要とせず、検索精度を維持したままベクトル量を90%以上削減する画期的なプルーニング手法「Structural Anchor Pruning(SAP)」を提案した。

6591 字
読む →

物理法則で視覚的な質量推定を導く:RGB画像1枚からの挑戦

物体の質量は幾何学的な体積と材料に依存する密度の積で決定されるが、これらはRGB画像の外観から直接観察することができないため、単一画像からの推定は極めて困難な不良設定問題となっている。本研究では、単一のRGB画像から単眼深度推定を用いて3次元幾何学(体積要因)を復元し、視覚言語モデル(VLM)を用いて材料のセマンティクス(密度要因)を抽出して統合する、物理的に構造化された新しいフレームワークを提案した。image2massおよびABO-500という2つの主要なデータセットを用いた検証において、提案手法は従来のRGB画像のみを用いる手法や、単純に深度情報を付加した既存の最先端手法を一貫して上回る推定精度を達成し、物理的な解釈性も向上させた。

5952 字
読む →

トポロジーを考慮した最適輸送による異常セグメンテーションのテスト時適応

従来の異常セグメンテーションは、分布シフトに対して脆弱な固定の閾値設定に依存しており、未知のドメインやノイズに対して精度が著しく低下する課題がありました。本研究では、トポロジー的データ解析(TDA)と最適輸送(OT)を統合した「TopoOT」を提案し、データの幾何学的構造の持続性を利用して、閾値に依存しない安定した擬似ラベルを生成する仕組みを構築しました。検証の結果、2Dおよび3Dの主要ベンチマークにおいて従来手法を最大24.1%上回る性能を達成し、121 FPSという高速な処理速度と低メモリ消費を両立しつつ、多様なバックボーンへの高い適応能力を示しました。

7296 字
読む →

BiFTAを回そう:ビジョン言語モデルにおける細粒度なテキスト・視覚アライメントのための双方向精緻化

従来のビジョン言語モデルでは、画像パッチのランダムな切り出しや大規模言語モデルによるテキスト生成において、情報の重複(冗長性)が精度のボトルネックとなっていました。 本研究が提案するBiFTAは、画像パッチ間の重なりをIoUで評価して重複を省く「ビュー精緻化」と、テキスト間の類似度を計算して多様性を確保する「記述精緻化」を導入しました。 この手法をCLIPに適用した結果、6つの主要ベンチマークにおいて従来の最高水準を上回るゼロショット分類精度を達成し、情報の量よりも質と多様性が重要であることを証明しました。

6114 字
読む →

FLAIR MRIにおける白質高信号域および脳卒中病変のセグメンテーションのための、部分的にラベル付けされたデータセットを用いた学習戦略の比較評価

FLAIR MRI画像において、見た目が酷似し混同されやすい白質高信号域(WMH)と虚血性脳梗塞病変(ISL)を正確に分離・抽出するため、完全なラベルが揃っていない不完全なデータセットを有効活用する6つの学習戦略を比較検証した。

5809 字
読む →