継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

ELIQ:進化するAI生成画像のためのラベルフリーな品質評価フレームワーク

画像生成AIの急速な進化は、従来の人間による評価スコア(MOS)を「知覚的ドリフト」によって急速に陳腐化させ、再評価に膨大なコストを強いるという課題を生んでいる。本研究が提案するELIQは、人間の注釈を一切介さず、最新の生成モデルを用いた高品質な正例と、意図的に劣化させた負例のペアを自動構築することで、視覚的品質とプロンプト整合性の両面からAI生成画像を評価する革新的なラベルフリー・フレームワークである。 命令チューニングを施したマルチモーダル言語モデル(MLLM)を「品質に敏感な批評家」として適応させ、さらに軽量なQuality Query Transformer(QQT)とゲート付き融合メカニズムを組み合わせることで、単一画像からの高精度な品質予測を実現している。 複数のベンチマークにおける検証の結果、ELIQは既存のラベルフリー手法を大幅に凌駕し、教師あり学習モデルに迫る性能を示した。さらに、AI生成画像(AIGC)だけでなくユーザー生成コンテンツ(UGC)にもそのまま適用可能な高い汎用性を持ち、生成モデルの進化に合わせて評価基準を動的に更新できるスケーラブルな評価基盤としての有効性が証明されている。

5957 字
読む →

視覚トークンを“間引いても崩れない”——マルチモーダルLLM学習を速くするDualSpeed

マルチモーダルLLMは、なぜ「学習」だけがこんなに重くなりがちなのでしょうか? 鍵はモデルの巨大さだけでなく、画像が生む“視覚トークンの多さ”にあります。 とはいえ、ただ削れば速くなる一方で、推論の場面で別の問題が噴き出す——そこが話を難しくします。

7488 字
読む →

論文級の科学図を“自動で整える”AutoFigure入門

科学の図は、なぜ作るのにこんなに時間がかかるのでしょうか? ボトルネックは「描く」だけでなく、「構造」と「見栄え」を両立する設計にあります。単に要素を並べるのではなく、読み手が迷わず理解できる流れと、ぱっと見て受け入れられる整い方を同時に満たす必要があるからです。

7394 字
読む →

ラフな3Dと2D動画で“生成”プリビズを操る:PrevizWhizという発明

プリプロで「このカット、成立する?」を最短で確かめるにはどうすればいいのでしょうか。 頭の中では見えているのに、チームに伝えた瞬間に“別の映像”へ変換されてしまう――そんなズレを減らす手段は、いつも不足しています。そこには、アイデアの鮮度が高いほど言葉や静止画だけではこぼれ落ちやすい、という制作のジレンマがあります。

7608 字
読む →

Infinite-World:ポーズフリーな階層的メモリによるインタラクティブな世界モデルの1000フレームホライゾンへのスケーリング

Infinite-Worldは、現実世界の複雑な環境において1000フレームを超える長期的な視覚的一貫性を維持できる、堅牢なインタラクティブ世界モデルです。階層的ポーズフリーメモリ圧縮器(HPMC)により、過去の情報を固定のメモリ予算内に再帰的に凝縮することで、計算コストを抑えつつ幾何学的な事前知識なしで長期的な空間的一貫性を実現しました。不確実性を考慮したアクションラベル付けと、30分程度の高密度な再訪問データセットを用いた学習戦略により、ノイズの多い現実の動画データからでも正確な操作性とループクローズ能力を効率的に獲得することに成功しました。

7316 字
読む →

心の目は、AIの推論を強くするのか――MentisOculiが暴く「メンタルイメージ推論」の限界

AIに「途中の図」を描かせれば、難しい推論はもっと解けるようになる? ところが最先端モデルほど、絵を挟んでも強くならない場面がある。むしろ、図を入れたことで“別の失敗”が増えてしまう可能性すら見えてくる。 この記事では、MentisOculiが何を測り、どこでつまずきが起きるのかを追いかける。

6179 字
読む →

ReLE: 中国語LLMにおける能力異方性を診断するためのスケーラブルなシステムと構造化ベンチマーク

ReLEは、中国語大規模言語モデル(LLM)の評価において、既存ベンチマークの飽和と膨大な計算コストという課題を解決するために開発された、スケーラブルな動的診断システムである。304個のモデルを対象に20万件以上のサンプルを用いた評価を行い、分散認識型スケジューラにより精度を維持しながらコストを70%削減し、記号接地ハイブリッドスコアリングで判定の信頼性を高めた。モデルの性能が領域ごとに不均一である「能力異方性」を定量化し、単一の集計スコアでは隠されてしまうランキングの不安定性や、専門性と汎用性の間にある構造的なトレードオフを明らかにした。

5678 字
読む →

ノイズの多いラベル学習のためのノイズ補償型シャープネス考慮最小化 NCSAM

ウェブから収集されたデータ等に含まれる誤ったラベル(ノイズ)は、深層学習モデルに偏った勾配を導入し、汎化性能を著しく低下させるという深刻な課題があります。 本研究は、損失関数の平坦性とラベルノイズの関係を理論的に解析し、ノイズによる勾配の歪みが従来の平坦化手法(SAM)の摂動を狂わせることを解明した上で、その歪みを明示的に補正する新手法NCSAMを提案しました。 NCSAMは、モデルの予測自信度に基づきノイズをシミュレートしてパラメータの偏差を相殺することで、複雑なラベル修正なしに、クリーンなデータセットでの学習に近い高い堅牢性と汎化性能を達成しました。

6024 字
読む →

VidLaDA: 効率的なビデオ理解のための双方向拡散大規模言語モデル

従来のビデオ大規模言語モデルが抱えていた自己回帰型モデル特有の単方向アテンションによる理解の限界と、逐次デコードによる生成速度の遅さを、双方向アテンションを持つ拡散言語モデル(DLM)を採用することで根本から解決した。

5904 字
読む →

GUIGuard: プライバシー保護型GUIエージェントのための汎用フレームワーク

GUIエージェントが画面情報をリモートモデルに送信する際に生じる深刻なプライバシーリスクを解決するため、認識・保護・実行の3段階で構成される汎用フレームワーク「GUIGuard」が提案されました。

6699 字
読む →