継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

有害性関連グラフによるマルチモーダルデータ内の潜在的な有害性の解明:グラフベースの指標と解釈可能な検出フレームワーク

マルチモーダルデータにおいて、画像やテキストが単独では無害に見えても、それらを組み合わせることで潜在的な有害性が生じる「隠れた毒性(Covert Toxicity)」を検出するため、意味的な連想を構造化する「毒性連想グラフ(TAG)」と、その隠蔽度を定量化する世界初の指標「マルチモーダル毒性隠蔽度(MTC)」を提案した。 このグラフ構造に基づき、マルチモーダル大規模言語モデル(MLLM)を用いて毒性の推論経路を明示的に生成する検出フレームワーク「TA-CTD」を開発し、意思決定プロセスの透明性と解釈性を確保しながら、従来の moderation モデルでは見逃されがちな巧妙な有害コンテンツを特定することを可能にした。 高い隠蔽度を持つ事例を収集した初のベンチマーク「Covert Toxic Dataset(CTD)」を構築して評価を行った結果、提案手法は既存の検出手法を精度と説明力の両面で上回り、特に複雑な文化的・文脈的な連想を必要とする高度に隠蔽された毒性の検出において顕著な有効性を示した。

6233 字
読む →

Morphe: ビジョン基盤モデルを用いた高忠実度な生成的ビデオストリーミング

現在のインターネットトラフィックの65%以上を占めるビデオストリーミングは、高速鉄道や遠隔地などの不安定なネットワーク環境において、従来のH.264やH.265といったピクセルベースのコーデックでは帯域不足による品質劣化や再生の中断を避けられないという深刻な課題に直面しています。

6135 字
読む →

ELIQ:進化するAI生成画像のためのラベルフリーな品質評価フレームワーク

画像生成AIの急速な進化は、従来の人間による評価スコア(MOS)を「知覚的ドリフト」によって急速に陳腐化させ、再評価に膨大なコストを強いるという課題を生んでいる。本研究が提案するELIQは、人間の注釈を一切介さず、最新の生成モデルを用いた高品質な正例と、意図的に劣化させた負例のペアを自動構築することで、視覚的品質とプロンプト整合性の両面からAI生成画像を評価する革新的なラベルフリー・フレームワークである。 命令チューニングを施したマルチモーダル言語モデル(MLLM)を「品質に敏感な批評家」として適応させ、さらに軽量なQuality Query Transformer(QQT)とゲート付き融合メカニズムを組み合わせることで、単一画像からの高精度な品質予測を実現している。 複数のベンチマークにおける検証の結果、ELIQは既存のラベルフリー手法を大幅に凌駕し、教師あり学習モデルに迫る性能を示した。さらに、AI生成画像(AIGC)だけでなくユーザー生成コンテンツ(UGC)にもそのまま適用可能な高い汎用性を持ち、生成モデルの進化に合わせて評価基準を動的に更新できるスケーラブルな評価基盤としての有効性が証明されている。

5957 字
読む →

TraceRouter: 大規模基盤モデルのための経路レベル介入による堅牢な安全性

TraceRouterは、大規模基盤モデルにおける有害情報の伝播を、個別のニューロン単位ではなく複数の層にまたがる「経路(パス)」のレベルで特定し遮断する新しい安全フレームワークである。 従来の防御手法が依存していた局所性仮説の限界を打破し、注意力の分散分析とスパース自己符号化器(SAE)を用いて有害なセマンティクスの回路を精密に特定し、特徴影響スコア(FIS)に基づき因果的な伝播を物理的に断ち切る。 画像生成、言語生成、マルチモーダルの各分野で検証され、モデル本来の生成品質や汎用的な推論能力を維持したまま、敵対的な脱獄攻撃に対しても極めて高い防御成功率と堅牢性を実現することに成功した。

6506 字
読む →

AVMeme Exam:LLMの文脈的・文化的知識と思考のためのマルチモーダル・多言語・多文化ベンチマーク

本研究では、インターネット上の音声・映像ミーム1,032件を厳選し、AIモデルが人間の文化的・文脈的な意味をどの程度理解できるかを測定する新しいベンチマーク「AVMeme Exam」を開発しました。

6517 字
読む →

頑健なマルチモーダル感情推論のためのきめ細かい視聴覚証拠の統合

従来のマルチモーダル大規模言語モデルは、視覚と音声の微細な信号を統合できず、特定のモダリティに偏る「単一モダリティ優位」の問題を抱えていました。 本研究では、60万件の動画クリップからなる大規模データセット「SABER」と、証拠抽出を推論から分離する「構造化証拠分解(SED)」パラダイムを提案しました。

6413 字
読む →

3DGesPolicy:アクション制御に基づく音素を考慮した包括的な発話随伴ジェスチャ生成

本研究は、ロボット工学の拡散ポリシー(Diffusion Policy)を応用し、全身の動きと顔の表情を統合的に生成する新しいフレームワーク「3DGesPolicy」を提案した。従来のフレーム単位の回帰や部位分解手法が抱えていた、空間的な不安定さや意味的な不整合という課題を解決するため、ジェスチャー生成を「連続的な軌道制御問題」として再定義し、フレーム間の変化を統一された「アクション」としてモデル化している。さらに、音素レベルの言語情報と音響特徴を高度に融合させるGAP(Gesture-Audio-Phoneme)モジュールを導入することで、発話内容と身体動作、唇の動きが精密に同期した、自然で表現力豊かなデジタルヒューマンの挙動を実現し、BEAT2データセットにおいて既存の最先端手法を上回る性能を実証した。

6459 字
読む →

サイズは重要:単眼画像からの食事量推定のための実寸3Dモデル再構築

従来の単眼画像からの3D再構築手法では、ブルーベリーとカボチャが同じサイズに見えるような「物理的スケールの欠如」が課題でしたが、本研究はCLIPの視覚的特徴と多角的なレンダリング画像を組み合わせることで、実寸大の3Dモデルを復元する手法を提案しました。

5766 字
読む →