継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

GDCNet: マルチモーダル皮肉検出のための生成的差異比較ネットワーク

GDCNetは、画像とテキストのペアから皮肉を検出するために、マルチモーダル大規模言語モデル(MLLM)を「客観的な画像説明の生成器」として活用する新しいフレームワークである。従来のモデルがLLMに主観的な皮肉の理由を生成させていたのに対し、本手法は画像に基づいた事実的なキャプションを生成し、それを安定したセマンティック・アンカー(意味の指標)として活用することで、解釈の多様性によるノイズを抑制している。 このネットワークは、生成された客観的な画像説明と元のテキストとの間にある意味的な不一致、感情的な不一致、および画像とテキストの忠実度を測定する「生成的差異表現モジュール(GDRM)」を備えている。これにより、画像とテキストの間の微妙な矛盾や、文字通りの意味と意図された意味の乖離を、多角的な差異特徴として抽出することが可能になり、皮肉特有の複雑な不一致を捉えることができる。 大規模なベンチマークであるMMSD2.0を用いた実験において、GDCNetは既存のマルチモーダル手法や、GPT-4oなどの最新モデルを用いた直接的な推論手法を大幅に上回る最高精度を達成した。適応的なゲート付き融合メカニズムを導入することで、画像、テキスト、および差異情報の各モダリティの寄与を動的にバランスさせ、特定の情報の偏りを防ぎながら、頑健な皮肉検出を実現している。

6734 字
読む →

視覚言語モデルにおけるタスク指向コミュニケーションの発生とその特性:効率性と隠密性に関する調査

視覚言語モデル(VLM)は、特定のタスクにおいて自然言語よりも情報の伝達効率が高く、かつ外部の観察者には内容が解読できない「隠密性」を備えた独自の通信プロトコルを自発的に開発できることが判明しました。

5949 字
読む →

拡散モデルの記憶問題を対数確率の異方性から検出し軽減する新手法

拡散モデルが学習データを複製する「記憶問題」に対し、従来のスコアのノルムに基づく検出法は高ノイズ時の等方的な状態でのみ有効であり、低ノイズ時の異方的な状態では精度が低下するという幾何学的な課題を特定しました。

5711 字
読む →

安全なAI自律制御のためのコンテキスト対応ランタイムモニター学習

機械学習ベースの制御器は未知の環境において性能が急激に低下し、自律システムの安全性を脅かすという深刻な課題を抱えているが、本研究では複数の制御器の中から現在の環境状況(コンテキスト)に応じて最適なものを選択する「コンテキスト対応ランタイムモニター」を提案し、この問題を解決する。

5779 字
読む →

知覚と較正の分離:ラベル効率の高い画像品質評価フレームワーク

多峰性大規模言語モデル(MLLM)は画像品質評価(IQA)において優れた知覚能力を持つものの、膨大な計算コストと大量の人間による評価ラベル(MOS)への依存が実用上の大きな障壁となっている。 本研究が提案する「LEAF」は、MLLMの知覚能力と特定の評価尺度への校正を分離し、強力な教師モデルから軽量な学生モデルへ知覚知識を蒸留することで、極めて少数のラベルのみで高精度な予測を実現する。 検証の結果、わずか10%のラベルを用いた校正だけで、AI生成画像等のベンチマークにおいて従来のフルデータ学習に匹敵する性能を達成し、デバイス上での動作や大規模データの高速処理を可能にする道を示した。

6129 字
読む →

フェロチタン産業におけるマルチタイプTransformerを用いた企業資源計画(ERP)

製造業の企業資源計画(ERP)において不可欠なジョブショップ・スケジューリング(JSP)やナップサック問題(KP)といった組合せ最適化に対し、複数のアテンション機構を統合した「マルチタイプTransformer(MTT)」を適用し、異なる構造を持つ課題を統一的に解決するフレームワークを構築しました。

6595 字
読む →

GEMM中心のNPUを超えて:拡散LLMサンプリングの効率化を実現するアーキテクチャ

拡散型大規模言語モデル(dLLM)は並列的なトークン生成を可能にするが、語彙全体にわたるロジット処理やトークン選択を行うサンプリング工程が、推論全体の遅延の最大71%を占める深刻なボトルネックとなっている。

6763 字
読む →

変化する行動空間と報酬関数に対する強化学習エージェントの行動の適応

本研究は、報酬関数の変化や行動空間の拡大といった非定常な環境において、モデルを最初から再学習させることなくリアルタイムで適応可能な自己適応型強化学習フレームワーク「MORPHIN」を提案している。

5644 字
読む →

Li-ViP3D++: クエリベースの変形可能フュージョンによるエンドツーエンドの認識と軌跡予測

Li-ViP3D++は、自動運転における物体認識と軌跡予測を統合するエンドツーエンドのフレームワークであり、カメラとLiDARの情報をクエリ空間で融合するQuery-Gated Deformable Fusion(QGDF)を導入しています。

6134 字
読む →

QueerGen:文補完タスクにおいてLLMがいかにジェンダーとセクシュアリティに関する社会規範を反映しているか

大規模言語モデル(LLM)が社会的な規範、特にヘテロシスノーマティビティ(異性愛規範およびシスジェンダー規範)をどのように再現し、それが生成テキストのバイアスとして現れるかを定量的に調査した研究である。

5667 字
読む →