継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

マルチモーダルRAGプライバシーの体系的な評価

マルチモーダル検索拡張生成(mRAG)システムは、外部データベースの画像を参照して回答精度を高める一方で、特定の画像がデータベースに含まれているかを特定するメンバーシップ推論攻撃(MIA)や、画像に付随する機密テキストを抽出する画像キャプション取得(ICR)攻撃に対して極めて脆弱であることが本研究の体系的な評価によって明らかになりました。 実験の結果、データベース内の画像が回転、クロップ、ノイズ付加などの加工を受けている現実的な条件下でも、攻撃者は高い精度で情報の有無を判定可能であり、特に視覚的に特徴が明確なデータセットでは機密性の高いメタデータが逐語的に漏洩するリスクが実証されました。 この脆弱性は、プロンプト内での画像の配置順序やリランカーの設定によって変動し、入力画像を検索結果の前に配置することで漏洩を抑制できる可能性が示唆されましたが、依然として根本的な保護メカニズムの欠如が大きな課題として残っており、今後の安全なシステム開発に向けた重要な知見を提供しています。

5800 字
読む →

北極海の海氷力学における短期変動の因果効果を定量化するための時変因果処理

北極海における海氷厚さと海面水位(SSH)の複雑な因果関係を解明するため、物理的知見と変分オートエンコーダーを融合させた新開発のフレームワーク「KGCM-VAE」が提案されました。 このモデルは、流速信号をシグモイド関数で動的に調整する処理生成、潜在空間での分布の偏りを正すMMD、そして物理構造を反映した因果隣接行列によるデコーダー制約を組み合わせることで、観測データからの高精度な因果推論を実現しています。 実際の北極海観測データを用いた検証では、既存の最先端手法を凌駕する推定精度を記録し、特に因果隣接制約と分布調整の相乗効果によって推定誤差を1.88%削減することに成功しており、気候変動予測の精緻化に大きく寄与する成果となっています。

5679 字
読む →

UrduLM:リソース効率の高い単一言語ウルドゥー語言語モデル

ウルドゥー語は世界で2億3000万人の話者を抱える主要言語ですが、既存の多言語モデルではトークン化の非効率性や文化的な不正確さが課題となっており、専用の生成モデルや高品質なデータセットが不足していました。

6274 字
読む →

コンパイラ・イン・ザ・ループを伴う文法を考慮した文芸的生成的数理計画

自然言語の問題記述を数理最適化モデルへ変換する際、独自のコンパイラ「PyOPL」からの詳細な診断フィードバックをループに組み込み、AIが自己修正を行うエンドツーエンドのシステム「SyntAGM」を開発した。

6015 字
読む →

DIML:マルチエージェント学習軌跡の振る舞いからの微分可能な逆メカニズム学習

本研究は、複数のエージェントが相互に影響し合う環境において、観測された行動履歴(学習軌跡)のみから背後にある未知の報酬生成メカニズムを特定する「逆メカニズム学習」のフレームワーク「DIML」を提案する。

5670 字
読む →

不整合に耐性のあるモデル駆動型可逆圧縮アルゴリズム

大規模言語モデル(LLM)を用いたデータ圧縮において、計算環境の違いで生じる予測確率の微細な不整合が復号失敗を招くという重大な課題に対し、確率のズレを乗法的な範囲で許容する新しい可逆圧縮アルゴリズムが提案されました。

6863 字
読む →

セグメント長は重要である:音声指紋照合の性能におけるセグメント長の研究

本研究は、音声指紋照合システムにおいて音声を切り出す際の「セグメント長」が照合精度に与える影響を、既存モデルを拡張したNAFP+を用いて詳細に調査したものです。 実験の結果、0.5秒という短いセグメント長が、特に3秒未満の短いクエリにおいて最も高い照合精度を達成し、クエリ長が4秒を超えると精度の向上が飽和する傾向が明らかになりました。 また、最適なセグメント長を提案する能力を大規模言語モデルで比較したところ、GPT-5-miniが実際の実験結果と最も合致する1秒前後の設定を一貫して推奨し、システム設計における高い信頼性を示しました。

5784 字
読む →

SQL-Trail:Text-to-SQLのためのインターリーブされたフィードバックを用いたマルチターン強化学習

SQL-Trailは、従来の1回限りの生成(シングルパス方式)ではなく、データベースとの対話を通じてSQLを反復的に洗練させるマルチターン強化学習フレームワークであり、人間の専門家が行うような試行錯誤のプロセスをAIで再現することに成功しました。

6025 字
読む →

LLMデータ監査官:合成データ評価における品質と信頼性に関する指標指向のサーベイ

大規模言語モデル(LLM)による合成データ生成は、現実世界のデータ不足を解消し、モデルの学習や評価を効率化する強力な手段ですが、低品質なデータは「モデル崩壊」やプライバシー漏洩といった深刻なリスクを招く可能性があります。

5907 字
読む →

EntWorld:検証可能なエンタープライズGUIエージェントのための包括的環境およびベンチマーク

EntWorldは、ERPやCRMなどの複雑な業務システムを対象とした、検証可能なエンタープライズGUIエージェントのための包括的なベンチマーク環境です。従来のベンチマークが消費者向けの単純なタスクに偏っていたのに対し、本研究では6つの代表的な業務ドメインにわたる1,756個のタスクを構築し、高密度のユーザーインターフェースや厳格なビジネスロジックへの対応能力を測定します。 本環境の最大の特徴は、データベースのスキーマからビジネスロジックを逆方向に解析してタスクを自動生成するスキーマ駆動型のフレームワークと、SQLを用いた決定論的な検証メカニズムを採用している点にあります。これにより、曖昧な視覚的マッチングやLLMによる評価に頼ることなく、データベースの状態変化を直接確認することで、タスクの完了を厳密かつノイズのない形で判定することが可能となりました。 実験の結果、GPT-4.1などの最新モデルでも成功率は47.61%にとどまり、人間のパフォーマンスである85%との間に大きな乖離がある「エンタープライズ・ギャップ」が明らかになりました。独自に開発したEntAgent-RLは56.89%の成功率を達成して既存モデルを上回りましたが、依然として高密度なUIの認識や複雑な論理制約の理解には課題が残されており、専門特化型エージェントの開発の必要性が示唆されています。

5971 字
読む →