継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

距離対距離比:LLM埋め込みの変化率に基づく文の類似度尺度

従来のLLM文埋め込みで主流だったコサイン類似度は、局所的な意味の変化に対する感度が低く、人間が感じる類似性を十分に反映できないという課題がありました。 本論文では、リプシッツ連続性の概念に着想を得て、入力時の単語埋め込みと出力時のLLM埋め込みの間の変化率を測定する新指標「DDR(Distance-to-Distance Ratio)」を提案しました。 実験の結果、DDRは類義語置換とランダム置換を明確に区別でき、従来のCentroid法やEOS法を大幅に上回る識別性能と高次元空間における安定性を持つことが確認されました。

5640 字
読む →

視覚的換喩への計算論的アプローチ

画像が文字通りの意味を超えて、関連する手がかりから対象概念を想起させる「視覚的換喩」について、記号論に基づいた初の計算機的な調査が行われました。大規模言語モデル(LLM)と画像生成モデルを組み合わせ、関連オブジェクトを通じて概念を間接的に表現する新しい生成パイプラインを構築し、2,000問の多肢選択式問題からなるデータセット「ViMET」を開発しました。 検証の結果、最新の視覚言語モデル(VLM)の正解率は65.9%にとどまり、人間の86.9%という精度と比較して21%もの大きな性能差があることが判明し、AIが間接的な視覚的参照を解釈する能力には依然として大きな限界があることが浮き彫りになりました。 この研究は、単なる物体認識を超えた「AIがいかに視覚情報を解釈するか」という認知的な推論能力を評価するための新しい基準を提示しており、文化や文脈、象徴的な関連性を理解する次世代のマルチモーダルAI開発に向けた重要な基礎を築いています。

5720 字
読む →

LLMデータ監査官:合成データ評価における品質と信頼性に関する指標指向のサーベイ

大規模言語モデル(LLM)による合成データ生成は、現実世界のデータ不足を解消し、モデルの学習や評価を効率化する強力な手段ですが、低品質なデータは「モデル崩壊」やプライバシー漏洩といった深刻なリスクを招く可能性があります。

5907 字
読む →

EntWorld:検証可能なエンタープライズGUIエージェントのための包括的環境およびベンチマーク

EntWorldは、ERPやCRMなどの複雑な業務システムを対象とした、検証可能なエンタープライズGUIエージェントのための包括的なベンチマーク環境です。従来のベンチマークが消費者向けの単純なタスクに偏っていたのに対し、本研究では6つの代表的な業務ドメインにわたる1,756個のタスクを構築し、高密度のユーザーインターフェースや厳格なビジネスロジックへの対応能力を測定します。 本環境の最大の特徴は、データベースのスキーマからビジネスロジックを逆方向に解析してタスクを自動生成するスキーマ駆動型のフレームワークと、SQLを用いた決定論的な検証メカニズムを採用している点にあります。これにより、曖昧な視覚的マッチングやLLMによる評価に頼ることなく、データベースの状態変化を直接確認することで、タスクの完了を厳密かつノイズのない形で判定することが可能となりました。 実験の結果、GPT-4.1などの最新モデルでも成功率は47.61%にとどまり、人間のパフォーマンスである85%との間に大きな乖離がある「エンタープライズ・ギャップ」が明らかになりました。独自に開発したEntAgent-RLは56.89%の成功率を達成して既存モデルを上回りましたが、依然として高密度なUIの認識や複雑な論理制約の理解には課題が残されており、専門特化型エージェントの開発の必要性が示唆されています。

5971 字
読む →

言語モデルからの道徳的価値観の教師なし抽出

人工知能が社会のあらゆる意思決定プロセスに深く浸透する中で、AIの挙動を人間の道徳的価値観に整合させる「AIアライメント」の重要性がかつてないほど高まっていますが、従来の人手によるラベル付けは、膨大なコストがかかるだけでなく、注釈者の主観的なバイアスや文化的な多様性、さらには時代とともに変化する規範(道徳的相対主義)への対応という極めて困難な課題に直面しています。 本研究では、事前学習済みの言語モデルが膨大なテキスト学習を通じて既に獲得している潜在的な道徳的推論能力を、人間の監督を一切介さずに直接引き出す「内部一貫性最大化(ICM)」という革新的な教師なしアルゴリズムを提案し、モデル内部の論理的な整合性と相互予測可能性を最大化することで、外部からの「教育」ではなくモデル自身の知見を「抽出」する新しいアライメントの道を切り拓きました。 複数の倫理ベンチマークを用いた検証の結果、ICMは既存のチャットモデルや人間がラベル付けしたデータによる微調整を凌駕する高い精度を達成し、特に正義や常識的道徳の分野で顕著な成果を上げたほか、人種や社会経済的地位に関する深刻な社会的バイアスを半分以下に抑制できることを実証し、大規模言語モデルの安全性をスケーラブルかつ客観的に向上させる手法としての有効性を示しました。

5733 字
読む →

ReFuGe:LLMエージェントを用いたリレーショナルデータベース上の予測タスクのための特徴量生成

リレーショナルデータベースの複雑な構造から予測に有効な特徴量を自動生成するため、役割を専門化させた3つのLLMエージェント(スキーマ選択、特徴量生成、フィルタリング)を連携させ、反復的なフィードバックループを通じて探索空間を最適化する新しいフレームワーク「ReFuGe」が提案されました。

6320 字
読む →

アタノール:自然言語を用いた静的視覚化における動作修正ベースのインタラクションの作成

既存の静的なデータ可視化グラフに対し、自然言語による指示のみで動的なインタラクション機能を付与する新しいアプローチ「アタノール(Athanor)」が提案されました。この手法は、元のグラフを作成した際のソースコードや背後にある生データにアクセスできない状況でも、マルチモーダル大規模言語モデル(MLLM)を活用することで、静止画の状態から操作可能な形式へと変換することを可能にします。 システムの中核は、ユーザーの動作と視覚的な修正をマッピングする「動作修正デザイン空間」、自然言語の意図を正確な操作仕様に変換する「マルチエージェント要件分析器」、そして実装に依存しない形式でグラフを再構成する「可視化抽象化変換器」の3つの革新的な要素で構成されています。これにより、プログラミングの専門知識を持たない一般的なユーザーであっても、既存のグラフに対してホバー効果やフィルタリング、ズームといった高度な機能を容易に追加できるようになります。 評価実験として実施されたケーススタディと11名の参加者を対象とした詳細なユーザーインタビューの結果、アタノールは多様なユーザー要件をカバーし、視覚的な一貫性を保ちながら静的なグラフを効果的に動的なものへと変換できることが確認されました。特にSVG形式で出力された棒グラフ、折れ線グラフ、散布図、面グラフなどの主要なチャートタイプにおいて、その有用性と効率性が実証されており、データ分析の深化を支援する強力なツールとしての可能性を示しています。

6838 字
読む →

脚本こそが必要な全て:長期的な対話から映画風動画を生成するためのエージェントフレームワーク

従来の動画生成AIは、対話のような抽象的な概念から一貫した物語を持つ長尺映像を作る際、創作意図と映像表現の間に「意味のギャップ」が生じる課題がありました。本研究では、アルフレッド・ヒッチコックの「映画には脚本が最も重要である」という哲学に基づき、断片的な対話文から詳細な撮影指示を含む脚本を自動生成し、それを基に一貫性のある映像を構築する新しいエージェントフレームワークを提案しています。 専門的な脚本家、監督、批評家の役割を担う3つのエージェントと、大規模データセットScriptBench、そして強化学習(GRPO)を組み合わせることで、既存の動画生成モデルの限界を超えた劇的な緊張感と視覚的一貫性を実現することに成功しました。これにより、キャラクターの同一性や物語の文脈を維持したまま、プロフェッショナルな品質の映画風動画を自動で制作することが可能になります。 本フレームワークは、ScripterAgentによる精密な脚本作成、DirectorAgentによるシーン間の連続性確保、CriticAgentによる多角的な評価という一連のプロセスを通じて、最新の動画生成モデル(Sora2-ProやVeo3.1など)の性能を最大限に引き出します。実験では、脚本への忠実度や映像の連続性を示す新指標VSAにおいて大幅な向上を記録し、自動映画製作における新たなパラダイムを確立しました。

6067 字
読む →

Faramesh:自律型エージェントシステムのためのプロトコル非依存な実行制御プレーン

Farameshは、自律型エージェントがインフラ操作や資金移動などの現実的な影響を及ぼす際に、実行の直前で強制的に認可を判断する「アクション認可境界(AAB)」を導入する画期的な制御プレーンである。

6959 字
読む →

ProGraph-R1:グラフ検索拡張生成のための進捗を考慮した強化学習

大規模言語モデルが知識集約的なタスクで起こすハルシネーションを抑制するため、グラフ構造のつながりと推論の進捗状況を同時に考慮する新しい強化学習フレームワーク「ProGraph-R1」が開発されました。

6174 字
読む →