継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

SNR-Edit: インバージョン不要なフローベース編集のための構造認識型ノイズ補正

近年のStable Diffusion 3やFLUXなどのフローベース生成モデルを用いた画像編集において、既存の「反転不要(Inversion-Free)」な手法は、ソース画像の軌跡構築に固定ガウスノイズを使用するため、実際の画像分布との間に「構造的・確率的不一致」が生じ、編集過程での軌跡のズレや背景の崩れといった構造劣化を招くという課題があった。 この問題を解決するために提案された「SNR-Edit」は、セグメンテーションモデル(SAM2)と幾何学的エンコーディング(RoPE)を用いて画像固有の構造的制約を初期ノイズに注入する「構造認識型ノイズ整流」機構を導入したトレーニング不要のフレームワークであり、確率的なノイズ成分を実際の画像の潜在的な位置に固定することで編集軌跡の漂流を抑制するものである。 PIE-Benchおよび新たに構築されたSNR-Benchを用いたSD3とFLUX上での評価において、SNR-Editは既存のFlowEditやDNAEditと比較してPSNRやSSIMなどのピクセルレベル指標およびVLMベースのスコアで優れた性能を示し、画像1枚あたり約1秒の追加コストで非編集領域の構造を忠実に保持しながらテキスト指示に忠実な編集を実現したことが実証された。

7083 字
読む →

CoReTab:コード駆動型推論によるマルチモーダル表理解の向上

従来のマルチモーダル表理解データセットは短答形式が主流であり、多段階の推論過程を学習できないため、モデルの回答精度が低く、最終的な答えに至るまでのプロセスが不透明であるという課題が存在していました。

6565 字
読む →

HELM:LLM駆動型推薦システムのための人間中心の評価フレームワーク

大規模言語モデル(LLM)を搭載した推薦システムは、自然言語による対話や詳細な説明生成といった革新的な能力を持つが、従来の的中率やNDCGといった正確性重視の指標では、その人間中心の価値を十分に評価できないという課題がある。

6405 字
読む →

MAGNET:メモリ駆動型の知識進化による適応型GUIエージェントに向けて

モバイルアプリの頻繁な更新で起きる「外観ドリフト」と「ワークフロードリフト」に対し、機能的な意味やタスク意図の不変性に注目し、視覚的特徴を機能へ結びつける「定常メモリ」と、操作手順を抽象化して保持する「手続きメモリ」の二層構造を導入しています。 / 成功した実行軌跡から知識を自動抽出して更新する動的進化メカニズムを備え、エビングハウスの忘却曲線に着想を得たランク付けで、有用な知識を優先保持しながらアプリ進化への適応を継続できるようにしています。 / AndroidWorld などのオンライン環境と複数のオフラインベンチマークで既存のメモリ拡張型エージェントを上回り、未知アプリや未知ドメインへの移行時にも性能低下を抑えられることを示しています。

5653 字
読む →

MATA: マルチエージェント視覚的推論のための学習可能な階層的オートマトンシステム

視覚言語モデルは高い知覚能力を持つ一方で、複雑な推論における「幻覚」やプロセスの不透明さが課題となっており、本研究ではこれを解決するために推論過程を有限状態オートマトンとしてモデル化しました。 提案手法である「MATA」は、学習可能なハイパーエージェントが複数の専門エージェントを動的に切り替える階層構造を採用し、共有メモリを介してエージェント間の高度な協調と競争を実現することで、推論の透明性と精度を両立させています。 9万件の遷移軌跡から構築されたデータセットを用いて微調整された大規模言語モデルを制御塔とすることで、複数の視覚推論ベンチマークにおいて従来手法を凌駕する最高水準の性能を達成し、複雑なタスクにおける新たな基準を提示しました。

6180 字
読む →

UniPCB:オープンエンドなPCB品質検査のための統一視覚言語ベンチマーク

UniPCBは、プリント基板(PCB)の品質検査を目的とした世界初の統一的な視覚言語ベンチマークであり、6,000枚以上の画像と23,000件を超える高品質な多対話形式の質問回答ペアを提供することで、複雑な工業検査におけるマルチモーダルモデルの性能を厳密に評価する。

5957 字
読む →

RPO-RAG:関係認識型選好最適化による知識グラフ質問応答に向けた小規模LLMのアライメント

大規模言語モデル(LLM)が知識集約的なタスクで引き起こすハルシネーションを抑制するため、知識グラフ(KG)を活用した検索拡張生成(RAG)が注目されていますが、従来のヒューリスティックな経路探索ではクエリの意図と無関係なノイズが混入し、特に推論能力の限られた70億パラメータ未満の小規模モデルが情報を適切に処理できないという課題がありました。 本研究が提案する「RPO-RAG」は、クエリと経路の意味的類似度に基づく動的なサンプリング、中間的な推論ステップである「関係」に着目した選好最適化、および回答候補ごとに証拠を整理するプロンプト設計を導入することで、小規模モデルの推論プロセスを知識グラフの構造的論理に精密に適合させることに成功しました。 WebQSPおよびCWQのベンチマークにおいて、80億パラメータ以下のモデルで最高水準の性能を達成し、特にWebQSPではF1スコアを最大8.8%向上させるなど、30億パラメータ程度の極めて小さなモデルであっても、大規模モデルに匹敵する高精度な回答と論理的な推論が可能であることを実証しました。

6509 字
読む →

ドメイン内検知を超えて:クロスドメインのハルシネーション検知のためのSpikeScore

大規模言語モデル(LLM)のハルシネーション検知において、訓練データと異なる領域で精度が低下する「クロスドメイン汎用性」の欠如を解決するため、単一ドメインの学習のみで多様な未知の領域に対応できる汎用的検知(GHD)の枠組みを確立しました。

6878 字
読む →

GLOVE:LLMの記憶と環境の再整合のためのグローバル検証器

大規模言語モデル(LLM)を用いたエージェントが、外部の正解ラベルやモデル自身の内省能力に過度に依存することなく、環境の変化に合わせて記憶を自律的に更新するための新しいフレームワーク「GLOVE」を提案する。

7394 字
読む →

LLM支援型論理ルール学習:時系列異常検知における人間の専門知識の拡張

アマゾンのサプライチェーンにおける膨大な製品数の異常検知を効率化するため、人間の専門知識を大規模に拡張する新しいフレームワークが提案されました。従来の教師なし学習手法ではビジネス文脈の反映が難しく、一方で人間による手動の分析や大規模言語モデル(LLM)の直接的な運用には、コストや遅延、非決定性といった実用上の大きな課題が存在していました。 本手法は、マルチモーダルLLMを用いたデータのラベル付け、LLMによる論理ルールの自動生成と反復的な最適化、そしてビジネス上の解釈性を高めるルールの拡張という3つの段階で構成されています。特に、LLMを「セマンティックな勾配」として利用し、ルールの振る舞い分析に基づいて論理構造を修正する仕組みを導入することで、機械学習のような体系的な学習プロセスを実現しています。 実験の結果、提案手法は従来の教師なし学習を精度と解釈性の両面で上回り、LLMを直接運用する場合と比較して、低コストかつ低遅延で決定論的な結果を提供できることが確認されました。これにより、ブラックボックスではない透明性の高いルールを本番環境にデプロイすることが可能となり、専門家による検証や修正も容易な、実用的な異常検知システムが構築されました。

5837 字
読む →