継続更新

生成AI研究を、要点から追う。

最新の論文記事を読みやすく整理。保存・タグ検索に加え、Plus/Proでは研究ノートと知識グラフで理解を積み上げられます。

無料で試す

Cog AI Archive

最新の記事

LLM支援型論理ルール学習:時系列異常検知における人間の専門知識の拡張

アマゾンのサプライチェーンにおける膨大な製品数の異常検知を効率化するため、人間の専門知識を大規模に拡張する新しいフレームワークが提案されました。従来の教師なし学習手法ではビジネス文脈の反映が難しく、一方で人間による手動の分析や大規模言語モデル(LLM)の直接的な運用には、コストや遅延、非決定性といった実用上の大きな課題が存在していました。 本手法は、マルチモーダルLLMを用いたデータのラベル付け、LLMによる論理ルールの自動生成と反復的な最適化、そしてビジネス上の解釈性を高めるルールの拡張という3つの段階で構成されています。特に、LLMを「セマンティックな勾配」として利用し、ルールの振る舞い分析に基づいて論理構造を修正する仕組みを導入することで、機械学習のような体系的な学習プロセスを実現しています。 実験の結果、提案手法は従来の教師なし学習を精度と解釈性の両面で上回り、LLMを直接運用する場合と比較して、低コストかつ低遅延で決定論的な結果を提供できることが確認されました。これにより、ブラックボックスではない透明性の高いルールを本番環境にデプロイすることが可能となり、専門家による検証や修正も容易な、実用的な異常検知システムが構築されました。

5837 字
読む →

GhostUI:モバイルUIにおける隠されたインタラクションを明らかにする

現代のモバイルアプリには、スワイプや長押しといった視覚的な手がかりのない「隠れたインタラクション」が数多く存在し、これが視覚情報に依存するAIエージェントの操作を困難にしている。本研究では、81種類の人気アプリから1,970件の隠れた操作事例を収集した世界初のデータセット「GhostUI」を構築し、操作前後の画像や構造データ、自然言語によるタスク説明を体系化した。検証の結果、GhostUIで学習した視覚言語モデルは、隠れた操作の予測精度や操作後の画面状態の推論能力が大幅に向上し、モバイルタスク自動化における視覚的手がかりの欠如という課題を克服する重要な基盤となることが示された。

6576 字
読む →

リドル・クエスト:言葉の謎

本研究は、類推に基づくなぞなぞを自動生成し、大規模言語モデルの推論能力や曖昧さの処理能力を多角的に評価するための新しいパイプライン「リドル・クエスト」を提案している。 システムは対象概念を構造化データとして捉え、属性分類を経て五つの多様なスタイルで問題を生成するが、検証の結果、最新の言語モデルであっても比喩的表現における正解の網羅的な特定には大きな課題があることが判明した。 なぞなぞは、人工知能の抽象化能力や多段階の推論を測定するための軽量かつ有効なマイクロベンチマークとして機能し、単なる正誤判定を超えてモデルが持つ知識の広がりと解釈の深さを定量的に評価する重要なツールとなる。

6771 字
読む →

LLM推論のためのグループ分布ロバスト最適化駆動型強化学習

大規模言語モデル(LLM)の推論学習において、従来の強化学習手法が抱えていた「全問題を一律に扱う非効率性」を解消するため、問題の難易度に応じて学習の重みと計算資源を動的に配分する「マルチ敵対的GDROフレームワーク」が提案されました。

6372 字
読む →

持続可能性と性能のバランス:エージェント型人工知能システムにおける小規模LLMの役割

大規模言語モデル(LLM)をエージェント型AIシステムに統合する際、推論時の膨大なエネルギー消費が持続可能性の大きな課題となっていますが、本研究では小規模なオープンウェイトモデルを活用することで、応答性や出力品質を損なうことなく消費電力を削減できる可能性を明らかにしました。

6054 字
読む →

エンドユーザーのクエリをエンタープライズデータベースへルーティングする

大規模な企業環境において、ユーザーの自然言語による質問を分散した多数のデータベースの中から最も適切なものへ自動的に振り分ける「クエリルーティング」の精度を向上させるため、既存のベンチマークを大幅に拡張した「Spider-Route」と「Bird-Route」を構築し、評価の妥当性を高めました。

6228 字
読む →

視覚生成はマルチモーダル世界モデルを通じて人間のような推論能力を解き放つ

本研究は、統一マルチモーダルモデル(UMM)における視覚生成が、物理的・空間的推論を必要とするタスクにおいて「世界モデル」として機能し、従来の言語のみの推論(CoT)を大幅に上回る性能を発揮することを理論と実験の両面から明らかにしました。

5987 字
読む →

HARMONI:LLMを用いた多人数対ロボット相互作用のマルチモーダルなパーソナライズ

HARMONIは、介護施設のような多人数が同時に存在する複雑な環境において、大規模言語モデル(LLM)の能力を最大限に引き出し、個々のユーザーに対する長期的なパーソナライズを実現するための革新的なマルチモーダル・フレームワークである。

5912 字
読む →

対話型推薦における長期的ユーザー満足度のためのLLM強化型強化学習

対話型推薦システムが陥りやすいフィルターバブルや内容の均質化という課題に対し、大規模言語モデル(LLM)の論理的計画能力と強化学習(RL)の適応力を組み合わせた階層型フレームワーク「LERL」を開発した。

5790 字
読む →

Innovator-VL:科学的発見のためのマルチモーダル大規模言語モデル

Innovator-VLは、科学的ドメインにおける高度な理解と推論を実現するために開発された、透明性の高いマルチモーダル大規模言語モデル(MLLM)であり、科学的タスクでの卓越した性能と一般的な視覚タスクでの汎用性を高い次元で両立させています。

5893 字
読む →