タグ: AI | Cog AI Archive

AI研究 2026-01-29

GhostUI：モバイルUIにおける隠されたインタラクションを明らかにする

現代のモバイルアプリには、スワイプや長押しといった視覚的な手がかりのない「隠れたインタラクション」が数多く存在し、これが視覚情報に依存するAIエージェントの操作を困難にしている。本研究では、81種類の人気アプリから1,970件の隠れた操作事例を収集した世界初のデータセット「GhostUI」を構築し、操作前後の画像や構造データ、自然言語によるタスク説明を体系化した。検証の結果、GhostUIで学習した視覚言語モデルは、隠れた操作の予測精度や操作後の画面状態の推論能力が大幅に向上し、モバイルタスク自動化における視覚的手がかりの欠如という課題を克服する重要な基盤となることが示された。

6576 字

読む →

AI研究 2026-01-29

リドル・クエスト：言葉の謎

本研究は、類推に基づくなぞなぞを自動生成し、大規模言語モデルの推論能力や曖昧さの処理能力を多角的に評価するための新しいパイプライン「リドル・クエスト」を提案している。システムは対象概念を構造化データとして捉え、属性分類を経て五つの多様なスタイルで問題を生成するが、検証の結果、最新の言語モデルであっても比喩的表現における正解の網羅的な特定には大きな課題があることが判明した。なぞなぞは、人工知能の抽象化能力や多段階の推論を測定するための軽量かつ有効なマイクロベンチマークとして機能し、単なる正誤判定を超えてモデルが持つ知識の広がりと解釈の深さを定量的に評価する重要なツールとなる。

6771 字

読む →

AI研究 2026-01-29

LLM推論のためのグループ分布ロバスト最適化駆動型強化学習

大規模言語モデル（LLM）の推論学習において、従来の強化学習手法が抱えていた「全問題を一律に扱う非効率性」を解消するため、問題の難易度に応じて学習の重みと計算資源を動的に配分する「マルチ敵対的GDROフレームワーク」が提案されました。

6372 字

読む →

AI研究 2026-01-29

持続可能性と性能のバランス：エージェント型人工知能システムにおける小規模LLMの役割

大規模言語モデル（LLM）をエージェント型AIシステムに統合する際、推論時の膨大なエネルギー消費が持続可能性の大きな課題となっていますが、本研究では小規模なオープンウェイトモデルを活用することで、応答性や出力品質を損なうことなく消費電力を削減できる可能性を明らかにしました。

6054 字

読む →

AI研究 2026-01-29

エンドユーザーのクエリをエンタープライズデータベースへルーティングする

大規模な企業環境において、ユーザーの自然言語による質問を分散した多数のデータベースの中から最も適切なものへ自動的に振り分ける「クエリルーティング」の精度を向上させるため、既存のベンチマークを大幅に拡張した「Spider-Route」と「Bird-Route」を構築し、評価の妥当性を高めました。

6228 字

読む →

AI研究 2026-01-29

視覚生成はマルチモーダル世界モデルを通じて人間のような推論能力を解き放つ

本研究は、統一マルチモーダルモデル（UMM）における視覚生成が、物理的・空間的推論を必要とするタスクにおいて「世界モデル」として機能し、従来の言語のみの推論（CoT）を大幅に上回る性能を発揮することを理論と実験の両面から明らかにしました。

5987 字

読む →

AI研究 2026-01-29

HARMONI：LLMを用いた多人数対ロボット相互作用のマルチモーダルなパーソナライズ

HARMONIは、介護施設のような多人数が同時に存在する複雑な環境において、大規模言語モデル（LLM）の能力を最大限に引き出し、個々のユーザーに対する長期的なパーソナライズを実現するための革新的なマルチモーダル・フレームワークである。

5912 字

読む →

AI研究 2026-01-29

対話型推薦における長期的ユーザー満足度のためのLLM強化型強化学習

対話型推薦システムが陥りやすいフィルターバブルや内容の均質化という課題に対し、大規模言語モデル（LLM）の論理的計画能力と強化学習（RL）の適応力を組み合わせた階層型フレームワーク「LERL」を開発した。

5790 字

読む →

AI研究 2026-01-29

Innovator-VL：科学的発見のためのマルチモーダル大規模言語モデル

Innovator-VLは、科学的ドメインにおける高度な理解と推論を実現するために開発された、透明性の高いマルチモーダル大規模言語モデル（MLLM）であり、科学的タスクでの卓越した性能と一般的な視覚タスクでの汎用性を高い次元で両立させています。

5893 字

読む →

AI研究 2026-01-29

ベンチマークが漏洩するとき：LLMのための推論時における汚染除去

大規模言語モデルの評価において、テストデータが訓練データに混入する「データ汚染」が性能を不当に高く見せる問題に対し、推論時に埋め込み空間へ微小な摂動を加えることで記憶によるショートカットを抑制する手法「DeconIEP」が提案されました。

6205 字

読む →

生成AI研究を、要点から追う。

最新の記事

GhostUI：モバイルUIにおける隠されたインタラクションを明らかにする

リドル・クエスト：言葉の謎

LLM推論のためのグループ分布ロバスト最適化駆動型強化学習

持続可能性と性能のバランス：エージェント型人工知能システムにおける小規模LLMの役割

エンドユーザーのクエリをエンタープライズデータベースへルーティングする

視覚生成はマルチモーダル世界モデルを通じて人間のような推論能力を解き放つ

HARMONI：LLMを用いた多人数対ロボット相互作用のマルチモーダルなパーソナライズ

対話型推薦における長期的ユーザー満足度のためのLLM強化型強化学習

Innovator-VL：科学的発見のためのマルチモーダル大規模言語モデル

ベンチマークが漏洩するとき：LLMのための推論時における汚染除去