AI研究 | Cog AI Archive

AI研究 2026-02-01

MasalBench：LLMにおけるペルシャ語ことわざの文脈的・異文化的理解のためのベンチマーク

多言語大規模言語モデル（LLM）が日常会話に不可欠となる中、ペルシャ語のような低リソース言語における「ことわざ」の理解力を測定するため、1,000件の文脈理解問題と700件の異文化間対応問題を含む新しいベンチマーク「MasalBench」が開発されました。

5736 字

読む →

AI研究 2026-02-01

$G^2$-Reader: マルチモーダル文書QAのための二重進化グラフ

$G^2$-Readerは、テキスト、表、図が複雑に混在する長大なマルチモーダル文書から正確な回答を導き出すために、文書構造を保持する「コンテンツグラフ」と推論を管理する「プランニンググラフ」を組み合わせた革新的な二重グラフシステムである。

5953 字

読む →

AI研究 2026-02-01

識別器駆動型拡散モデルによる教師なし分解と再結合

複雑なデータを教師なしで背景、照明、物体の属性、あるいはロボットの動作といった独立した構成要素へと分解し、それらを自在に再結合して新たなサンプルを合成する手法を提案する。本研究では拡散モデルを基盤とし、要素レベルの教師信号を一切必要とせずに、再利用可能な構成要素を抽出する能力を持つ因子化された潜在空間の学習を実現している。学習過程において、単一のデータ源から生成されたサンプルと、複数のデータ源の構成要素を組み合わせて生成されたサンプルを判別する「識別器」を用いた敵対的学習シグナルを導入した。生成器がこの識別器を欺くように最適化されることで、再結合されたデータにおける物理的および意味的な一貫性が強化され、不自然なアーティファクトの抑制と高品質な合成が可能になる。 CelebA-HQ、Virtual KITTI、CLEVR、Falcor3Dといった画像データセットで、従来手法を上回るFIDスコアと高い解離性を達成した。さらに、ロボットのビデオ軌跡における動作要素の再結合という新しい応用を実証し、LIBEROベンチマークにおいて状態空間の探索範囲を大幅に拡大する多様なシーケンスの生成に成功した。

5764 字

読む →

AI研究 2026-02-01

Vision-DeepResearch：マルチモーダル大規模言語モデルにおけるDeepResearch能力の動機付け

既存のマルチモーダル大規模言語モデル（MLLM）は、外部ツールを用いた検索において、画像全体を一度に検索する単純な手法に頼っており、ノイズの多い現実の環境では必要な情報に辿り着けない「ヒット率」の問題や、推論の深さと検索の幅が不足しているという課題を抱えています。

6002 字

読む →

AI研究 2026-02-01

VTC-R1: 長文脈推論を効率化する視覚・テキスト圧縮技術

VTC-R1は、大規模言語モデルの長文脈推論における計算コスト増大を解決するため、中間的な推論過程を画像化して圧縮する新しい効率化パラダイムである。従来のテキストベースの処理に代わり、推論ステップを軽量なレンダリングによってコンパクトな画像へと変換し、それを「光学メモリ」として視覚言語モデルに繰り返し入力することで、詳細な情報を保持したままトークン数を大幅に削減する。数学的推論ベンチマークにおいて、標準的な手法を凌駕する精度を達成しつつ、エンドツーエンドの遅延を最大2.7倍高速化し、テキストトークンを約3.4倍の効率で圧縮することに成功した。この手法は追加の学習段階や外部の強力なモデルを必要とせず、モデルフリーで軽量な設計となっており、複雑な推論タスクにおける実用的なスケーラビリティを提供する。

6654 字

読む →

AI研究 2026-02-01 長文

ジュールはどこへ行くのか？推論エネルギー消費の診断

本研究は、46種類のモデルと7つのタスクにわたる1,858通りの構成を用い、NVIDIA H100およびB200 GPU上での生成AI推論におけるエネルギー消費を大規模に調査した。 LLMのタスク種別で25倍、動画生成は画像生成の100倍以上のエネルギー差が生じることや、GPU利用率の違いが3倍から5倍の消費電力差に直結することを明らかにした。収集したデータに基づき、メモリ容量や利用率といった潜在的指標がエネルギー効率を決定づけるメカニズムを解明し、電力制約下でのデータセンター運用を最適化するための枠組みを提示している。

7064 字

読む →

AI研究 2026-02-01

分位点勾配を用いたCVaR方策最適化の強化

従来のリスク回避型強化学習で用いられるCVaR方策勾配法（CVaR-PG）は、報酬分布の最悪のケースであるテール部分のみに焦点を当てるため、収集したデータの大部分を破棄してしまい、学習のサンプル効率が著しく低いという致命的な課題を抱えていました。

6882 字

読む →

AI研究 2026-02-01

ECO: フル精度マスターウェイト不要の量子化トレーニング

大規模言語モデル（LLM）の学習において、メモリ消費の大きな要因となっていた高精度なマスターウェイトを完全に排除し、量子化されたパラメータのみで学習を可能にする「Error-Compensating Optimizer（ECO）」が提案されました。

6194 字

読む →

AI研究 2026-02-01

下流タスクのフィードバックを用いた価値ベースの事前学習

従来の自己教師あり学習は、次トークン予測などの固定された代理目的関数を最適化する「オープンループ」な仕組みであり、膨大な計算資源が必ずしも最終的に必要な下流タスクの能力向上に効率よく割り当てられないという課題を抱えていた。

5826 字

読む →

AI研究 2026-02-01

物理法則に基づく4次元大気風速場の再構成：マルチドローン群観測を活用して

1. 複数の無人航空機システム（UAS）の群れを活用し、専用の風速センサーを搭載することなく機体の動的応答のみから局所的な風速を推定し、時間と空間の4次元で大気風速場を再構成する革新的なフレームワークを提案した。 2.

6115 字

読む →

生成AI研究を、要点から追う。

最新の記事

MasalBench：LLMにおけるペルシャ語ことわざの文脈的・異文化的理解のためのベンチマーク

$G^2$-Reader: マルチモーダル文書QAのための二重進化グラフ

識別器駆動型拡散モデルによる教師なし分解と再結合

Vision-DeepResearch：マルチモーダル大規模言語モデルにおけるDeepResearch能力の動機付け

VTC-R1: 長文脈推論を効率化する視覚・テキスト圧縮技術

ジュールはどこへ行くのか？推論エネルギー消費の診断

分位点勾配を用いたCVaR方策最適化の強化

ECO: フル精度マスターウェイト不要の量子化トレーニング

下流タスクのフィードバックを用いた価値ベースの事前学習

物理法則に基づく4次元大気風速場の再構成：マルチドローン群観測を活用して