Cog AI Archive

AI研究 2026-01-29

LEMON：MLLMは教育ビデオにおける時間的なマルチモーダル理解をどれほどうまく行えるか？

教育ビデオにおける時間的なマルチモーダル理解を精密に評価するため、数学や人工知能などのSTEM分野の講義を対象とした新しいベンチマーク「LEMON」が提案されました。このデータセットは、5つの学問分野と29のコースから収集された2,277のビデオセグメントと、4,181の高品質な問題ペアで構成されており、視覚、音声、テキストの3つのモダリティが密接に連携した高度な推論を要求します。実験の結果、GPT-5やQwen3-Omniといった最新のマルチモーダル大規模言語モデルであっても、時間的な推論や教育的な意図の予測において大きな課題があることが明らかになり、実世界での複雑なコンテンツ理解能力には依然として大きな乖離があることが示されました。

6199 字

読む →

AI研究 2026-01-29

ニューラル物理ソルバのための分布外汎化

NOVAは、物理法則に基づいた帰納バイアスを探索することで、学習データの範囲を超えた未知の物理シナリオ（分布外）に対しても高速かつ高精度に予測を行う、新しいニューラル物理ソルバの設計フレームワークである。

6114 字

読む →

AI研究 2026-01-29

Axe：機械学習コンパイラのためのシンプルで統一されたレイアウト抽象化

Axeは、論理的なテンソル座標をデバイス、メモリ、スレッドなどのハードウェア軸にマッピングする、ハードウェアを意識した新しい抽象化手法である。この手法は、デバイス間のデータ分散（シャーディング、複製）とデバイス内のメモリレイアウト（タイリング、オフセット）を単一の形式で統一し、一貫した記述を可能にする。

5967 字

読む →

AI研究 2026-01-29

FloydNet：大域的な関係推論のための学習パラダイム

従来のグラフニューラルネットワーク（GNN）が抱えていた局所的なメッセージパッシングによる情報のボトルネックや表現力の限界を打破するため、動的計画法の原理を取り入れた新しいアーキテクチャ「FloydNet」が提案されました。

6115 字

読む →

AI研究 2026-01-29

PsyProbe：探索的カウンセリングのためのユーザ状態モデリングを通じた能動的かつ解釈可能な対話

PsyProbeは、カウンセリングの初期段階である「探索」に特化し、大規模言語モデルが陥りがちな受動的な応答を克服するために開発された、能動的かつ解釈可能な対話システムである。心理学的なPPPPPIフレームワーク（提示された問題、素因、誘因、持続要因、保護要因、影響）と認知の歪みの検出を統合し、ユーザーの心理状態を構造的に把握するState Builderや、情報の欠落を数値化して追跡するMemory Constructionなどの4つの高度なモジュールで構成されている。韓国での実証実験において、27名の参加者と専門家による評価の結果、人間のカウンセラーに匹敵する質問率を達成し、ユーザーのエンゲージメント向上と問題の本質に対する深い理解を促進することが確認された。

6445 字

読む →

AI研究 2026-01-29

OWLEYE：クロスドメイングラフデータ異常検知のためのゼロショット学習器

OWLEYEは、金融、サイバーセキュリティ、製造業など多岐にわたるドメインのグラフデータから異常を検知するために開発された、革新的なゼロショット学習フレームワークである。異なるドメイン間の特徴量の差異を解消する特徴整列モジュール、属性と構造の双方から正常パターンを蓄積するマルチドメイン辞書学習、そしてラベルなしで異常を特定する切り捨てアテンション再構成を導入している。複数の実世界のデータセットを用いた広範な実験において、既存の最先端手法を凌駕する汎用性と検知精度を示しており、ラベル付けコストを抑えつつ未学習のドメインにも即座に対応できる強力な基盤を構築した。

5812 字

読む →

AI研究 2026-01-29

RobustExplain：推薦のためのLLMベース説明エージェントの堅牢性評価

大規模言語モデル（LLM）を推薦理由の説明に活用する際、誤クリックやデータの欠損といった現実的なノイズが説明の整合性に与える影響を評価する初のフレームワーク「RobustExplain」が開発されました。 5種類の行動ノイズと4つの評価指標を用いて実験した結果、現在のLLMの堅牢性は平均0.

5666 字

読む →

AI研究 2026-01-29

強化学習を通じた関数呼び出しモデルの弱点探索：敵対的データ拡張によるアプローチ

大規模言語モデル（LLM）の関数呼び出し能力を向上させるため、強化学習を用いてモデルの弱点を能動的に探索し、敵対的なクエリを生成する新しいデータ拡張フレームワークを提案しました。この手法は、クエリを生成する「クエリモデル」と、それに応答する「関数呼び出しモデル」を零和ゲームの枠組みで交互に反復学習させることで、従来の固定的なデータセットでは到達できなかった複雑な失敗パターンを体系的に特定します。検証の結果、提案手法はモデルの堅牢性と汎用性を大幅に向上させ、外部ツールやAPIとの対話において、より正確で信頼性の高い構造化データの出力を可能にすることが確認されました。

5939 字

読む →

AI研究 2026-01-29

ベトナム語・バナ語翻訳のための文指向データ拡張とTransformerベースのアーキテクチャの活用

ベトナムの少数民族であるバナ族の言語を保護し、デジタル化を促進するため、限られた学習データでも高精度な翻訳を可能にするニューラル機械翻訳（NMT）技術が開発されました。本研究では、既存の並列コーパスのみを活用し、複雑な前処理や追加データを必要としない「マルチタスク学習データ拡張（MTL DA）」と「文境界拡張」という2つの柔軟な手法を提案しています。これらの手法は、バナ語特有の複雑な語彙構造やベトナム語との文法的な差異に起因する誤訳を大幅に改善し、文化遺産の継承と世代間コミュニケーションの活性化に大きく貢献する実用的な成果を示しました。

5951 字

読む →

AI研究 2026-01-29

CLIPガイドによる教師なし意味論的露出補正

不適切な露出による詳細の消失や色被りを解決するため、Fast Segment Anything Modelから得られる物体レベルの意味情報を活用し、領域ごとの精密な補正を行う新しい教師なし学習フレームワークが提案されました。

5877 字

読む →

生成AI研究を、要点から追う。

最新の記事

LEMON：MLLMは教育ビデオにおける時間的なマルチモーダル理解をどれほどうまく行えるか？

ニューラル物理ソルバのための分布外汎化

Axe：機械学習コンパイラのためのシンプルで統一されたレイアウト抽象化

FloydNet：大域的な関係推論のための学習パラダイム

PsyProbe：探索的カウンセリングのためのユーザ状態モデリングを通じた能動的かつ解釈可能な対話

OWLEYE：クロスドメイングラフデータ異常検知のためのゼロショット学習器

RobustExplain：推薦のためのLLMベース説明エージェントの堅牢性評価

強化学習を通じた関数呼び出しモデルの弱点探索：敵対的データ拡張によるアプローチ

ベトナム語・バナ語翻訳のための文指向データ拡張とTransformerベースのアーキテクチャの活用

CLIPガイドによる教師なし意味論的露出補正