時系列データの数値的な正確性と視覚的な構造把握を両立させるため、パッチ単位での精密な位置合わせを行う「Patch-level Alignment」と、共有情報と固有情報を分離して統合する「Discrete Disentangled Interaction」を備えたマルチモーダル大型言語モデル「MADI」が提案されました。 このモデルは、数値データ、プロット図、統計テキストを物理的に対応付けることで、従来のモデルが抱えていた局所的なハルシネーションを抑制し、トレンドや周期性といった高レベルな特徴と微細な数値変動の両方を正確に捉えることに成功しています。 合成データおよび医療や金融などの現実世界のデータセットを用いた広範な検証の結果、MADIは汎用的な言語モデルや時系列特化型の既存モデルを一貫して上回る性能を示し、複雑な時間的動態に対する柔軟で解釈可能な推論能力を証明しました。
時系列データの数値的な正確性と視覚的な構造把握を両立させるため、パッチ単位での精密な位置合わせを行う「Patch-level Alignment」と、共有情報と固有情報を分離して統合する「Discrete Disentangled Interaction」を備えたマルチモーダル大型言語モデル「MADI」が提案されました。 このモデルは、数値データ、プロット図、統計テキストを物理的に対応付けることで、従来のモデルが抱えていた局所的なハルシネーションを抑制し、トレンドや周期性といった高レベルな特徴と微細な数値変動の両方を正確に捉えることに成功しています。 合成データおよび医療や金融などの現実世界のデータセットを用いた広範な検証の結果、MADIは汎用的な言語モデルや時系列特化型の既存モデルを一貫して上回る性能を示し、複雑な時間的動態に対する柔軟で解釈可能な推論能力を証明しました。
時系列の理解と推論(TSUR)は、単変量または多変量の時系列入力に対して自然言語のクエリを処理し、複雑な時間的動態をテキストで説明または分析するタスクです。従来の予測や分類、異常検知といった古典的な時系列タスクは、数値入力に対して特定の形式で出力を行うため、柔軟性や解釈性に欠けるという課題がありました。これに対し、TSURはオープンエンドな自然言語対話を通じて、人間が意思決定を行う際に不可欠な解釈可能な対話を提供することを目指しています。近年、大型言語モデル(LLM)の発展により、時系列データを言語モデルが処理可能な形式に変換する手法が模索されてきました。数値中心のアプローチは、生の数値を直接入力することで精度を維持しますが、LLMがトレンドや周期性といった高レベルな構造を認識するのが苦手であるという欠点があります。これは、テキストのみで事前学習されたLLMにとって、数値と自然言語の間に根本的なモダリティのギャップが存在するためです。 一方で視覚中心のアプローチは、時系列をプロット図に変換してマルチモーダルLLM(MLLM)の視覚処理能力を活用しますが、精密な分析に必要な細かい数値の詳細が失われる傾向にあります。…
本論文では、微細な整列と解絡(ディスエンタングルメント)された相互作用を特徴とするマルチモーダルLLM「MADI」を提案しています。MADIの核心は、数値的な精度と視覚的な抽象化という、異なるモダリティの相補的な利点を最大限に引き出すための3つの主要コンポーネントにあります。第一に「Patch-level Alignment(PA)」は、数値データ、視覚プロット、および統計情報を含むテキストによる説明をパッチ単位で物理的に対応付け、一貫したセマンティック空間を構築します。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related