視覚言語モデルの推論不足は、モデルの大きさよりも、人間が画像説明で省略しがちな情報に強く左右されます。空間・時間・否定・カウントの4種類を軸に見ると、学習コーパスの報告バイアスがそのまま性能の穴になっており、スケール拡大や多言語化だけでは埋まりません。
VLM の弱さを議論するとき、モデル構造や最適化だけが原因として語られがちです。しかし、画像と言語を結びつける学習では、どんなペアを大量に集めても、そこに必要な推論表現がほとんど含まれていなければ、モデルは推論を覚えにくいままです。ここで重要なのは、データ量ではなく、データが持っている会話上の偏りです。
著者らの提案は、新しい巨大モデルを作ることではありません。中心にあるのは、報告バイアスという仮説を4種類の推論能力に分解し、それを測るベンチマークと、学習データ側の出現頻度分析を対応づけることです。つまり、モデルの弱さをただ列挙するのではなく、「なぜその能力だけ学習されにくいのか」をデータ分布の観点から説明する枠組みを出しています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related