手描きの技術的な図(フローチャートなど)を理解し、再編集可能な形式にするため、VLM(視覚言語モデル)の能力を向上させる研究です。実世界を反映した大規模な合成画像データセットと、新たな自己教師あり学習タスクを導入。Llama 3.2 11Bを微調整した「LLama-VL-TUG」は、ベースラインと比較して大幅な性能向上を達成しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related