継続更新

TechING: VLMによる実世界の技術的画像理解に向けて

技術的な議論で多用される手書きの図表を、編集可能なMermaidコードへと変換し理解するための大規模データセット「TechING」と、それを用いた学習モデル「LLama-VL-TUG」が提案されました。 11万件超の合成データと545件の実世界の手書き画像を用い、Llama 3.

TechING: VLMによる実世界の技術的画像理解に向けて の図解
論文図解

TL;DR(結論)

技術的な議論で多用される手書きの図表を、編集可能なMermaidコードへと変換し理解するための大規模データセット「TechING」と、それを用いた学習モデル「LLama-VL-TUG」が提案されました。 11万件超の合成データと545件の実世界の手書き画像を用い、Llama 3.2 11Bをファインチューニングした結果、既存の視覚言語モデル(VLM)を大幅に上回る構造理解能力とコード生成精度を実現しています。 具体的には、従来モデルと比較してコード生成の類似性を示すROUGE-Lスコアを2.14倍に向上させ、実世界の手書き画像における構造再現のF1スコアを6.97倍に改善し、多くの図表タイプでコンパイルエラーを最小限に抑えることに成功しました。

なぜこの問題か

技術的な議論の場において、エンジニアや専門家はホワイトボードや紙にフローチャート、ブロック図、シーケンス図などの技術的な図表を日常的に手書きしてアイデアを具体化します。しかし、これらの手書き図表を後から修正したり、デジタル文書として再利用したりする場合、現状では最初から描き直す必要があり、多大な労力が費やされています。既存の画像生成・編集ツールも登場していますが、それらは主にシステム構成図やワークフローに限定されており、多様な技術ドメインをカバーできていないのが実情です。近年の視覚言語モデル(VLM)は画像理解において目覚ましい進歩を遂げていますが、技術的な図表の理解という特定の領域においては依然として大きな課題を抱えています。 技術図表は、幾何学的な形状(ボックス、円、矢印など)と、その中や上に配置されたテキストが密接に結びついた複雑な構造を持っており、モデルにはこれらを統合的に処理する能力が求められます。また、同じ種類の図表であっても作成者によって描き方が大きく異なるため、高い汎用性が必要となります。…

核心:何を提案したのか

本研究では、実世界の技術図表を理解するための大規模な合成コーパス「TechING」と、それを用いて学習されたモデル「LLama-VL-TUG」を提案しています。TechINGは、115,014件の合成画像、対応するMermaidコード、および画像の説明文の三つ組(トリプレット)で構成されています。このデータセットは、フローチャート、ブロック図、状態遷移図、グラフ、C4モデル、シーケンス図、パケット図、クラス図という、実務で頻繁に使用される8種類の主要な図表タイプを網羅している点が最大の特徴です。これにより、従来の単一の図表タイプに特化したデータセットよりも広範な技術ドメインをカバーすることが可能になりました。 提案モデルであるLLama-VL-TUGは、Llama 3.…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む