継続更新

Ostrakon-VL:飲食・小売店向けドメインエキスパートMLLMに向けて

飲食・小売店舗(FSRS)の現場では、監視カメラのノイズや複雑な推論要求により汎用モデルの性能が低下するという課題がありましたが、本研究ではQwen3-VL-8Bを基盤としたドメイン特化型モデル「Ostrakon-VL」を開発しました。

Ostrakon-VL:飲食・小売店向けドメインエキスパートMLLMに向けて の図解
論文図解

TL;DR(結論)

飲食・小売店舗(FSRS)の現場では、監視カメラのノイズや複雑な推論要求により汎用モデルの性能が低下するという課題がありましたが、本研究ではQwen3-VL-8Bを基盤としたドメイン特化型モデル「Ostrakon-VL」を開発しました。 高品質な学習データを抽出する多段階パイプライン「QUAD」により、元のデータの約20分の1という極めて高い情報密度を持つ340万件のコーパスを構築し、さらに業界初の専用ベンチマーク「ShopBench」を導入してモデルの堅牢性を厳格に評価しました。 検証の結果、Ostrakon-VLはShopBenchで平均スコア60.1を記録し、パラメータ数が圧倒的に多いQwen3-VL-235B-A22B(59.4)や同規模のベースモデル(55.3)を凌駕する、極めて優れたパラメータ効率と実用的な推論能力を実証しました。

なぜこの問題か

飲食・小売店舗(FSRS)のドメインにおいて、マルチモーダル大規模言語モデル(MLLM)を実用化するには、主に三つの深刻な障壁が存在しています。第一に、汎用的なMLLMの能力とFSRS特有の要求事項との間にある「能力レベルの不一致」です。店舗の現場では、単なる物体の認識だけでなく、装飾品と運営上の掲示物を区別したり、窓ガラスの反射や低解像度のテキスト、動きによるブレ、一時的な遮蔽物といった過酷な条件下で視覚的意味を解釈したりする高度な推論が求められます。しかし、既存の汎用モデルはこうしたドメイン固有の視覚的セマンティクスを解釈する訓練が不足しており、重要な局面で信頼性の低い出力を生成する傾向があります。 第二に、現実世界のデータに含まれる「ノイズと不均一性」の問題です。FSRSのデータは、規制検査用の端末や低解像度の監視カメラ、個人のモバイル端末など、多種多様なデバイスから収集されます。これにより、視点や解像度、環境条件が極端に異なり、圧縮ノイズや照明の影響を強く受けた不安定なデータ群となります。また、メタデータの不整合や冗長性、アノテーション基準の経時的な変化も、モデルの安定した学習を妨げる要因となっています。…

核心:何を提案したのか

本研究の核心は、FSRSドメインにおける知覚と推論のギャップを埋めるための、包括的かつ体系的なフレームワークを提案したことにあります。その中心となるのが、Qwen3-VL-8Bをベースに開発されたドメイン特化型MLLMである「Ostrakon-VL」です。このモデルは、汎用的な理解能力を維持しつつ、店舗運営における複雑なシナリオ下での意思決定を支援するために最適化されています。単なるファインチューニングに留まらず、ドメイン特有の視覚的特徴を捉えるための深い知識注入が行われています。 また、モデルの性能を客観的かつ精密に評価するための基盤として、業界初の公開ベンチマーク「ShopBench」を構築しました。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む