画像とテキストをまたぐ Concept Bottleneck Model(CBM)では、概念が正しく検出されるだけでは不十分で、概念ベクトルの中に本来の概念以外の予測情報が紛れ込む「漏洩」を抑えないと説明の忠実性が崩れます。 提案手法 f-CBM は、漏洩を直接減らす微分可能な損失と、線形層より表現力の高い KAN 予測層を組み合わせ、概念検出・最終精度・漏洩低減の三つを同時に押し上げる設計を取ります。 実験では、4つのデータセットと2種類の CLIP バックボーンで、競合手法より総合順位が良く、概念介入でも唯一安定して改善するため、「見えている概念説明が本当に意思決定に効いている」状態へ一歩近づいた点が重要です。
人が読める概念を経由して分類する Concept Bottleneck Model は、説明可能AIの中でも「後から理由を付ける」のではなく、モデルの内部経路そのものを理解可能にする設計として期待されてきました。視覚分野ではかなり研究が進み、言語分野でも少しずつ広がっていますが、画像とテキストを同時に扱うマルチモーダル設定では、まだ手法の蓄積が薄いままです。
提案の中心は faithful Multimodal Concept Bottleneck Model、略して f-CBM です。焦点は二つあります。第一に、概念表現へ余分な予測信号が入り込む leakage を、学習中に明示的に減らすこと。第二に、概念から最終クラスへ写す層を線形写像のまま固定せず、より表現力のある構造へ置き換えて、概念層に無理な情報圧縮を押し付けないことです。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related