AI研究 2026-02-28 タグ: cs.CL, cs.AI, cs.LG

SteuerLLM：税法では「大きい汎用モデル」より「小さい専門モデル」が勝つ

SteuerEx は、実際のドイツ大学税法試験から構築された公開ベンチマークです。これに特化した 28B の SteuerLLM は、72B 級の汎用 instruction-tuned モデルや GPT-4o-mini を上回り、税法ではサイズより専門特化が効くことを示しました。

論文図解

TL;DR（結論）

SteuerEx は、実際のドイツ大学税法試験から構築された初の公開ベンチマークで、115問・6領域・部分点つき評価という、かなり現実的な設定を採っています。
SteuerLLM は、その試験素材から作った合成学習データと block expansion 型の適応で学習した 28B モデルで、28%±2 を記録し、Qwen2.5-72B-it の 19%±3、GPT-4o-mini の 22%±2、Gemma-3-27B-it の 23%±2 を上回りました。
最上位は DeepSeek-R1-671B の 39%±3 ですが、28B の専門モデルが多くの大規模汎用モデルを抜いたことから、税法では「サイズ」より「専門特化」が支配的だと読めます。

既存の法務ベンチマークは、短答、分類、二値判定、あるいは人工的な設問に偏りがちです。これでは、大学試験や実務で求められる「条文を引く」「論点を順序立てる」「部分点が付く形で法的推論を積む」といった能力が見えにくい。

論文の提案は2本立てです。1つ目は SteuerEx。2016年から2024年までのドイツ大学税法試験から、専門家が検証した 115 問を取り出し、6つの主要税法領域に整理した公開ベンチマークです。企業課税、所得税、付加価値税、財政手続、パートナーシップ課税、税法基礎を跨いでいます。

続きはログイン/プランで閲覧できます。

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。