SteuerEx は、実際のドイツ大学税法試験から構築された公開ベンチマークです。これに特化した 28B の SteuerLLM は、72B 級の汎用 instruction-tuned モデルや GPT-4o-mini を上回り、税法ではサイズより専門特化が効くことを示しました。
既存の法務ベンチマークは、短答、分類、二値判定、あるいは人工的な設問に偏りがちです。これでは、大学試験や実務で求められる「条文を引く」「論点を順序立てる」「部分点が付く形で法的推論を積む」といった能力が見えにくい。
論文の提案は2本立てです。1つ目は SteuerEx。2016年から2024年までのドイツ大学税法試験から、専門家が検証した 115 問を取り出し、6つの主要税法領域に整理した公開ベンチマークです。企業課税、所得税、付加価値税、財政手続、パートナーシップ課税、税法基礎を跨いでいます。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related