既存のチップ設計ベンチマークは飽和しており、実際の産業ワークフローを反映できていない。本研究は、Verilog生成、デバッグ、参照モデル生成の3つの重要タスクを評価する「ChipBench」を提案する。最新のClaude-4.5-opusでも低スコアに留まる難易度の高い44のモジュールを含み、LLMの真の実力を測定する。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related