AI研究 2026-03-21 タグ: cs.LG, cs.AI

SOL-ExecBench：GPUカーネル最適化を「ハード限界との差」で測る新基準

SOL-ExecBench は、AI エージェントが GPU カーネルを最適化するとき、単なるソフトウェア実装比の高速化ではなく、ハードウェアの理論上限までどこまで近づけたかで測るベンチマークです。

論文図解

TL;DR（結論）

SOL-ExecBench は、AI エージェントが GPU カーネルを最適化するとき、単なるソフトウェア実装比の高速化ではなく、ハードウェアの理論上限までどこまで近づけたかで測るベンチマークです。
235 問の CUDA カーネル問題を 124 の実運用・新興モデルから切り出し、Blackwell GPU を前提に解析的な上限を出す SOLAR と、抜け道利用を防ぐ評価ハーネスまでそろえています。
重要なのは、評価指標を「既存実装に勝てたか」から「残る最適化余地をどれだけ埋めたか」へ変えたことです。GPU カーネル最適化をエージェントの仕事として測るには、この視点がかなり本質的です。

なぜこの問題か

カーネル最適化の難しさは、モデルの多様化とハードウェア進化が同時に進むことにあります。今の最前線モデルは、密な変換器だけではありません。専門家混合、状態空間モデル、線形注意、画像・音声・動画をまたぐ複合モデルまで広がっています。すると必要な GPU カーネルの種類も増え、しかも GPU 世代ごとに効く最適化が変わる。ここで「あるソフトウェア実装より速い」だけを目標にすると、本当にハード上限へ近づいたかが分からなくなります。

核心：何を提案したのか

提案は三つあります。第一に、235 個の CUDA カーネル最適化問題からなる benchmark 本体です。124 の実運用・新興 AI モデルから取り出し、言語、拡散、視覚、音声、動画、混成系をカバーし、前向き計算と逆伝播、複数の数値精度まで含めています。第二に、SOLAR という解析パイプラインで、PyTorch プログラムからハードウェア依存の理論上限を導く仕組みです。第三に、候補解が基準実装と理論上限の差をどれだけ埋めたかを測る SOL Score です。

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。