継続更新

SWE-World:Dockerフリー環境におけるソフトウェアエンジニアリングエージェントの構築

従来のソフトウェアエンジニアリングエージェントは、コード実行やテストのためにDockerなどの重いコンテナ環境に依存しており、環境構築の失敗や膨大な計算リソースの消費が、大規模な学習や評価を妨げる深刻なボトルネックとなっていました。

SWE-World:Dockerフリー環境におけるソフトウェアエンジニアリングエージェントの構築 の図解
論文図解

TL;DR(結論)

従来のソフトウェアエンジニアリングエージェントは、コード実行やテストのためにDockerなどの重いコンテナ環境に依存しており、環境構築の失敗や膨大な計算リソースの消費が、大規模な学習や評価を妨げる深刻なボトルネックとなっていました。 本研究が提案する「SWE-World」は、物理的な実行環境を大規模言語モデルによる学習済みの代替モデル(サロゲートモデル)に置き換えることで、Dockerを一切使用せずにエージェントの訓練、評価、そして推論時の最適化を可能にする革新的なフレームワークです。 実験では、Qwen2.5-Coder-32Bの解決率を初期の6.2%から最大68.2%まで大幅に向上させることに成功し、物理的な実行を伴わないシミュレーション環境での学習が、リソース制約の厳しい環境下でも高度なソフトウェア修正能力を実現することを証明しました。

なぜこの問題か

現代のソフトウェアエンジニアリング(SWE)タスクにおいて、大規模言語モデル(LLM)を活用したエージェントは、複雑なコード修正を自律的に行う能力を見せ始めています。しかし、これらのエージェントを効果的に訓練・評価するためには、コードを実際に実行してそのフィードバックを得るための「実行環境」が不可欠です。従来の手法では、各タスクに対して依存関係を完全に解決した隔離環境をDockerなどのコンテナ技術を用いて構築してきましたが、このパラダイムには主に3つの深刻なスケーラビリティの限界が存在します。 第一に、データのスケーラビリティです。現実世界のGitHubリポジトリやプルリクエストの多くは、依存関係の設定が極めて複雑であったり、環境が不安定であったりするため、コンテナ内でのビルドや実行が困難なケースが多々あります。これにより、利用可能な学習データが大幅に制限されてしまいます。第二に、訓練のスケーラビリティです。特に強化学習(RL)のような反復的な最適化プロセスでは、膨大な数のDockerイメージを管理・配布し、並列でコンテナを起動し続ける必要があり、学術機関などのリソースが限られた環境ではインフラコストが過大になります。…

核心:何を提案したのか

本研究の核心は、物理的な実行環境を、エージェントと環境の相互作用データを学習した「代替モデル(サロゲートモデル)」に置き換えるという発想にあります。これを実現するのが、Dockerフリーなフレームワークである「SWE-World」です。SWE-Worldは、エージェントがコードを修正し、その結果を確認するという一連のループを、実際のプログラム実行なしに大規模言語モデルによる予測のみで完結させます。 具体的には、エージェントが行うアクションを「軽量な操作」と「重量な実行」の2種類に分類し、それぞれに最適な処理を割り当てます。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む