KAPSOは、自然言語の目標と評価方法を入力として、プログラムの着想、合成、実行、評価、学習のサイクルを自律的に繰り返すモジュール式のフレームワークであり、プログラム合成を単なるコード生成の終着点ではなく、測定可能な目標に向けた継続的な最適化プロセスとして再定義している。
KAPSOは、自然言語の目標と評価方法を入力として、プログラムの着想、合成、実行、評価、学習のサイクルを自律的に繰り返すモジュール式のフレームワークであり、プログラム合成を単なるコード生成の終着点ではなく、測定可能な目標に向けた継続的な最適化プロセスとして再定義している。 Gitネイティブの実験エンジンによる試行の分離と再現性の確保、多様な情報源を統合したMediaWikiベースの知識システム、そして過去の失敗から教訓を抽出する認知メモリ層を組み合わせることで、長期的な開発における信頼性と効率的な探索を両立させている。 MLE-BenchやALE-Benchといった難易度の高いベンチマークにおいて、データサイエンスのワークフローからアルゴリズムの最適化まで幅広いエンジニアリング能力を実証しており、特定のドメインに依存せず評価指標に基づいた自律的な改善を可能にする。
専門家が特定のソフトウェアを構築しようとする際、その意図を実際に動作し最適化されたコードに変換するには、現実の環境での繰り返しの試行錯誤が不可欠である。特にデータサイエンスやAIプログラムの分野では、コードだけでなくデータや評価指標の管理が極めて複雑であり、単に「動く」ものを作るだけでなく、精度や効率性を向上させるための継続的な改善が求められる。既存の大規模言語モデル(LLM)をベースとしたコーディングエージェントは、コードを書くコストを劇的に削減するものの、長期的な実行ループにおいては依然として多くの課題を抱えている。一般的な失敗モードとして、反復の過程で実験の状態を失ったり、同じ統合エラーを何度も繰り返したり、デバッグが脆弱であったりすることが挙げられる。また、リポジトリ、ドキュメント、内部のプレイブック、あるいは過去の試行から得られるはずの専門的なエンジニアリング知識を、適切に再利用できないという課題も深刻である。実用的な進歩のためには、単なるエラー修正にとどまらず、評価結果に基づいた標的型の改善を一貫して適用できる能力が不可欠である。…
本論文では、明示的な評価境界の下で実行に基づいたプログラムの最適化を行うフレームワーク「KAPSO」を提案している。KAPSOにおいて、プログラム合成はプロセスの終着点ではなく、精度や堅牢性、効率性といった測定可能な目標を達成するための長期的な最適化ループ内の一つの操作として位置づけられている。このフレームワークは、3つの主要なコンポーネントを密接に連携させることで、最適化ループの信頼性と再利用性を高めている。第一に、Gitネイティブの実験エンジンが各試行を独立したブランチとして分離し、コードの変更、ログ、評価出力を再現可能な成果物として保存する。これにより、各反復の来歴が明確に保持され、過去の状態への回帰や比較が容易になる。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related