AI研究 2026-01-29 タグ: cs.SE, cs.LG

LogSieve：LLMによるCIログ分析をサステナブルにするタスク認識型ログ削減手法

継続的インテグレーション（CI）におけるログの肥大化は、LLMを用いた分析のコストと環境負荷を増大させている。本研究では、根本原因分析（RCA）に不可欠な情報を保持しつつ、不要な行をフィルタリングする軽量な手法「LogSieve」を提案し、AndroidプロジェクトのGitHub Actionsログを用いてその有効性を検証した。 LogSieveは平均で行数を42%、トークン数を40%削減しながら、意味的な忠実度（CosineおよびGPTScoreで0.93）と高い診断精度を維持し、構造重視の既存手法であるLogZipを上回る性能を示した。これにより、LLM推論前のデータ削減を通じて計算コストとエネルギー消費を抑え、持続可能なCI自動化を実現する。埋め込みベースの分類器（BERTやLLaMA3等）を活用することで、97%という人間に近い精度で重要行の自動識別が可能である。この手法は特定のLLMに依存しない汎用的な前処理レイヤーとして機能し、実用的な開発現場でのデバッグ支援やパイプラインの監視を効率化し、グリーンなソフトウェアエンジニアリングに貢献する。

論文図解

TL;DR（結論）

なぜこの問題か

継続的インテグレーション（CI）ワークフローにおいて、ログはビルドの失敗診断やパイプラインのデバッグ、システムの観測性を維持するために不可欠なリソースである。しかし、近年のソフトウェア開発の大規模化に伴い、ログの量と冗長性が増大し続けており、人間による手動の確認作業だけでなく、自動化された分析ツールにとっても大きな負担となっている。特にGitHub Actionsのようなエコシステムでは、ログは膨大でノイズが多く、構造も緩やかであるため、効率的な処理が極めて困難である。Androidプロジェクトにおいては、多段階のビルドやテストパイプラインが複雑で不均一なログを生成し、その大部分が情報価値の低い内容で占められているという特有の課題がある。先行研究では、Androidアプリのログはメンテナンスが不十分で解析が難しいことが指摘されており、これがCIワークフローの複雑さを助長している。近年、大規模言語モデル（LLM）がソフトウェアエンジニアリングの自動化に導入され、失敗検知や根本原因分析に活用されているが、LLMは入力の長さに応じて推論コストや遅延、環境負荷が増大する。…

核心：何を提案したのか

本研究では、LLMによる分析をサステナブルにするためのタスク認識型ログ削減手法「LogSieve」を提案している。LogSieveは、根本原因分析（RCA）に焦点を当て、下流の推論タスクに関連するコンテンツを保持しながら、情報量の少ない行をフィルタリングする軽量な技術である。従来の手法がログの構造的な重複排除や圧縮を目的としていたのに対し、LogSieveは「意味の保存」を最優先事項としている。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。