継続更新

CitiLink-Summ:欧州ポルトガル語の自治体会議議事録を「議題ごと」に要約するためのコーパスとベンチマーク

自治体の会議議事録は意思決定の記録として重要ですが、長く形式的で複数の議題が混在しやすいため、市民が必要箇所を見つけて理解する負担が大きく、議題単位での自動要約を可能にする基盤整備が課題になります。

CitiLink-Summ:欧州ポルトガル語の自治体会議議事録を「議題ごと」に要約するためのコーパスとベンチマーク の図解
論文図解

TL;DR(結論)

  • 自治体の会議議事録は意思決定の記録として重要ですが、長く形式的で複数の議題が混在しやすいため、市民が必要箇所を見つけて理解する負担が大きく、議題単位での自動要約を可能にする基盤整備が課題になります。
  • 欧州ポルトガル語の自治体議事録を収集して議題ごとに手作業で分割し、言語学の背景を持つ注釈者がガイドラインとテンプレートに沿って要約を作成し、段階的な見直しと評価を通じて手書き要約付きコーパス(CitiLink-Summ)として整理します。
  • 生成要約モデル(BART、PRIMERAなど)と大規模言語モデルを、ROUGEやBLEU、METEOR、BERTScoreといった語彙的・意味的指標で評価してベースラインを提示し、欧州ポルトガル語の自治体ドメイン要約における初のベンチマークとして今後の研究と実用化の足場を提供します。

なぜこの問題か

自治体が作成する会議議事録は、地域行政における議論と決定を公式に記録する文書であり、透明性や説明責任の観点から重要です。ところが、議事録は内容が長く、表現が密で形式的になりやすく、複数の議題(本文では「討議の対象」)が連続して記述される構造を持ちます。その結果、市民が関心のある議題に到達するまでに全文を追う必要が生じ、読み進めや検索の負担が増えます。そこで、会議全体を一括で短くするのではなく、議題ごとに短い要約を自動生成できれば、全文を読まなくても主要点を把握しやすくなります。 一方で、この種の要約は単純な短縮では済まず、重要話題の検出、議論の意図の解釈、無関係情報の除去といった複合的な処理が必要だと述べられています。さらに、欧州ポルトガル語のように言語資源が十分でない言語では、行政文書に特化したデータセットや高品質な人手要約が乏しく、モデル開発と評価が進みにくい点が大きな障害になります。論文は、この障害を「高品質な手作業要約を含むデータセットの不足」というボトルネックとして明確に位置付けています。…

核心:何を提案したのか

本研究の提案は、欧州ポルトガル語の自治体会議議事録を対象に、議題ごとの人手要約を付与したコーパスCitiLink-Summを提示し、この領域の自動要約のためのベンチマークを確立することです。議事録は複数自治体から収集され、本文抜粋では6つの自治体(Alandroal、Campo Maior、Covilhã、Fundão、Guimarães、Porto)が明示されています。また、対象期間として2021–2024の行政任期が記載されています。各議事録はまず人手で議題に分割され、各議題に対して手書きの要約が付与されます。 注釈体制としては、言語学の背景を持つ4人の注釈者が要約作成を担当し、2人の専門言語学者が監督したと述べられています。要約はガイドラインに基づき、複数段階の工程で品質を確保する運用が採られています。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む