AI研究 2026-01-29 タグ: cs.CL, cs.AI

ベンガル語のヘイトスピーチ検出を強化する大規模データセット「BengaliSent140」の登場

ベンガル語の感情分析とヘイトスピーチ検出において、既存のデータセットは規模が小さくドメインが限定的であるという課題を解決するため、7つの公開リソースを統合し、139,792件のユニークなテキストを含む大規模な二値分類データセット「BengaliSent140」を構築しました。

論文図解

TL;DR（結論）

ベンガル語の感情分析とヘイトスピーチ検出において、既存のデータセットは規模が小さくドメインが限定的であるという課題を解決するため、7つの公開リソースを統合し、139,792件のユニークなテキストを含む大規模な二値分類データセット「BengaliSent140」を構築しました。多様なソースから収集された「毒性」「虐待的」「サイバーいじめ」などの不統一なラベルを、「ヘイト（1）」と「非ヘイト（0）」という統一基準でマッピングし、68,548件のヘイトと71,244件の非ヘイトという均衡したクラス分布を実現することで、深層学習モデルが堅牢な表現を学習できる基盤を整えました。広範なベースライン実験の結果、古典的な機械学習手法を深層学習モデルが一貫して上回り、特にトランスフォーマーベースのBERTが91%という最高の正解率を記録したほか、トランスフォーマー以外のモデルではDilated Convolutionが88%の精度を達成し、大規模かつ多様なデータの有効性が実証されました。

なぜこの問題か

ベンガル語は世界で2億3000万人以上の話者を抱える主要な言語であり、バングラデシュやインドを中心にデジタルプラットフォームの利用が急速に拡大しています。オンライン上での意見交換や感情の共有が活発になる一方で、負の感情やヘイトスピーチ、虐待的な表現の増加が深刻な社会問題となっています。特にバングラデシュでは、政治的・宗教的な威嚇や、特定の性別を標的とした嫌がらせが頻発しており、思春期の女性が不当に標的とされるケースも少なくありません。また、選挙や政治運動、抗議活動の際には、感情的で極端に偏った議論が展開され、攻撃的な言語やヘイト主導のナラティブが一般的になっています。テレビの討論番組などがこうした動向を増幅させることもあり、社会的な不安の兆候を早期に察知し、安全なオンライン環境を維持するためには、自動化された感情分析とヘイトスピーチ検出システムの構築が不可欠です。しかし、ベンガル語における感情分析の研究は、高品質で大規模な注釈付きデータセットの不足によって大きく制限されてきました。既存のデータセットの多くは、サンプル数が数千件程度と小規模であったり、ソーシャルメディアのコメントなど特定のドメインに限定されていたりします。…

核心：何を提案したのか

本研究では、ベンガル語のヘイトスピーチおよび非ヘイトスピーチの分類を支援するために、大規模な二値感情データセット「BengaliSent140」を提案しました。このデータセットの名称は、約14万件のユニークなテキストサンプルを含んでいることに由来しています。最大の特徴は、KaggleやGitHubで公開されている7つの異なるベンガル語テキストコーパスを統合し、それらの多様で一貫性のない注釈スキームを「ヘイト（1）」と「非ヘイト（0）」という統一された二値分類フレームワー…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。