AI研究 2026-01-29 タグ: cs.CV, cs.LG

EfficientNetB2を用いた手法によるFER-2013データセットでの顔の表情認識

本研究では、計算資源が限られた環境でも動作可能な顔の表情認識システムを実現するため、EfficientNetB2を基盤とした軽量なモデル構成を提案し、難易度の高いFER-2013データセットを用いてその有効性を検証しました。

論文図解

TL;DR（結論）

本研究では、計算資源が限られた環境でも動作可能な顔の表情認識システムを実現するため、EfficientNetB2を基盤とした軽量なモデル構成を提案し、難易度の高いFER-2013データセットを用いてその有効性を検証しました。 2段階の学習プロセスやラベルスムージング、AdamW最適化といった現代的な手法を組み合わせることで、テスト精度68.78%を達成し、従来の巨大なモデルに匹敵する性能をわずか920万個のパラメータ数で実現しています。従来のVGG16ベースの手法と比較してパラメータ数を約10分の1に削減することに成功しており、モデルの安定した学習ダイナミクスと高い汎用性により、リアルタイム処理やエッジデバイスへの展開に適した設計となっていることが示されました。

なぜこの問題か

顔の表情認識（FER）は、人間のコミュニケーションにおいて感情や意図、社会的な手がかりを伝える非常に重要な要素です。この技術は、インテリジェントな教育システム、感情に配慮したヒューマンコンピュータインターフェース、メンタルヘルスケア、ソーシャルロボティクス、監視システム、顧客行動分析など、幅広い分野での応用が期待されています。信頼性の高い表情認識システムが構築できれば、テクノロジーが人間の感情に対してより敏感に反応できるようになり、相互作用の質を大幅に向上させることが可能になります。しかし、深層学習の進歩にもかかわらず、制御されていない現実世界の環境で動作する表情認識システムを作成することは依然として困難な課題です。現実のシナリオで撮影された画像は、解像度が低く、照明の変化や頭部のポーズの違い、遮蔽物、そして表情の極めて微妙な変化といった問題を抱えています。また、感情のラベル付けは本質的に主観的なものであり、クラウドソーシングによって生成されたデータセットには、不正確でノイズの多いアノテーションが含まれることが一般的です。…

核心：何を提案したのか

本研究の核心は、モデルの精度とパラメータ効率のバランスを最適化する「複合スケーリング戦略」を採用したEfficientNetB2をベースとした、軽量で堅牢な表情認識パイプラインの提案です。このモデルは、ImageNetで事前学習されたEfficientNetB2を特徴抽出器として利用し、その後にグローバル平均プーリング層、ドロップアウト率0.5の層、そして7つの感情カテゴリに分類するためのソフトマックス関数を備えた全結合層を配置した構成となっています。この設計により、総パラメータ数は約920万個に抑えられており、これは標準的なVGG16ベースのモデル（約1億3800万個）と比較して、桁違いに小さい規模です。学習手法においては、2段階のトレーニングスケジュールを導入しました。…

続きはログイン/プランで閲覧できます。

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。