お題
皆様、コロナ禍の最中いかがお過ごしでしょうか。弊社では4月6日(月)より原則テレワークとなり、現在も継続中です。
加速度的に普及したテレワークですが、
- テレワークになって生産性はどうなのか?
- メリット・デメリットはなにか?
- アフターコロナもテレワークを継続するのか?
といったアンケートを多く目にします。
アンケートは大きく選択式と記入式に分かれると思いますが、今回はAIを使って記入式のアンケートの結果評価を効率的に行えないか実験してみました。
実現すること
AIを使って記入式アンケートの感情分析(ポジティブ・ネガティブ判定)を行い、結果評価に活用する。
使う技術
汎用言語表現モデルBERTを使用します。
BERTは2018年10月にGoogleによって発表された事前学習済モデルであり、様々な自然言語処理(テキスト系の処理)の課題について高い性能をもつことが知られています。
今回使用したのは日本語事前学習済BERTですが、これは日本語のWikipediaの膨大なデータをすでに学習済みのモデルになります。
このBERTに、Twitter日本語評判分析データセット(Twitterの文章とその文章に含まれる感情データ)を学習させました。対象の文章を「ポジティブ」・「ネガティブ」・「どちらでもない」のどれかに分類するように学習します。
結果
学習させたモデルを使い、実際に「テレワークに対するアンケート」の結果の感情分析を行ってみました。
以下、結果を抜粋します。グラフタイトルが「記入式アンケートの結果の文章」、円グラフが「AIが予想した感情の確率」です。
※使用したアンケート結果は公開されていた株式会社トライバルメディアハウス様のアンケート結果を使用させていただきました。
ポジティブな例
「ストレス軽減」、「生産性向上」など非常にポジティブな回答です。AIの予測もポジティブである確率が98.5%とかなり高くなっています。
こちらの回答についても、先の例ほどわかりやすいキーワードはないものの、全体としてポジティブな回答であることをAIが判断できています。
ネガティブな例
テレワークでよくある問題かと思います。ネガティブと判断できています。
こちらもテレワークあるあるな課題です。ネガティブな意見であると捉えることができています。
AIが誤判定している例(本来ネガティブな意見なのにAIはポジティブとしてしまった)
結果としては誤判定なのですが、個人的に興味深いと感じた例です。
内容は「〜大変」ということで、ネガティブな意見として回答されています。
一方で「子供の世話」・「家事と仕事の両立」といったキーワードは人によってはポジティブな面もある気がします。
実際に弊社内で「テレワークになって家族と過ごす時間が長くなった」とポジティブにとらえている社員もいました。
上記のようなことも踏まえて、AIがポジティブ・ネガティブで悩んだ結果「どちらかといえばポジティブ」と判断したのかもしれません。
まとめ
AIを使って記入式のアンケートの回答を「ポジティブ」・「ネガティブ」・「どちらでもない」に分類できました。
今回は分類するだけで終わってしまいましたが、以下のような活用もできるのではないかと考えています。
- 多数回答された記入回答を自動的に「ポジティブ」・「ネガティブ」・「どちらでもない」に分類し、整理できる。
- 「ポジティブな回答例」、「ネガティブな回答例」を簡単に抜粋できる。
- 記入式の結果と選択式の結果を比較評価できる。(ex. 選択式ではポジティブが多数派だったが、記入式だとネガティブが多くなっている等)
また、学習するデータ次第で「ポジティブ」・「ネガティブ」だけでなく、「喜び」・「怒り」などもっと詳細な感情の分析もできるかと思います。
参考にしたサイト
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- huggingface/transformers の日本語BERTで文書分類器を作成する
最後に
Fusic 機械学習チームでは、案件のご相談を随時受け付けております。
お気軽にお声がけください。
【お問い合わせ先】
sugimoto@fusic.co.jp
(担当:先進技術部門 機械学習チーム 杉本)