お題
唐突ですが、IT業界では12月になるとアドベントカレンダーを書くという慣習があります。
12月1日からクリスマスまでの日数を数える日めくりカレンダーが起源ですが、
IT業界の場合は12月1日から25日まで毎日ブログを投稿するという企画となっています。
※弊社のアドベントカレンダーについてはこちらをご参照ください。
例年各社がこぞってブログを投稿するため、読者として嬉しい反面、
読みたくても読みきれない記事も多々あります…。
こんなときこそAIで問題解決!ということで、今回はAIを使って時短を目指してみます!
実現すること
AIを使って自動で文章要約を行う。
使う技術
Microsoft Researchが発表したUniLMを使用してみます。
AIを使った文章要約には、大きく抽出型・抽象型の2種類があります。
抽出型は、文字通り文章から重要な文を抽出することで要約を行います。
抽象型は、人が要約する時のように文章の意味を踏まえた言い換えも含めて要約を作成します。
UniLMは後者の抽象型の要約で最先端を達成したものです。
結果
以下AIに要約させた結果を貼っていきます。
冒頭で話していたアドベントカレンダーで試してみたいところですが、
エンジニアの専門用語が多いため、
今回はCNN World Newsの記事データを対象にしております。
原文
金曜日の朝、ケンタッキー州の工業団地で巨大な火事が発生し、当局が被害を封じ込めようと働いたため、その地域に濃い煙が噴出した。
市の緊急管理機関のマイク・ワイマー氏によると、
ルイビルのゼネラル・エレクトリック・アプライアンス・パークで午前7時少し前に火災が始まりました。
彼は、負傷者や閉じ込められた者の報告はないと言った。
ビデオは煙と明るいオレンジ色の炎の両方を示しました。
消防士は影響を受けた建物の周りの位置を取り、周辺から水を噴霧しました。
ワイマーは、当局が火災の原因を知らなかったとCNNに語り、少なくとも4つの警報が鳴った。
GEのWebサイトによると、ルイビルアプライアンスパークの施設は、米国の製造業を活性化しています。
公園は大きく、34のサッカー場が施設内の倉庫の1つに収まるようになっています。
要約
所感
また、ケンタッキー州・ルイビルという地名部分が原文では複数の文に跨って説明されていますが、
要約では簡潔につなげた表現として言い換えがなされています。
シンプルで分かりやすいですね。
続いてもう1例の結果を見てみます。
原文
ロンドンの警視庁によると、19歳の男性はトルコから英国に戻ったときに逮捕された後、水曜日にテロ罪で起訴された。
ロンドン北西部出身の英国国民ヤヒヤ・ラシッドは、火曜日にイスタンブールから飛行機で到着した後、
ルートン空港で拘留されたと警察は言った。
彼は、テロ行為の準備のために行動に関与し、
他者がテロ行為を犯すのを支援する意図で行動に関与していると告発されています。
両方の告発は、11月1日から3月31日までの期間に関するものである。
ラシッドは水曜日にウェストミンスター治安判事裁判所に出頭する予定であると警察は述べた。
要約
ロンドン北西部出身の英国国民ヤヒヤ・ラシッドが火曜日にルートン空港で拘留された。彼は、テロ行為の準備において行動に関与していると告発されています。
ラシッドは、水曜日にウェストミンスター治安判事の裁判所に出頭する予定です。
所感
こちらの例でも分かりやすく簡潔にまとめてくれています。
固有名詞もしっかり取り扱えていてすごいですね。
問題点
ここまで書いてきて、実は説明できていないことがあります。
今回使用したAI(UniLM)は、現在日本語に対応されていません。
では、上記の要約はどのように作成したのかというと、以下のような一手間を加えています。
原文 → Google翻訳で英語に変換 → 自動要約 → 結果をGoogle翻訳で日本語に変換
これでも意味が通る結果となっていることはすごいのですが、
われわれとしては日本語の文章を直接要約したいところです。
そのためには、AIに学習させる大量の日本語データが必要となります。
まとめ
AIを使って自然な自動要約が作成できることを確認してみました。
問題点に書いた通り、今回試したAIはまだ日本語対応していない点が残念ですが、
データがあれば学習させることもできますし、別のAIであれば日本語対応しているものもあります。
こういったAIをWebブラウザ上で動かす(例:Chrome拡張機能)ことで、面白いツールが作れそうです。
また、社内文書の整理やSEO対策(適切な説明文の添付)にも有効かと思います。
参考にしたサイト
- Unified Language Model Pre-training for Natural Language Understanding and Generation
- GitHub - microsoft/unilm: UniLM - Unified Language Model Pre-training
最後に
Fusic 機械学習チームでは、案件のご相談を随時受け付けております。
お気軽にお声がけください。