こんにちは!株式会社Fusicの採用広報チームです。
Fusicが提供するサービスをご紹介するためにスタートした当企画。
前回は、「機械学習ってなに?」「機械学習って具体的に何ができるの?」という
機械学習の大枠をご説明しました。
※前回の記事はこちら
2回目となる今回のテーマは、「画像」です。
この「なんしようと」では、機械学習で扱う画像のタスク(※1)について紐解いていきます。
※1 「タスク」とは、「プログラムが解くべき課題」を意味しています。
では、今回も機械学習チームの石橋にたくさん聞いてみたいと思います!
―石橋くん、本日もよろしくお願いします!今回のテーマは「画像」ということですが、機械学習で扱う画像のタスクにはどのようなものがあるのでしょうか?
石橋:今回は、様々な画像のタスクの中から、現在広く使用されている例を用いながら、以下4つをご紹介します。
・画像分類
・物体検出
・セグメンテーション
・画像生成
―「物体検出」や「画像生成」はなんとなく想像できそうですが…詳しく教えてください!
石橋:では、それぞれの概要と適用例をお話しします。
まずは、「画像分類」です。
画像分類とは、その名の通り画像を分類するタスクです。
例えば、「犬か猫が写っている写真」の場合、
写っている被写体が「犬」なのか、「猫」なのかを判定します。
画像分類を行う場合、判定に使用する機械学習モデルに
あらかじめ判定したい画像(この場合、犬と猫)を学習させ、機械学習モデルが
「この画像は犬」「この画像は猫」と判定をします。
次に、「物体検出」について説明します。
写真の中で「どこに・なにが」写っているかを予測するタスクです。
例えば、「犬と猫が写っている写真」の場合、
犬が写っている領域と猫が写っている領域を予測します。
引用画像:https://arxiv.org/pdf/1512.02325.pdf
物体検出は、医療現場でも用いられていて、
今後も様々な場面での活用が期待されているんです。
―画像分類は「被写体が何か」を分類し、物体検出は「被写体がどこに写っているか」を検出する、ということですね!また、物体検出は、医療現場でも用いられているなんてすごいですね!
石橋:医療分野では、物体検出の研究が盛んに行われています。
例えば、体内にある腫瘍を発見することもできるんですよ。今後の活用や発展が楽しみですね。
では、次に「セグメンテーション」を説明しますね。
「セグメンテーション」とは、画像のピクセルごとに分類を行うタスクです。
分類したピクセルにわかりやすく色付けをしたものが下図です。
下図の場合、道路が紫色、街路樹が緑色、車が青色、ビルや建物が灰色、など
種類別で色分けをしていきます。
引用画像:https://arxiv.org/pdf/2103.11351.pdf
例えば、自動運転技術に応用されています。
自動車を運転する際は、周りにある物体の特徴を識別する必要があるため
セグメンテーションの技術が使用されているんです。
―最近よく耳にする「自動車の自動運転」にも、機械学習の技術が取り入れられているんですね!
石橋:そうなんです。
他にも、オンライン会議ツールなどで使用するバーチャル背景にも
この技術が使われている例もありますよ。
そして最後に「画像生成」です。
これまでに紹介した「画像分類」「物体検出」「セグメンテーション」はいずれも、
実在する写真や画像を用いた技術ですが
画像生成では、実在しない写真(風景や顔など)や画像を作ることができます。
下の写真を見て、なにか気づくことはありますか?
引用画像:https://thispersondoesnotexist.com/
※上記リンクにアクセスすると、ランダムに画像が表示されます。
―特に不自然なところはなさそうですよね。まさか、この写真に写っている人が…??
石橋:そうです。実は、この写真に写っている人は、実在しない人なんです。
厳密にいうと、過去に存在した人や現存する人の大量の顔写真から特徴を学習して、
機械学習モデルが作り出した人なんですよ。
私も初めて知った時にはとても驚きました(笑)
このような生成系の機械学習モデルは研究も進んでいて、
低解像度の画像を高解像度にする研究もあります。
さらに、最近では文章から画像を生成する技術の開発が進んでいます。
「Fusic」「たくさんの人」「笑顔」などのワードを組み合わせて画像を生成したら
どんな画像ができるのか試してみたいですね。
―文章からも画像を生成できるんですね!いろいろなワードを組み合わせてみたいです(笑)では、実際にFusicではこれらの技術をどのように活用しているんですか?
石橋:実際にこれらの技術を活用して、サッカーチームの試合解析を行っています。
実際の試合映像から、ボールを「物体検出」、選手を「セグメンテーション」、
チームの判定を「画像分類」というように、
それぞれの技術を組み合わせることで、試合解析を行うことができるんです。
Fusic独自という視点では、
この試合解析で使用するモデルは毎試合同じものを使うのではなく、
試合に合わせて学習をさせています。
これにより、より精度の高い解析を行うことができます。
FusicにはAWSを活用したシステム構築の知見が溜まっているため、AWSを使用して機械学習の基盤を構築し、
様々な試合に合わせて学習するなど、複雑な機械学習やデプロイを簡易にするMLOps(※2)を導入しています。
AWS事業を展開しているFusicならではなので、たくさんの方に知ってほしいです!(笑)
※2 MLOpsとは、機械学習モデルの実装~運用のライフサイクルを円滑に進めるために築かれる、
機械学習チーム/開発チームと運用チームが協調し合う管理体制(機械学習基盤)のことを指しています。
他にも、Fusicではまだ事例がありませんが、防犯カメラの映像を解析して
怪しい人物を特定するなど、今後挑戦してみたいですね。
また、私は自然言語処理に関わるお仕事を扱うことが多いため、
自然言語処理と画像を組み合わせて、開発をしたいと考えています。
話した言葉から画像を生成してくれたり検出してくれたりしたら面白そうだなと思います。
―ありがとうございます!今回の解説もとても面白くて勉強になりました!では、次回は「自然言語処理」について詳しく教えてください!
石橋:よろしくお願いします!
--
いかがでしたでしょうか?
次回は「自然言語処理」について解説します!
みなさんお楽しみに!
=======
Fusic 機械学習チームでは、案件のご相談を随時受け付けております。
お気軽にお声がけください。
【お問合わせ先】
過去の機械学習記事