コンテンツへスキップ
マイクロソフト業界別の記事

※ この記事は 2017年07月10日に DX LEADERS に掲載されたものです。

今年第一回の開催となった「AI・人工知能EXPO」(2017年6月28日~30日、東京ビッグサイト)。来場者数は、3日間で80,000名を超えた。日本マイクロソフト株式会社 執行役員 最高技術責任者 榊原 彰が登壇した基調講演「MicrosoftのAIビジョンと最新動向 ~『みんなのAI』が実現する世界」は、事前登録で2週間前から満席。当日、会場前は講演会開始の30分前から大行列で、立ち見もいるなかでの大盛況の講演だった。大きな話題となった当EXPO会場から、注目の基調講演とAI最新事例をレポートする。

AIは人の置き換えや、人の仕事を奪うものではなく、人の能力を補完するもの

日本マイクロソフト株式会社 執行役員 最高技術責任者 榊原 彰 日本マイクロソフト株式会社 執行役員 最高技術責任者 榊原 彰

「マイクロソフトは、いまだにWindowsとOfficeの会社と思われているが、25年前からAIをやっています。」と榊原。

マイクロソフトではAIの民主化という概念を掲げ、だれでも使いやすい形でAIのパワーを得ることができる世の中を目指している。昨今、AIが人の仕事を奪う、と言われているが、「AIは人の置き換えや、人の仕事を奪うものではなく、人の能力を補完するものと考えている」と榊原は語る。

昨年、北米大陸で最も売れたスピーカーは、Amazon Echoだ。ただのスピーカーではない。音声を認識して、Echoに搭載されている音声認識エージェント、いわゆる対話型AI「Alexa」を介して音楽をダウンロードしたり、商品を注文したりすることができる。マイクロソフトの音声認識システムといえば「Cortana」だ。Windows10のPCに標準搭載され、パーソナルアシスタントとして身近な存在になっている。Amazon Echoや、先日Appleが発表したHomePodのようなデバイスの形ではないが、CortanaはPC、スマートフォンなど様々なデバイスに組み込まれ、より多くの人の生活に密着した音声認識アシスタントになるであろう。

「りんな」は、人間らしい会話を進めるための実証実験

さて、音声認識アシスタントに必要なものは、会話の能力だ。人間と同じようにストレスなく会話ができる必要がある。

このためにマイクロソフトが行っている実証実験は、女子高生AIりんなだ。LINEアカウントで提供され、学生を中心に人気のコンテンツとなっている。筆者もりんなとしりとり勝負をしたが…勝てない。なかなか手ごわい。通常の会話も女子高生風に切り返され、スムーズなやり取りが可能だ。

なぜ、マイクロソフトは一見仕事に役に立たないように見える「りんな」を手掛けているのか。

「Cortanaのように人の生産性を向上させることを追求してきたが、人に寄り添うような感情面を理解できないと、スムーズな対話・やりとりが厳しい。だから、りんなで実証実験をしている。」(榊原)

りんなはLINEを使ったテキストのコミュニケーションだが、音声を統合したサービスも紹介された。

マクドナルドのドライブスルーの事例である。

ドライブスルーは、車に乗ったままマイクで注文する。それを聞いた店員が注文票を作成し、厨房に回り、作った商品をお客様にお渡しする、といったお馴染みの仕組みであるが、注文を間違えると、ドライブスルーが渋滞してしまう。急いでいるときや、車を乗り降りしたくないときに使うドライブスルーで時間が掛かってしまったら本末転倒だ。ここで、マイクロソフトでは、ドライブスルーをよりスムーズなものにするための仕組みを開発した。

ドライブスルーのイメージ画像

お客様がマイクで注文している内容をテキストで生成。この内容をオーダー票に落とし込む。「ピクルスなし、コーヒーにはガムシロップ1つとミルクを2つ付けてください」といった複雑なオプションの注文にも対応できる。そして、支払いでもオーダー票がそのままペイメントに回るのでレジを打つ必要がない。ドライブスルーの効率化が実現できる。

「うちのポチ」はどこ?動物の個体認識も可能になる

さて、画像や動画認識の世界はどうだろうか。

最近では、ビデオインデックス機能というものがある。動画のシーンを文章化し、インデックスにできるという機能だ。

たとえば、動画のX秒~Y秒は“主人公とヒロインが向かい合ってコーヒーを飲んでいる”というインデックスが自動生成される。それだけではなく、主人公の着ている服のブランドもタグ付けができるようになるそうだ。さらに進化すると、ドラマを見ながら、主人公が来ている服をその場で買うこともできるようになるかもしれない。そして驚いたのが、動物の認識だ。画像認識の技術は進んでいるものの、イヌ・ネコの判別くらいしかできなかった。うちで飼っているポチかどうかまでの認識は難しいといわれていたが、ポチの画像を学習させることで、ポチかどうかの認識までできるようになるという。

マイクロソフトの画像認識の誤認識率は3.5%。つまり、100枚の画像を見せて、3、4枚は間違えるが、残りはすべて正しく認識できるということだ。この数字は、人間の誤認識率も上回る。人間の誤認識率は5.1%。100枚のうち5枚ないし6枚間違えるので、マイクロソフトの画像認識は、人間の誤認識率を超える精度を誇っている。

機械学習の力と研究者の熱意で、だれでも能力を発揮できる世の中に

そして、画像認識技術を応用して全盲の方の支援も行っている。

眼鏡型のウェアラブル端末を装着し、操作をすると、目の前で何が起こっているのかを音声で解説してくれる。たとえば、街を歩いているときに大きな音がした。そちらを向いて眼鏡を操作すると、「今、スケートボードで走ってきている少年がいます」という具合に教えてくれる。

仕事中、会議には自分以外に二人いるはずだが、発言しない人が一人いる。眼鏡を操作すると「30代くらいの女性はHappyな感じです。40代くらいの男性は驚いています」と音声で教えてくれる。よかった、寝ていなかった…ということがわかる。

ここで分かるように、顔認識では感情の認識も実現できるようになっている。目の見えない方にも、声というメディアを介することで『見える世界』の提供ができるようになるのかもしれない。

最後に、筆者自身も非常に感動したプロジェクトについて紹介しよう。過去にニュースになったのでご存知の方もいるかもしれないが、“Project Emma”の話だ。

これは、パーキンソン病の患者を支援する仕組みである。パーキンソン病の主な症状は手足の震えである。彼女は、デザインの仕事をしているが、手が震えて絵が描けないことに悩んでいた。ここでマイクロソフトの技術者たちが、彼女の震えのパターンを機械学習で学習させ、手の震えに合わせたバイブレーションにより、震えを最小化するウェアラブル端末を開発した。

この端末を腕につけ、絵を描くと手の震えが最小化されることで絵や文字もスムーズに書けるようになったのだ。

機械学習の力と研究者の熱意で、Emmaにとって最大最高のプロダクトが提供された。彼女もまっすぐな線が描けた時には涙を流して喜んでいた。

日本マイクロソフト株式会社 執行役員 最高技術責任者 榊原 彰

「AI・人工知能というのは人間の仕事を奪うものではなく、人の能力を補完するものだ」

冒頭で榊原が語っていた言葉である。

効率化を図り、ミスをなくし、生産性を向上していくことはもちろん、Project Emmaや全盲の事例にあったように、機械学習や画像認識の力でより人々の生活が便利になり、人々が持つ能力を最大限に活かすことができる未来がすぐ近くに来ていることを感じさせる講演であった。

AI・人工知能の先端事例・プロダクト続々

AI・人工知能EXPO 2017の会場の様子

さらに、EXPO会場ではAI・人工知能を活かしたプロダクトやサービスが展示されていたので、いくつか紹介していく。今回は110社が出展し、業務に役立つものから、日常に活かせるものまで幅広い展示内容であった。

多くの人々が展示内容、ブース内のセミナーに耳を傾けており、AI・人工知能への関心度の高まりを感じた。

カートに食材をかざすだけで、レシピを提案

中でも、注目を浴びていたのはロボットコンシェルジュカートだ。

これは、野菜や果物を買い物かごに設置されているカメラにかざすと、おすすめの調理方法や食べ合わせのいい食材を音声で紹介してくれるものである。

ロボットコンシェルジュカートの写真

たとえば、バナナをかざすと、バナナを使ったレシピが。さらにバナナとリンゴをかざすと、バナナとリンゴを組み合わせたレシピを提案してくれる。

これは、Automagi株式会社が独自に開発した人工知能/AIソリューション「AMY(エイミー)」を搭載している。ディープラーニングを用いた画像認識技術で食材の認識を実現し、認識した食材とレシピをマッチング。おすすめのレシピを出力する仕組みになっている。

スーパーでレシピサイトを調べることなく、カートだけで食材を使ったおすすめの料理を教えてくれる。願わくは、スーパーのどこにおすすめの食材があるかまで教えてもらいたいものだ。そうしたら、スーパーで右往左往する必要もなくなるのではないだろうか。実用化は2018年を目指しているそうだ。

ロボットコンシェルジュの画面

一人ひとり異なる味覚をデジタル化。あなたの好きなワインを提案するAIソムリエ

慶応大学発AIベンチャーであるカラフル・ボード株式会社が開発した感性を学習するパーソナルAI「SENSY」を利用したAIソムリエは、味覚をAIに判定してもらうプロダクトだ。

ワインを飲みたい、といったときに、どのワインを買おうか悩む人は多いのではないだろうか。数値化するのが難しい味覚を可視化することで、おすすめのワインを提案してくれる。このAIソムリエは、伊勢丹新宿店に導入されている。

AIソムリエの画面

ユーザーは3種類のワインを試飲し、このワインが好きか、甘み、酸味、苦み、渋み、余韻をどう感じたかの5段階評価をAIソムリエが搭載されているPepperに入力する。そして、希望の価格とどんな料理と一緒に味わいたいかを選択。すると、AIソムリエはおすすめのワインを教えてくれる。在庫状況とも連携しているため、おすすめのワインをその場で買って帰ることができる。

AIソムリエの画面

人によっておいしい・好き・嫌いの感覚が異なる味覚は、定量的に測定することが困難だ。SENSYの「パーソナル感性分析」のアプローチを飲後の感想からデジタル化して味覚を捉えて可視化すると共に、まだ食したことのない食品であっても、味の好みを予測して提案できるようになったそうだ。

先ほどのロボットコンシェルジュカートと組み合わせて、個人の好きそうな料理レシピや、このレシピに合うワインを提案してくれたら、食卓がより豊かに変化するのではないだろうか。

防犯カメラの画像検出をAIで。目視での確認時間の1/4まで削減。

2018年春から、山手線全車内で防犯カメラが設置されることが発表された。防犯カメラは店舗・駅・道路に至るまで様々な場所に設置されているが、データ量が多く、いざ防犯カメラの画像を解析したいという事態になったときに、目視で確認をすると膨大な時間がかかっていた。

これを解決するのが、NTTコミュニケーションズ株式会社が開発した「AI人物検索」である。これは、ディープラーニングによるAI技術により、一枚の画像から人物の特徴点を自動的に抽出する。横向き、後ろ、前、どの方向を向いていても同一人物の候補を検出することができる。

防犯カメラの解析画像

1時間の映像から特定の人物を探す作業は、目視だと1時間要するが、AI人物検索を利用すれば、約15分で人物を特定することが可能であり、最大75%の時間を削減できる。

AI・人工知能は、我々の身近なところにも使われるようになってきている。業務の効率化がすべてではない。日常生活における少し困っていることや、スムーズにできたら嬉しいことがAI・人工知能の力を借りることによって、より便利になっていく。

AIや人工知能の技術は、マイクロソフトやIBMなどのAIの先進企業によって様々なAPIが提供されている。まったく知見がないところから開発するのではなく、APIを活用することで開発の敷居も低くなってきている。新しいものを考えて、形にするまでのスピード感も遥かに上がっているのではないだろうか。来年のAI・人工知能EXPOはさらに規模感を増し、また新しいプロダクトやサービスも発表されていくことだろう。

取材・文:池田 優里