デザイン思考で行こう!

Life will find a way, we'll find a way technology lives.

2017年09月

『新しいiPhoneはなぜ画期的か』で紹介したフィル・シラーの「ポケットに入る電話で、ニューラルエンジンがビルトインされたA11 Bionicが顔認証をしているんだ」という言葉を解説します。

・次はAIが動くスマートフォンの戦い
・カメラメーカーが注目すべきこと 

解説:新しいiPhoneはなぜ画期的か→ Wedge Infinityへ 

記事の更新はTwitter (@kyosukek)でお知らせします。

9月12日に発表された新しいiPhoneは、事前に多くの情報がリークされていたこともあって、大きなサプライズはないだろうと思いながら発表のライブ中継を見ていました。

しかし、上級副社長のフィル・シラーは、iPhone 8 Plusのカメラのポートレートモードに追加された、ポートレートライティングという機能の説明で、「機械学習が顔を特徴づける目印をつくる」と「機械学習」という言葉を使いました。そして、iPhone Xの紹介になって、Face ID(顔認証)のために、ニューラルネットワークを開発したと話しました。

ティム・クックは、次の10年のテクノロジーの道を示すスマートフォンの未来として、iPhone Xを紹介しました。そして、フィル・シラーが興奮を隠しきれない様子で「我々はすごいこと(big deal)をやったんだ」と笑いながら言ったように、確かに、新しいiPhoneは画期的なスマートフォンです。

それは、もちろん、遅ればせながら有機ELディスプレイやワイヤレス充電を備えたからでも、ホームボタンを完全に排除したからでもありません。そして、顔認証の機能でもありません。それは、フィル・シラーが次のように表現しました。

「ポケットに入る電話で、ニューラルエンジンがビルトインされたA11 Bionicが顔認証をしているんだ」

9/20 追記:Wedge Infinityで解説しました。→ Wedge Infinityへ

記事の更新はTwitter (@kyosukek)でお知らせします。
このエントリーをはてなブックマークに追加

では、テレビを再定義してみましょう。
「ソフトウェアでハードウェアのコモディティ化を防ぐ、あるいはソフトウェアによってハードウェアを再定義する」ためにAIを応用するという取り組みは、自動運転車を除けばまだまだこれからで、日本のメーカーにも、それぞれの産業分野(ドメイン)において大きなチャンスが残されています。

- 中国を見よ!AIスピーカーをやっている場合ではない理由
テレビの再定義というと、Netflixなどオンデマンドの配信サービスや、Chromecastなどの受信端末を思い浮かべるかもしれません。今後、そのような動画の視聴スタイルは広がると思いますが、それは「テレビの再定義」ではなく、リビングに置かれた大きなスクリーンの新しい使い方になると思います。

「オンデマンドでない放送コンテンツの受信機」というテレビをソフトウェアで再定義するとは、単なる機能の追加ではなく、新しい体験を創り出すことだと考えます。

- 続・AIスピーカーをやっている場合ではない理由
製品の再定義とは、その製品を使用するユーザーの基本的なニーズを再認識し、新しい技術によって可能になる新しい手段によって提供できる価値を定義することです。その価値は、「体験」と言い換えてもいいかもしれません。

AIという新しい技術のシーズ起点で、ハードウェアをソフトウェアで再定義しようとするとき、次の3つの手段を考えることができます。
  1. ユーザーインターフェース(音声やテキストでの会話)
  2. 連携するWebサービス(検索やレコメンデーション)
  3. ユーザーの作業の自動化
まず、リモコンではなく音声でテレビを操作することを思いつくでしょう。それは、アマゾンやグーグルの音声アシスタントと連携してお茶を濁すことは簡単です。
テレビがIoTの標準的なフレームワーク(openHABなど)をサポートすれば、ユーザーがAIスピーカーを使って、音声でテレビを操作できるようになります。しかし、標準的な仕様ですから、可能になる操作は電源のON/OFやボリュームのアップ・ダウン、チャンネルの切り替えといった一般的なものになると思います。いまのテレビの操作はそんな程度で構わないのかもしれませんが、それではテレビの価値向上とは言えません。

- 続・AIスピーカーをやっている場合ではない理由
ユーザーの音声は、AIスピーカーからクラウド上の音声アシスタントに送られます。アマゾンの音声アシスタントはAlexaという名前ですが、グーグルはGoogle Assistantと呼んでいます。説明のために少し単純化しますが、音声アシスタントは音声認識のAIによって音声をテキストに変換し、それを自然言語処理のAIがインテント(意図)に変換します。 
図1
(音声アシスタントの仕組みのイメージ)

インテントは、テレビを操作するクラウド上のアプリーションに送られ、そのインテントに相当する指示がテレビに送られます。このアプリケーションは、アマゾンではスキル、グーグルではアクションと呼ばれています。スマートホームの家電に利用できる、openHABスキルなども用意されているようです。インテントは、ユーザーの意図を、さまざまな機能のアプリケーションに伝えるための、アマゾンやグーグルが策定したAPIの仕様です。それは、アプリケーション毎の機能に合わせた、きめ細かい設定をすることは想定されていません。

音声という新しいユーザーインターフェースでの操作と、それによって可能になることは、それまでのリモコンによる操作よりも格段に優れていなければ意味がありません。それは、「とりあえずお茶を濁す」ということでは困難です。

例えば、ボリュームの調整は実際の音を確認しながら徐々にアップ・ダウンするでしょうし、なんとなくチャンネルをブラウズすることもあると思います。それらの操作には、音声アシスタントとの会話というユーザーインターフェースは適しません。「明日の卒業を録画しておいて」とか「ニュース番組に変えて」とか「週末のおすすめの映画は?」とか、テレビ放送について音声アシスタントと会話すると言われたら、自然に、そんなことを想像するのではないでしょうか。

音声アシスタントがやっている仕事は、_酸芝Ъ院↓⊆然言語処理、ユーザーの質問にナレッジベースを使って回答する、ぅ機璽疋僉璽謄のアプリケーションにインテントを送る、ケ答のテキストを音声に変換してAIスピーカーに返す、といったことです。

自然言語処理はテキストを分析して、その意図を推定します。それは機械学習によって精度が向上しました。しかし、例えば、ユーザーが「さっきのチャンネルに戻して」と言ったとき、その意図を推定できても、それを表現するためのAPIが用意されていなければ、インテントをアプリケーションに渡すことはできません。音声アシスタントは、「すみません、それはできません」などと応答することになります。

テレビはスピーカーもスクリーンも持っています。マイクをつけてしまえば、AIスピーカーなど必要ありません。そして、APIがボトルネックとなって「きめ細かい会話」が難しい音声アシスタントとではなく、ユーザーが直接、テレビのための音声アプリケーション(Webサービス)と会話できるようにしてみます。
図2
(音声アプリケーションのイメージ)

_酸芝Ъ韻鉢ゥ謄ストの読み上げは、外部のサービスが利用できると思います。テレビ用の音声アプリケーションでは、ぅ機璽疋僉璽謄のアプリとの連携はありません。実現のポイントは⊆然言語処理とナレッジベースになります。それらは、テレビ放送の視聴に間することに特化することによって、精度と有用性を高めることができます。ユーザーの質問や悩みに答えたり、ユーモアを話したり、明日の天気を答えたりする必要はありません。

テレビすなわち「オンデマンドでない放送コンテンツの受信機」の再定義は、ユーザーが「受け身」であるということがキー(基本的なニーズ)になると思います。受け身であることの心地よさに着目します。もちろん、見たい番組を探して見るという積極的な行動もあると思いますが、受け身の視聴スタイルをターゲットにすることによって、会話というユーザーインターフェースならではの新しい体験を創り出すことができると思います。

テレビとの「テレビ放送の視聴に間する」会話について、あらゆる可能性を考え、自然言語処理をチューニングします。しかしインテント(ユーザーの意図)の種類はそれほど多くはないでしょう。番組に関する質問、視聴や録画の予約、放送予定の番組や録画した番組の検索などのインテントの分類と、その分類ごとに必要な付帯情報(エンティティ)の定義を行います。

番組の内容について、ジャンル、出演者、ロケ地などを電子番組表(EPG)から抽出しておくことによって、「明日の卒業を録画して」とか「ニュース番組に変えて」とか「週末のおすすめの映画は?」といったユーザーのリクエストや質問に正しく応えることができるでしょう。何かを勘違いして「おめでとうございます、明日が良い思い出となるといいですね」とか「撮影の出張サービスを検索しました」などと、トンチンカンな答えをすることはないはずです。

また音声アプリケーションを、LINEやFacebook Messengerなどのメッセージング・アプリのチャットボットにもインテグレートすれば、ユーザーは外出先でも、テレビ(アプリケーション)とテキストで会話することもできます。チャットで「いまやってるテニス中継を録っておいて」、そして帰宅してからテレビに「さっきのテニスを再生して」という感じです。

アマゾンやグーグルの音声アシスタントに頼った実装では、アプリケーションにユーザーとの会話の情報が蓄積することはありません。しかし、テレビのための音声アプリケーションは、ユーザーとの会話を学習したり、視聴履歴を分析することによってユーザーについての理解を深めることができます。番組をレコメンドしたり、気を利かせて自動的に録画しておくこともできると思います。

音楽ストリーミングサービスのSpotifyは、これまで「同じ曲をなんども聴いている人たちは、音楽の嗜好が似通っているはずだ」という考え方(協調フィルタリング)によって、ジャンルやアーティストなどの付帯情報に基づいて、ユーザーに曲のレコメンドをしてきましたが、最近はディープラーニングを取り入れているようです。曲自体の信号を解析して類似度を学習して、その情報を元にレコメンドをしているとのことです。EPGの情報ではなく、自動的に録画しておいた番組(動画)の内容を解析してレコメンドすることなども可能になるかもしれません。
アイディアを次々と生み出す人々の多くは、組織をどのように動かせばアイディアをかたちにできるかを知らない。とりわけ前例のない画期的なアイディアを実行する方法を知らず、多くの場合、アイディアは放っておいてもイノベーションに繋がるという理解しがたい考え方に染まっているようだ。このような偏見では、着想とイノベーションは同義語になる。この種の考え方にとりわけ強く毒されているのが、ブレーンストーミングの信奉者で、自分たちの流儀こそが企業を救うと信じて疑わない。
セオドア・レビットの『T.レビット マーケティング論 』の「アイデアマンの大罪」という章にこう書かれています。思いつくままの愚案を披露しましたが、どんなアイデアでも、それを実行しなければ意味がありませんね。テレビ用のチャットボットだけを先行して、リーンにスタートアップしてみるのも面白いかもしれません。

ご相談やお問い合わせは、contact に @ と ibornb.red をつけたアドレスまでメールでお寄せください。 

記事の更新はTwitter (@kyosukek)でお知らせします。
このエントリーをはてなブックマークに追加

Wedge Infinityに寄稿したコラム「中国を見よ!AIスピーカーをやっている場合ではない理由」は、NEWSPICKSで取り上げられて、いろいろなコメントをいただきました。

音声アシスタントはまだまだ発展途上だと思いますが、それは、スマートフォンというハードウェアや、スマホアプリやその先のサービスというエコシステムとは別の、新しいエコシステムを形成する可能性があります。

スマートフォンのエコシステムで存在感を示せなかった日本のメーカーは、その失敗を繰り返さないように、彼らが構築しようとしているエコシステムの構図や可能性を見極め、どのようにポジショニングするかを考える必要があると思います。

例えば、テレビがIoTの標準的なフレームワーク(openHABなど)をサポートすれば、ユーザーがAIスピーカーを使って、音声でテレビを操作できるようになります。しかし、標準的な仕様ですから、可能になる操作は電源のON/OFやボリュームのアップ・ダウン、チャンネルの切り替えといった一般的なものになると思います。

いまのテレビの操作はそんな程度で構わないのかもしれませんが、それではテレビの価値向上とは言えませんし、ユーザーが同じメーカーのAIスピーカーとテレビを購入する意味がありません。

AIというシーズ起点で、ハードウェアをソフトウェアで再定義しようとするとき、次の3つの可能性を考えることができると考えています。

・ユーザーの作業の自動化
・ユーザーインターフェース(音声やテキスト)
・連携するWebサービス(検索やレコメンデーション)

テレビの再定義というと、Netflixなどオンデマンドの配信サービスや、Chromecastなどの受信端末を思い浮かべるかもしれません。今後、そのような動画の視聴スタイルは広がると思いますが、それは「テレビの再定義」ではなく、リビングに置かれた大きなスクリーンの新しい使い方になると思います。

「オンデマンドでない放送コンテンツの受信機」というテレビをソフトウェアで再定義するとは、単なる機能の追加ではなく、上の3つの可能性を組み合わせて新しい体験を創り出すことだと考えます。

ソニーとパナソニックは、テレビやデジタルカメラなど、ソフトウェアによって再定義できる可能性があるハードウェア製品を多く持っています。その再定義に取り組むことは非常に面白いと思うのです。

NEWSPICKSのコメントはこちら(無料の会員登録が必要です)
このエントリーをはてなブックマークに追加

ソニーとパナソニックが相次いでスマートスピーカーを発表しました。日本に導入される前に、スマートスピーカーは乱立状態になってしまっていますが、それは日本を代表するメーカーが手がけるべき製品とは思えません。その3つの理由は中国にあります。
  1. すぐにシャオミゼーションの餌食になる
  2. コピーキャットがイノベーターに変身する
  3. 「もの造り」もコモディティ化する
しかし、「もの創り」へのAIの応用は、日本のメーカーに残されたチャンスです。スマートスピーカーなどをつくっている場合ではありません。

中国を見よ!AIスピーカーをやっている場合ではない理由 → Wedge Infinityへ

このページのトップヘ