フェイフェイ・リー

コンピュータが写真を理解するようになるまで

2,006,758 views • 17:58
Subtitles in 26 languages
Up next
Details
Discussion
Details About the talk
Transcript 26 languages
Translated by Yasushi Aoki
Reviewed by Tadashi Koyama
0:13

まずこのビデオを ご覧ください

0:17

(女の子の声) ネコがベッドに座ってる 男の子が象をなでてる 飛行機へ行く人たち 大きな飛行機よ

0:32

(講演者) これは3歳児が 見た写真を 説明しているところです 彼女にはこの世界で学ぶことが まだまだあるかもしれませんが ひとつの重要な作業については すでにエキスパートです 見たものを理解する ということです 私たちの社会は技術的に かつてなく進歩しています 月へと人を送り込み 人に話しかける電話を作り 自分の好きな曲だけがかかるように ラジオをカスタマイズしています しかしながら最先端の コンピュータでも まだこの作業には 手こずっているんです 私は今日コンピュータビジョンの 最新動向について お伝えするために来ました これはコンピュータサイエンスの中でも 先端にあって 画期的なものになる 可能性のある技術です

1:23

自分で運転する車の プロトタイプが作られていますが 知的な視覚処理能力がなかったら 踏みつぶしても問題のない 道路上の丸めた紙袋と 避けて通るべき同じ大きさの石とを 見分けることもできません すごいメガピクセルの カメラが作られていますが 盲目の人に視力を与えることは できていません 無人機を広大な土地の上に 飛ばすことはできても 熱帯雨林の変化を 追跡できるだけの 画像技術はまだありません 監視カメラが至る所に 設置されていますが プールで溺れている子がいても 警告してはくれません 写真やビデオは世界において 生活に不可欠な一部をなしています どんな個人であれ チームであれ 見切れないほどのペースで 映像が量産されています そして私たちも ここTEDで それに貢献しています しかし最も進んだ ソフトウェアでさえ この膨大な映像を理解し管理するのに 手こずっています 言ってみれば 私たちの社会は 集合的に盲目であり それは最も知的な機械が いまだ盲目だからです

2:42

なぜそんなに難しいのかと 思うかもしれません カメラはこのような写真を撮って 光をピクセルと呼ばれる 数字の2次元配列へと 変換しますが これは死んだ数字の列に 過ぎません 数字自体に意味はありません 単に音が耳に入ってくるのと 「聴く」のとは違うように 「写真を撮る」のと「見る」のとは 同じではありません 「見る」ということには 理解することが含まれているのです 実際この仕事を 成し遂げられるようにするために 母なる自然は 5億4千万年という 長い歳月を必要としたのです そしてその努力の多くは 目そのものではなく 脳の視覚処理能力を発達させるために 費やされました 視覚というのは 目から始まりますが それが本当に起きているのは 脳の中なのです

3:37

これまで15年間 カリフォルニア工科大学の博士課程の頃から スタンフォード大でコンピュータビジョン研究室を 率いている今に到るまで 私は指導教官や共同研究者や 学生達とともに コンピュータに見ることを 教えようとしてきました 私たちの研究領域は コンピュータビジョンと機械学習で これは人工知能の分野の一部です 最終的に私たちがしたいのは 機械も人間のようにものを見られるようにすることです 物が何か言い当て 人を識別し 3次元的な配置を推量し 関係や感情や行動や意図を 理解するということです 私たち人間は一目見ただけで 人 場所 物の織りなす物語全体を 捉えることができます

4:27

この目標に向けた第一歩は コンピュータに視覚世界の構成要素である物を 見られるようにすることです 簡単に言うと ネコのような特定の物の 訓練用画像を コンピュータに与えて それらの画像から学習する モデルを設計するんです 簡単そうに聞こえますよね? ネコの画像は色と形の 集まりに過ぎません これは初期のオブジェクト・モデリングで 私たちがやっていたことでした 数学的な言語を使って コンピュータアルゴリズムに ネコには 丸い顔と ぽっちゃりした体と 2つのとがった耳と 長いしっぽがあると教え それでうまくいきそうでした でもこのネコはどうでしょう? (笑) 体がすっかり反り返っています オブジェクトモデルに新しい形と視点を 追加する必要があります でもネコが一部隠れていたら どうでしょう? このおかしなネコたちはどうでしょう? 言いたいこと分かりますよね? 身近なペットのネコという シンプルなものでさえ オブジェクトモデルに 無数のバリエーションを定義する必要があり しかもこれは沢山あるものの 1つに過ぎないんです

5:43

8年ほど前 とてもシンプルながら本質的なある観察が 私の考え方を変えました 子供は教えられなくても 成長の初期に ものの見方を身に付けるということです 子供は現実の世界における 経験と例を通して学ぶのです 子供の目が 生きたカメラで 200ミリ秒ごとに1枚 写真を撮っていると 考えてみましょう これは目が動く 平均時間です すると子供は3歳になるまでに 何億枚という 現実世界の写真を 見ていることになります 膨大な量の訓練例です それで気が付いたのは アルゴリズムの改良ばかりに集中するのではなく 子供が経験を通じて 受け取るような 量と質の訓練データを アルゴリズムに与えてはどうか ということでした

6:43

このことに気付いた時 私たちが持っているよりも 遙かに多くの画像データを 集めなければならないことが 明らかでした 何千倍も必要です それで私はプリンストン大学の カイ・リー教授と一緒に 2007年にImageNetプロジェクトを 立ち上げました 幸い私たちは 頭にカメラを付けて 何年も歩き回る必要は ありませんでした 人類がかつて作った 最大の画像の宝庫 インターネットに 向かったのです 私たちは10億枚近い画像を ダウンロードし アマゾン・メカニカル・タークのような クラウドソーシング技術を使って それらの画像に ラベル付けをしました 最盛期にはImageNetは アマゾン・メカニカル・ターク作業者の 最大の雇用者の1つに なっていました 167カ国の 5万人近い作業者が 10億枚近い画像を 整理しラベル付けする作業に 携わりました 子供がその成長の初期に 受け取るのに 匹敵する量の画像を 用意するためには それほどの労力が 必要だったのです

8:03

コンピュータアルゴリズムの訓練に ビッグデータを使うというアイデアは 今からすると 自明なものに見えるでしょうが 2007年当時は そうではありませんでした かなり長い間 こんなことをやっている人は 私たち以外にいませんでした 親切な同僚が将来の職のためにもう少し有用なことを した方がいいとアドバイスしてくれたくらいです 研究資金には いつも困っていました ImageNetの資金調達のために クリーニング屋をまた開こうかしらと 学生に冗談で言ったくらいです 私が学生の頃 学費のために やっていたことです

8:40

私たちは進み続け 2009年に ImageNetプロジェクトは 日常的な英語を使って 2万2千のカテゴリに分類した 1500万枚の画像の データベースを 完成させました これは量という点でも 質という点でも かつてないスケールのものでした 一例を挙げると ネコの画像は 6万2千点以上あって 様々な見かけや ポーズのネコがいて 飼い猫から山猫まで あらゆる種類を網羅しています 私たちはImageNetが できあがったことを喜び 世界の研究者にも その恩恵を受けて欲しいと思い TEDの流儀で データセットをまるごと 無償で世界の研究者コミュニティに 公開しました (拍手)

9:40

こうしてコンピュータの脳を 育てるためのデータができ アルゴリズムに取り組む 用意が整いました それで分かったのは ImageNetが提供する豊かな情報に適した 機械学習アルゴリズムがあることです 畳み込みニューラルネットワークと言って 福島邦彦 ジェフリー・ヒントン ヤン・ルカンといった人たちが 1970年代から1980年代にかけて 開拓した領域です 脳が何十億という高度に結合し合った ニューロンからできているように ニューラルネットワークの 基本要素となっているのは ニューロンのようなノードです 他のノードからの入力を受けて 他のノードへ出力を渡します 何十万 何百万という このようなノードが これも脳と同様に 階層的に組織化されています 物を認識するモデルを訓練するために 私たちが通常使うニューラルネットワークには 2千4百万のノード 1億4千万のパラメータ 150億の結合があります ものすごく大きなモデルです ImageNetの膨大なデータと 現代のCPUやGPUの性能を使って このような巨大なモデルを訓練することで 畳み込みニューラルネットワークは 誰も予想しなかったくらいに 大きく花開きました これは物の認識において 目覚ましい結果を出す 大当たりのアーキテクチャとなっています ここではコンピュータが 写真の中にネコがいることと その場所を示しています もちろんネコ以外のものも 認識できます こちらではコンピュータアルゴリズムが 写真の中に男の子とテディベアが 写っていることを教えています 犬と 人物と 後方に小さな凧が あることを示しています とても沢山のものが 写った写真から 男性 スケートボード 手すり 街灯などを見分けています 写っているものが何なのか コンピュータが そんなに自信を持てない場合もあります [動物] コンピュータには 当て推量をするよりは 確かなところを答えるよう 教えています ちょうど私たち自身がするように 一方で何が写っているかについて コンピュータアルゴリズムが 驚くほど正確に 言い当てることもあります たとえば自動車の車種や モデルや年式のような

12:09

このアルゴリズムを アメリカの数百都市の 何百万という Googleストリートビュー画像に適用した結果 面白い発見がありました まず 車の値段は 家計収入とよく相関しているという 予想が裏付けられました でも驚いたことに 車の値段は 街の犯罪率とも よく相関していたんです それはまた郵便番号区域ごとの 投票傾向とも相関しています

12:43

それでは コンピュータは 既に人間の能力に追いつき 追い越しているのでしょうか? 結論を急がないで これまでのところ 私たちは コンピュータに物の見方を教えただけです 小さな子供が名詞をいくつか 言えるようになったようなものです ものすごい成果ですが まだ第一歩にすぎず 次の開発目標があります 子供は文章でコミュニケーションを するようになります だから写真を見て小さな女の子が 単にネコと言わずに ネコがベッドに座っていると 言うのを聞いたわけです

13:23

コンピュータが写真を見て 文章を作れるよう教えるために このビッグデータと 機械学習の結びつきが 新たなステップを 踏む必要があります コンピュータは 写真だけでなく 人が発する自然言語の文章も 学ぶ必要があります 脳が視覚と言語を 結びつけるように 画像の断片のような 視覚的なものの一部と 文章の中の単語やフレーズを 繋ぎ合わせるモデルを 私たちは開発しました

14:01

4ヶ月ほど前 ついに私たちは すべてをまとめ 初めて見た写真について 人が書いたような 記述文を生成できる 最初のコンピュータ・ビジョン・ モデルを作り上げました 冒頭で小さな女の子が説明したのと 同じ写真を見て そのコンピュータが何と言ったか お見せしましょう

14:30

「ゾウの横に立っている男」 「空港の滑走路にいる大きな飛行機」

14:40

私たちは今もアルゴリズムを改良しようと 熱心に取り組んでいて 学ぶべきことは まだまだあります (拍手)

14:50

コンピュータは まだ間違いを犯します

14:53

「ベッドの上の毛布の中のネコ」

14:57

ネコを沢山見過ぎたせいで 何でもネコみたいに 見えるのかもしれません

15:04

「野球バットを持つ小さな男の子」 (笑)

15:08

歯ブラシを見たことがないと 野球バットと混同してしまいます

15:14

「建物脇の道を馬に乗って行く男」 (笑)

15:19

美術はまだコンピュータに 教えていませんでした

15:24

「草原に立つシマウマ」

15:27

私たちのように 自然の美を慈しむことは まだ学んでいません

15:33

長い道のりでした 0歳から3歳まで行くのは 大変でした でも本当の挑戦は3歳から13歳 さらにその先へと行くことです あの男の子とケーキの写真を もう一度見てみましょう 私たちはコンピュータに 物を識別することを教え 写真を簡単に説明することさえ 教えました

15:58

「ケーキのあるテーブルにつく人」

16:02

しかしこの写真には 単に人とケーキというよりも 遙かに多くのものがあります コンピュータが見なかったのは このケーキが特別なイタリアのケーキで イースターの時に 食べるものだということです 男の子が着ているのは お気に入りのTシャツで お父さんがシドニー旅行の おみやげにくれたものだということ 私たちはみんな この男の子がどんなに喜んでいるか 何を思っているかが分かります

16:30

これは息子のレオです 視覚的な知性を 追い求める探求の中で 私はいつもレオのことや レオが住むであろう 未来の世界のことを考えています 機械に見ることが できるようになれば 医師や看護師は疲れを知らない 別の目を手に入れて 患者の診断や世話に 役立てられるでしょう 自動車は道路をより賢明に 安全に走行するようになるでしょう 人間だけでなくロボットも 災害地域に取り残され負傷した人々を救出する 手助けができるようになるでしょう 私たちは機械の助けを借りて 新種の生物やより優れた素材を発見し 未だ見ぬフロンティアを 探検するようになるでしょう

17:14

私たちは少しずつ機械に 視覚を与えています 最初に私たちが 機械に見ることを教え それから機械が より良く見られるよう 私たちを助けてくれることでしょう 歴史上初めて 人間以外の目が 世界について考察し 探求するようになるのです 私たちは機械の知性を 利用するだけでなく 想像もできないような方法で 機械と人間が協力し合うようになるでしょう

17:40

私が追い求めているのは コンピュータに視覚的な知性を与え レオや世界のために より良い未来を作り出すということです

17:50

ありがとうございました

17:52

(拍手)

小さな子供は写真を見て「ネコ」や「本」や「椅子」のような簡単な要素を識別できます。今やコンピュータも同じことができるくらいに賢くなりました。次は何でしょう? この胸躍る講演で、コンピュータビジョンの専門家であるフェイフェイ・リーが、写真を理解できるようコンピュータに「教える」ために構築された1500万の画像データベースをはじめとする、この分野の最先端と今後について語ります。

About the speaker
Fei-Fei Li · Computer scientist

As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems — including image recognition, learning and language processing.

As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems — including image recognition, learning and language processing.