大量にデータを入手できる時代となった。大量データをそのまま扱うことがもとめられる。2012年6月、グーグルXチームが、1万6千台のCPUで、10億の結合部を持つニューラルネット(NN)を構築した。YOUTUBEの映像サムネイル1000万件を3日連続して入力し続けたら、画像の中から猫を認識できるようになった。人が介在したり、途中で何も変更しなかった。
大量データをそのまま畳込NNに入力をするだけで、結果を得られるという素晴らしいアーキテクチャを手にすることができた。
心理学者のゲルト氏は、不確実性の高い市場では、物事を単純化して、ヒューリスティクスで変数をできるだけシンプルに少なくしたほうがよいという。しかし、安定して予測しやすい市場では、分析を複雑化して多くの変数を使うアルゴリズムを使ったほうがよいと語っている。
[browser-shot url=”https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures?language=ja” width=”400″ height=”300″ alt=”コンピュータが写真を理解するようになるまで TED2015 · 17:58 · Filmed Mar 2015″]
FeiFeiLiさんのTED映像を拝借する。ノード数2400万、パラメータ数1億、結合数150億もの巨大なNNを構築して、成功をおさめたと説明をしている。
大量のデータから、思いもよらない結果が得られる指針を見つけられたことは、すばらしい。IoTなどセンサーからはかれる大量データは今後急増する。結果はこうあってほしい、こういう結果が得たいのだが、システムに落とし込むところから、悩む。そもそもデータの特徴量はなんだっけと。そして、データ構造はどうするべきか、なかば強引に(人の恣意に基づいて)抽象化してしまう。さらに、結果に近づかなければならないので、外れたデータを、外せないかというアプローチを取ってしまう。
データをそもそもうまく分けられないのだから、計算機にそのデータを素直に扱ってもらう仕組みは、いままでなかったので、たいへん興味が湧く。そもそも計算機が特徴量を自動で見つけ出すことは、たかが数年で、はじまったばかりであり、これからのビジネスへの応用(例えばひとにつく固有の暗黙知理解なども)に期待がかかる。