死屍累々の人工知能PoC　生死のカギを握るのは何か

original image: © kittisak - Fotolia.com

死屍累々の人工知能PoC　生死のカギを握るのは何か

2018.06.12

Updated by Ryo Shimizu on June 12, 2018, 08:44 am JST

深層学習が広く知られるようになり、産業への適用が始まってからもう5年が経過した。
日本で深層学習という言葉が流行り始めたのもすでに3年前だ。

実際のところ、このブームには大きな問題があった。

深層学習以外の技術にはこれといった進展はなかったのだが、深層学習が注目を集めたことで、死に体だったAI系企業がどさくさに紛れて息を吹き返したり、少し前なら見向きもされなかったような技術にまで脚光が当たるなどして玉石混交の状態のまま、さまざまなPoC(Proof of Concept;理論検証)に膨大な資金が投じられた。

残念ながらその大半は失敗した。この失敗は極めて必然的なものである。なぜならば、失敗したPoCはほぼ例外なく、深層学習以前の技術で行われているからだ。

筆者のもとには、大手メーカーのPoCに数億の資金を投じた挙げ句、全く成果につながらなかった会社が多く集まる。ちなみに筆者の会社がPoCそのものに失敗したことは未だに一度もない。失敗するPoCとは、そもそもC、すなわちコンセプトが間違っているのである。

これは、PoCを受託する会社が、そもそも正しく機械学習または深層学習の特質を理解していないからだ。それも仕方がない部分はある。要は、ついこの間まで、世の中に存在すら認知されていなかった深層学習の特性を、一朝一夕で現場の営業担当者やコンサルタントが把握できるわけがないからだ。

不十分な知識で営業に周り、その瞬間は相手企業の決済権限者を騙せたとしても、結局コンセプトそのものが間違っているのでうまくいくわけもない。

そもそも深層学習が開発されるまでの手法では、とても実用レベルにはならなかった機械学習によるPoCを未だに提案する企業が多いと聞いて非常に驚くことがある。すでに駄目だと証明されている技術を「自社の技術者は詳しいから」という理由で強引に顧客に薦めた上、PoCに失敗し、結局、顧客に無駄金を使わせることになる。こんな営業をしていて、なぜ良心の呵責に苛まれないのか、非常に疑問である。

実際、同業他社の社員から「うちは深層学習やってないんで転職したい」という相談を受けることも度々あるが、そもそも根底となるモラルの欠如した会社で働いていた人を受け入れるのは難しい。

だがさすがにPoC需要も一巡し、そろそろ資金繰りに詰まるベンチャーが出てきた。当たり前だ。失敗するPoCとは、自らの無能を証明するに等しい。いわば、Proof of Foolishとでも呼ぶべきものだ。

反対に、調子のいい会社は昨年から確実に利益を出してきている。PoCを成功させ、製品化、実用化、業務への適用といったフェーズにはいっているからだ。

人工知能のPoCは、全く同じテーマのPoCであっても、担当する業者によっては正解率40%未満から90%以上までの開きがある。

深層学習を使わない人工知能技術の代表格であるWatsonを擁するIBMは、そろそろ苦しくなってきたようだ。すでに海外ではWatsonは役立たずであるという記事がいくつも出てる。

Forbs: Is IBM Watson A 'Joke'? (ワトソンはジョーク?)
THE FRAUDULENT CLAIMS MADE BY IBM ABOUT WATSON AND AI.(WATSONとAIに関するIBMの不正請求。)
IBM Watson: Fake It till You Make It?(IBMワトソンは未完成の偽物)

すでに国内ベンダーでWatsonを担いでいた会社も次第にIBMから距離をとりつつある。
何一つうまくいかないからだ。

いままであまりメディアがWatsonの悪口を言えなかったのは、IBMが膨大なマーケティング費用を払っていたためでもある。

しかしブロガーの口までは閉じることはできない。げんにコグニティブ・コンピューティングという言葉そのものを作り出したロジャー・シャンクまでもが以下のような批判をしている。

It would be nice if IBM would tone down the hype and let people know what Watson can actually do and stop making up nonsense about love fading and out thinking cancer. IBM is simply lying now and they need to stop.

しかし2011年にWatsonが公開されてからもう7年。
さすがにほころびを隠しきれなくなってきている。

Watsonは氷山の一角であり、同様のズッコケ人工知能技術は国内企業も含めて大第的に喧伝されているものは大半が同様のものと考えて良い。

というのも、そもそも深層学習は発展途上の技術であり、日々新しい発見と性能の向上が継続されている。この急激な発展が起きたのは2014年以降であり、それ以前から開発されていたWatsonを代表とする各社の人工知能パッケージシステムが深層学習にネイティブ対応していないのは明らかだ。既存のフレームワークに付け焼き刃のように深層学習を取り込んでも、本質的な解決にはならない。

深層学習の技術は各社の競争領域であり、深層学習技術をパッケージ化して売っている例はほとんど全くと言っていいほど存在しない。

実際には高度なカスタムメイドが必要な分野であり、個別の業務内容に特化して作り込む必要がある。

実のところ、パッケージにはほとんど価値がない。

実際問題として、深層学習技術にとって最も重要なのは、データなのだ。データがない人工知能はハードディスクのないコンピュータのようなもので、いくらガワが立派でも何の役にも立たない。

にもかかわらず、深層学習のためのデータ作成のノウハウはどこにも公開されていない。データの質と量によって、性能は何倍も変わるというのに、データを作るという重要な作業をクラウドソーシングやアジア圏へのアウトソーシングなどに安易に流した結果、失敗するというケースも非常に多い。

深層学習のためのデータ作成には独自のノウハウと訓練が必要であり、実際の性能を左右するのはこれである。しかしデータ作成というのは、IBMにいるような高給取りの仕事ではなく、地道な作業の積み重ねである。こういうところが、エリートにはできないことなのだ。

AIの性能を決定づけるのはご立派な理論でも数式でも特許でもなく、いかに泥臭いことをできるかということだ。中国のAIが強いのは、泥臭いことができる人たちが大量にいるからである。実は、Googleの強みも実際にはそこにある。世界中に360度カメラを搭載した自動車を走らせてデータ化するなどというダイナミックな泥臭さが、GoogleのAI企業としての強みだ。彼らはAIにとってもっとも重要なのはデータだと知っているのだ。だからこそ、自社の秘伝のタレとも言えるソフトウェア資産であるTensorFlowをオープンソースとして公開しても平気なのである。それは実際の強みではないからだ。

人工知能分野において、ソフトウェア資産を公開していない会社は競争力が極端に低くなる。自社の独自のフレームワークやパッケージに依存しているデメリットはいくつもある。

　・最新の技術への対応が遅れる
　　　非公開の独自フレームワークを使える人間が限られているので、
　　　全て自社のリソースだけで最新技術に対応しなければならない。
　　　ものすごいペースで新技術が発表されるこの分野においてこの遅れは致命的

　・技術者の受け入れが難しい
　　　そもそも引く手あまたの人工知能技術者にとって、わざわざ独自フレームワークを
　　　イチから勉強するよりは、オープンソースで使われているものを覚えたほうが効率的
　　　教材も揃っているし、ネットで自由に情報交換できる。

　・メンテナンスが難しい
　　　自社のフレームワークをメンテナンスできるのは自社の社員だけなので、
　　　どうしてもメンテナンスに人員を取られる。今後、特許問題などが浮上してくると
　　　さらにメンテナンスが困難になると思われる。

　・技術者が離れていく
　　　よほどの事情がなければ技術者はこのような環境に魅力を感じないため、
　　　優秀な人間から離れていくことになる。もっとオープンで人間的な環境に移行した
　　　方が自身のキャリアアップにつながるため。

ではこれだけのデメリットがありながら、なぜWatsonのようなパッケージ販売ビジネスが横行しているのか。それは営業マンがお金を取りやすいからだ。もうひとつ、どうして公開できないか。公開すると、大した内容がないということがわかってしまうからである。

Watsonの失策のひとつは、プログラマー向けにAPIを公開してしまったことだったと筆者は理解している。

APIが公開されたことによってWatsonが実際には非常におそまつな内容であることが世間の目にさらされてしまった。さすがにAPIを見ていなければ、筆者でさえも「Watsonはお粗末」と断定するのはためらわれただろう。

Watsonをオープンソースなんかにしたら、これは火に油を注ぐ事態を招いてしまうだろう。
オープンソースにするデメリットの最大のもののひとつは、自社の技術力が丸裸になってしまうということである。

しかし時代は明らかにオープンソースを選択する企業しか生きこのれないように動いている。これに関しては「どこまでをオープンにして、どこからをプロプライエタリにするか」という難問として、Googleを含めて各社が頭を悩ませている問題でもある。

ただ、やればわかるがこと深層学習に関してはソースコードにたいした秘密はない。
繰り返しになるが重要なのは圧倒的にデータである。いかにユニークかつ良質なデータを大量に集めるか。その仕組をいちはやく構築できた会社だけが生き残っていくだろう。

さすがのGoogleもデータだけは公開しない。それが競争力の源泉だと知っているからだ。
闇雲に善良なイメージを振りまきたいMicrosoftは対象的にデータを積極的に集め、公開している。これはこれで、エンジニアに対するイメージアップには貢献しているので正しい戦略と言える。

筆者もひとつの取り組みとして、製造業や工場の多い新潟県に深層学習データ作成を専門とする工場を設立し、昨年から稼働している。面白いことに、作業員が慣れてくるとどんどんAIの精度が上がる。ここにも熟練工が必要なのである。すでに最初のオフィスはいっぱいになったので近日中に二倍規模に拡大する予定だ。仕事も順調に増えており、この領域の需要の高さを痛感する。オフショアやクラウドソーシングよりも遥かに効率的にデータを作ることができるからだ。

結局のところ、人間のたゆまぬ努力が、AIの性能を決定する最重要の要素なのだ。