インチキAIに騙されないために

画像はイメージです　original image: svetazi / stock.adobe.com

インチキAIに騙されないために

2023.01.11

Updated by yomoyomo on January 11, 2023, 12:20 pm JST

プリンストン大学教授のアーヴィンド・ナラヤナン（Arvind Narayanan）を最初に認知したのは、当初はエドワード・W・フェルテンの個人ブログだった、コンピュータセキュリティやプライバシーなどを中心的に扱うFreedom to Tinkerへの寄稿者としてでした。本連載でも2014年の「ビッグデータの不都合な真実」という文章で、フェルテンとナラヤナンによるビッグデータの匿名化技術に関する論文を取り上げていますが、ナラヤナンをセキュリティやプライバシー分野の研究者だと思っていました。

しかし、彼はそれにとどまらず、大学の講義をオンラインで無償提供するCourseraでビットコインと暗号通貨技術の講座を持ち、書籍『仮想通貨の教科書』を共著するにいたり、カバーする技術範囲の広さに驚かされました。

そして、その彼が2019年に「インチキAIの見分け方」と題したスライドを公開し、世間でAIの成果とされるサービスの多くがインチキだと主張して話題となった際は、今度は人工知能かとまたしても驚かされたものです。

ナラヤナンがスライドを公開した2日後には、それを基にした講演や書籍執筆の依頼メールが彼の元に40～50通届いたそうです。しかし、便乗商法はしたくなかったし、本を書くほどにはAIを理解できていないと謙虚に考え、プリンストン大学博士課程のサヤッシュ・カプール（Sayash Kapoor）と3年ほど共同研究を行い、2022年夏に二人は満を持して書籍執筆過程を公開する「AI Snake Oil」、つまりはズバリ「インチキAI」と題されたプロジェクトを立ち上げました。

ナラヤナンは2019年のスライド公開時の大きな反響について、身の回りでAIとされるものが胡散臭いという疑いは実はいろんな人が持っていたが、それを正当化する語彙も権威もなかったところに、コンピュータサイエンスの教授である自分がそれを指摘したことで、その疑念が正当化されたと感じ、自分たちの懐疑心を共有したくなったのだろうと分析しています。

これは重要な話だと思うので、今回はこのプロジェクト（ニュースレター）を取り上げたいと思います。

書籍のプレビューと題した回で、昨年評判となったDALL·E 2やImagenなどの画像生成AIと、白人被告に比べ黒人被告を誤って再犯率が高いと判断する確率が2倍であるというショッキングなレポートが発表された、保釈された被告人の再犯可能性を予測するツール「COMPAS」を対比し、なぜ同じAIと呼ばれるもので分野により得手不得手があるのかを見極め、AIとの正しい向き合い方を指南するのがこの本の役割だと宣言します。

「AI」は現状、関連性はあるがかなり異なる多くのアプリケーションを総称するアンブレラタームですが、不確実性や曖昧さが少ないアプリケーション、もしくは囲碁のようなルールが明確なゲーム分野では大きな進歩を遂げています。一方で、不確実性が多い社会予測のためのAIの多くは役立たずだし、おそらく今後も役に立つことはないだろうと断じ、AIを「神託」扱いする愚を戒めています。

しかし、どうして（現状、狭い領域でしか有効でない）AIに対する「神話」が根強いのか？研究者、企業、メディアが結託してAIに関する誇大広告を（知らず知らずのうちに）作り出し、一般の理解が歪められているとナラヤナンらは述べます。そうしたAIに対する誤った信頼の一例として、GitHub CopilotなどのAIによるコード自動生成に依存するプログラマは、安全性が低くバグが多いコードを書きがちという研究結果も挙げられそうです。

ナラヤナンらは、放射線科医の仕事は5年以内にディープラーニングに取って代わられるので、今すぐ放射線科医の養成をやめるべきと2016年に放言をしたジェフリー・ヒントンの名前を挙げていますが（言うまでもなく、現在までそういう事態にはなっていません）、ディープラーニング技術者に多い過信に対しても、その誇大広告に基づいて何十億ドルもの資金が割り当てられ、多くの一般人の混乱を招いたことが、書籍執筆の動機となったと厳しい見方を示しています。

具体的には、新しい学習問題を解くのに必要なのは、学習例（画像とそれに対応する説明文など）を集めることであり、過去に他の問題で成功した汎用的なニューラル・アーキテクチャと学習アルゴリズムが使えるというディープラーニングのセントラルドグマ（中心的信念）にディープラーニング技術者が囚われていること、またディープラーニング（ニューラルネットワーク）の研究者には、AI冬の時代に辛抱強く研究を続け、懐疑的な見方を覆してきた過去があるため、犯罪や仕事の成果の予測などで、必ずしも過去が未来を予測するわけではないと言われても、不勉強な部外者の見解として片付けてしまう傾向があり、またそのメンタリティが各分野の専門家の軽視につながっているのをナラヤナンらは指摘します。

また上でAIの成功例として挙げた画像生成AIについても、AIやロボットを過度に擬人化するなどしてAIに対する誤解を招くようなイメージ（画像）を蔓延させ、その画像がニュース記事に使われることで、結果としてAIの誇大広告に加担しているとやはり手厳しいのですが、一方で学生がGPT-3などのAIモデルを使い小論文を書いて良い成績をとることについてはむしろ肯定的で（教員側が真に教育的な課題を出すべく対応すべきという立場）、AIと名の付くものをなんでもかんでも批判しているわけではないので誤解なきよう。

例えば、ナラヤナンらは、昨年末から大きな話題になっているチャットボットChatGPTを、もっともらしいテキストを生成するように訓練されているが、そのため間違った答えをしても正しい知識がない人にはそれがそうと分からないという意味で、史上最高の「デタラメ製造機（bullshit generator）」と断じていますが、以下の3つの分野に関しては、ChatGPTの大規模言語モデル（LLM）が既に有用であると認めています。

コード生成とデバッグ：上記の、AIのコード自動生成に依存するプログラマは安全性が低くバグが多いコードを書きがちという話が気になりますが、コード生成へのLLMの利用は活発でエキサイティングな研究分野であり、人間との協働によるコード改善が期待できる
小説の執筆などエンターテイメント分野：出力が真実かどうか問わない作業ということですが、人種差別や性差別などの人間の偏見を反映しないかは注意する必要がある
言語翻訳：学習データの中に真実の源となる部分集合が実際に存在するタスク

ジェネレーティブAIがどれくらい変革をもたらすか判断するのは時期尚早、というのがナラヤナンらの結論になりますが、現状、LLMが利用可能なのが限られた分野なのを強調しつつ、それでも驚くほど有用な可能性があり、創造的な利用法が切り開かれるのにも期待を寄せています。

ナラヤナンらのAIの誇大広告に対する厳しい視線は、AIに関する報道に対しても向けられており、New York TimesやCNNの記事への詳細な添削（！）を含む「AI報道で気をつけるべき18の落とし穴」における指摘は、報道関係者以外にも当てはまる重要な内容を含んでいると思うので、「18の落とし穴」を簡単に要約してみます。

AIシステムが人間の監督から独立して行動するとか、近いうちにそうなると暗示して、AIに行為主体性を持たせる
AIに関する記事にロボットと関係なくても人型ロボットの画像を使い、AIツールが具現化するという誤った印象を読者に暗示する
AIアルゴリズムが人間と同じように学習すると暗示して人間の知能とAIを比較する
AIツールが狭い範囲の環境でしか機能しないのに触れないまま、AIツールが人間のスキルよりも優れていると比較する
性能を示す具体的な証拠がないまま、AIシステムを革命的とか画期的と表現する誇大表現
AIを電気の発明や産業革命のような歴史的な大転換に安易になぞらえる
AIツールの将来の進歩を根拠なく当然のように主張する
AIツールで何ができるのか誤った主張を含む
ニュース記事は学術的な研究を引用することが多いが、その研究結果と報道内容にズレがある
「AIの魔法」といったフレーズを使い、平凡な行為なのにAIツールが何か驚くべきことをしているように見せかける
企業の広報担当者や研究者といった利害関係者の発言を、中立的な立場のように扱う
AIツールの機能を正しく説明するのでなく、企業のPR文にある用語を再利用
バイアスなどAIの潜在的な限界を議論しない
上記の限界について専門家の意見を引用する場合でも、記事の末尾に置くなど軽視する
AIの限界を説明する専門家にAIの真の可能性が分からない「懐疑論者」のレッテルをはる
AIツールの技術的進歩を持ち上げる一方で人間の労働を軽視する（参考：メアリー・グレイ『Ghost Work』）
AIツールの性能がどのように計算されたか、それを何を表しているか説明せずに数値だけ載せる
AIツールを不可解なブラックボックスとして言及し、その開発者が説明責任から逃れることを許す

おそらくは今年刊行されるであろう「AI Snake Oil」の書籍版が楽しみですが、ナラヤナンはこのプロジェクトの外でも、機械学習とその公平性をテーマとする書籍『Fairness and machine learning』を共著し、昨年11月にはコロンビア大学のナイト研究所（Knight First Amendment Institute）の客員上級研究員として、ソーシャルメディアの原動力となっている「アルゴリズムによる増幅（algorithmic amplification）」に焦点を当てた新しいプロジェクトを主導することを発表しており、本当にこの人の仕事範囲の広さには脱帽です。

いや、ナラヤナンの中では、プライバシー、暗号通貨、AIの社会的影響、そして今回の「アルゴリズムによる増幅」研究もすべてつながっているのかもしれません。

それで思い出すのは、「AI Snake Oil」の書籍のプレビューの回にある以下の文章です。