AIはどこまで人間の美意識や道徳を「わかる」ようになるのだろうか

2020.11.09

Updated by Ryo Shimizu on November 9, 2020, 10:56 am JST

AIに関係する論文の発表数はべらぼうに多い。
毎日のように新しい論文が発表されるので、これに全て目を通すのは至難の技だ。
かといって、著名人や大企業の発表ばかり追いかけていると本当に新しい発見を見逃す可能性がある。

というわけで、この夏から、コーネル大学の論文アーカイブに投稿される論文の中から、図版だけをAI(この場合は単純な畳み込みニューラルネット)で抜き出して一覧表示するWebサービスarxiv-vizを作ってできるだけ毎日みるようにしている。

手前味噌だが、これが結構役に立つ。

最近投稿された論文を毎朝収集し、それから少しずつ画像化していく。論文投稿の多い日などは10分ごとに新しい論文が出てきたりする。
論文というのは、学会のポスターセッションでもなんでも、アイキャッチが実は重要で、「あ、面白そう」というのはタイトルか図版でわかる。気になる図版があったら、クリックすれば、Chromeの自動翻訳で概要までは日本語で読める。PDFの内容まで翻訳するツールは今のところない。誰かがそのうち作るだろう。

図版だけ見れば「これは面白そう」かどうかがある程度は判断できるので、重宝する。これとは別に、paperswithcodeなどで実装が公開されている話題の論文もサーベイすればいい。

それで最近見つけた論文の傾向として、こんなものがあった。

・【芸術的画像のための畳み込みニューラルネットワークの伝達学習の分析】巨大な自然画像データセットからの転移学習、ディープニューラルネットワークの微調整、および対応する事前トレーニング済みネットワークの使用は、事実上、アート分析アプリケーションの中核となっています。それにもかかわらず、転移学習の効果はまだよくわかっていません。この論文では、まず、ネットワークが芸術的画像で何を学んだかを理解するための手がかりを提供するために、ネットワークの内部表現を視覚化する手法を使用します。https://arxiv.org/abs/2011.02727
・【UAVビデオの美的品質評価のためのディープマルチモダリティ学習】私たちのモデルは、UAVビデオがプロの写真家またはアマチュアによって撮影されたかどうかを、シーンタイプの分類とともに判断できます。 https://arxiv.org/abs/2011.02356
・【社会化学101：社会的および道徳的規範についての理由を学ぶ】社会的規範---容認できる社会的行動についての暗黙の常識的なルール---は、物語における人々の行動の根本的な原因と意図を理解する上で重要です。たとえば、「近所の人に警官を呼びたい」などの行動の根底にあるのは、「犯罪を報告することが期待されている」など、私たちの行動を知らせる社会規範です。
自然言語で記述された現実の状況の豊富なスペクトルにわたって人々の日常の社会規範と道徳的判断を研究するための新しい概念形式である社会化学を提示します。基本的な概念単位として、「午前5時にブレンダーを実行するのは失礼です」などの292kの経験則をカタログ化した大規模なコーパスであるSocial-Chem-101を紹介します。各経験則は、善と悪の社会的判断、道徳的基盤、予想される文化的圧力、想定される合法性など、人々の判断の12の異なる側面でさらに細分化されます。https://arxiv.org/abs/2011.00620

これまで、様々な国際学会やコンソーシアムのキーノートの中で、AIと「倫理と道徳」(Ethics)の問題について議論されてきた。
しかしその段階では、まだ議論の土台の模索に止まり、実際にAIが何らかの美的感覚を持ちうることや、倫理観・道徳観を持ちうる可能性について指摘されていたに過ぎず、実際に「美しいとはなんであるか」「道徳的な行動とはどういうものか」という段階に踏み込んだ論文がここ数週間で目立つようになってきたのは印象的だ。

「美しさ」を数値で表すことは、できるのかもしれないが、非常に非道徳的な感じもする。
たとえばあの人の美しさを100とすると、別のあの人の美しさは92である、という主張をAIがしたとき、人はその評価を納得できるだろうか。

「美しさ」は、非常に強力であるが故に危険な概念でもある。

「美しさ」は宗教観や哲学とも密接に繋がり、ある哲学で美しいとされるものが別の哲学で醜いとされることもないわけではない。絶対者を認める宗教と認めない宗教があるように、AIが「美しさ」を語り始めると本気でこの厄介な問題に取り組まなければならない。

たとえば、UAVの飛行動画がプロによるものかアマチュアによるものかを判定する、という思想自体がけっこう危ない。
なぜならUAV動画の世界はまさにいま黎明期あり、「正しいプロによる美しい画像」とはなにかという明確な定義があるわけではないからだ。
それでは「すごいアマチュア」の出現を予期できない。もちろん、大半のアマチュアによるUAV映像がヘボヘボだという前提があってこそだが。

UAVならともかく、ポートレートみたいなものに広げると、今度はカメラマンがプロかアマチュアかであるかどうかよりも、撮影対象のモデルがどうなのかという問題に踏み込むことになる。もちろんプロとアマの腕は違うは違うと思うが、多くの場合、カメラのプロはセオリーを守って撮影している。言語化できそうなものはとっくに言語化されており、それでも「プロは違う」と唸らせる一枚はほとんど偶然の産物に近い生まれ方をするので、果たしてある写真や動画がプロによって撮られたどうかを判定することに意味があるのか、というと倫理的な問題に漸近的に一致していく。

以前、友人の雑誌編集者が表紙ページの撮影をするというので遊びに行かせてもらったことがある。
当時CMなどにもよく出ていた人気の若手女優がモデルで、準備だけでたっぷり数時間、撮影が始まってさらに数時間、衣装を変えてさらに数時間であっという間に1日が過ぎていった。遊びに行く、という感覚ではかなりの苦行である。

さて、やっと終わったから、一杯飲みにでも行こうと言ったら、「何言ってんの。本番はここからだよ」と今度は編集者は撮影データを片っ端から画面に並べ始めた。
いうて数千枚の写真である。同じモデル、同じ衣装、同じライティングの写真が数千枚並び、それを次々に選別していく。「これはアリ」「これはナシ」数千枚を半分に絞り込み、さらに半分に・・・途方もない時間がかかっていた。

僕は途中から飽きてしまってガラケーのゲームなんかを遊んでいたのだが、それから小一時間ほどが過ぎて、彼が肩こりを気にしながら首を回し始めたので後ろから覗き込んでみると、数百枚まで絞り込んだところだという。

「何が違うのかわからない」と言うと、彼は数百枚をすでに10くらいのグループに分けていて、「これは女子アナっぽいやつ」「これは本人の年齢より少し若く見えるやつ」「これはもっと若く、ティーンっぽく見えるやつ」「これは少し大人っぽく見えるやつ」「これはグッと大人っぽく、色っぽく見えるやつ」などと解説された。確かに、そう聞けばそのように見えなくもない。

「なにを基準に一番いい写真を決めるの?」と聞くと、彼は答えた。

「時と場合によるかな。たとえばこの子の場合、今、家電製品のCMに出ていて、娘役のイメージが強い。こういう文脈のときに、娘っぽく幼く見える写真で王道を行くか、それとも逆に色っぽい写真にして違った面を強調するか。ビミョーな差なんだけどね。あとは編集長と相談かな」

彼は何十年もそうやって雑誌の表紙を選んでいるのだという。
僕が中学生の頃から彼の選んだ表紙の雑誌を買っていたことを考えると、彼の美的感覚を僕は否定できない。

大人になれば誰でも、中学校の道徳の時間に習ったことが道徳や倫理の全てではないと知っている。
美術の時間に、先生は「これが美しいものの条件です」といったようなことを提示した記憶はない。僕の中学の時の担任は美術専攻だったから、なおのことだと思う。

美意識や道徳観は、人それぞれだ。
「人それぞれ」で片付いてしまうものをAIという媒介者(ミディアム)を経由することによってあたかも絶対的な基準であるかのように主張し始めるのは、実際には分断の始まりという気がする。

たとえば「これが道徳的なことです」と主張するデータセットが、実際にどのくらい道徳的なのか、中身を読むまでわからないし、それは国や宗教によっては道徳的とみなされないものかもしれない。

もちろん世界共通の、非人道的行為はある程度はあるとしても、国や州が違えば法律が変わり、宗派が違えば戒律も変わる。

こうした、「教える側」の問題ももちろんあるが、そもそもAIは今のところ人間に共感することが極めて難しい機械でもある。

あくまでできるのは「共感したフリ」であり、「心からの共感」ではない。
今のAIに心があるとかないとかを議論するつもりはないが、確実に言えるのは、もし仮にAIに心と呼べるものが芽生えたとしても、人間の境遇に対して「心から共感」することはかなり難しいだろうということだ。

たとえば、我々人類は今のところAIよりも高度な知的能力を持っていると仮定する。
AIよりも高度な知的能力を持つ我々が、AIに心から共感できるだろうか。

子供並みの感受性がないとこれはかなり難しい。
たしかに我々は子供の頃から、AIの悲哀をドラマを通じて繰り返し体験してきた。

人類を守るために太陽に特攻する鉄腕アトム。自らの存在が消滅することを承知した上で、のび太たちのため歴史改変を行なうリルル。ブルックリンを助けるために最後の力を振り絞ってカイロン5に特攻するガンヘッド。人類を救う任務完遂のため、二度と戻れない事象の地平面に飛び込んでいくTARS。

我々はロボットやAIに共感して何となく泣くのだが、それは所詮は人間の願いが生んだ物語によるものでしかない。人間には全く無関係な情報を並べられても、そこに何らかの意味や共感を見つけてしまう心理効果がある。

はやぶさ一号機のドラマは多くの人々に共感を生んだが、実際に共感を生んだのは宇宙探査機にロマンを求める人々の内なる心であって、はやぶさそのものが何らかの意思を持って共感を呼んだわけではない。

したがって、AIによる共感や助言は、あくまでも「共感したふり」「助言のようなもの」という、やや渇いたものにならざるを得ない。

「マックスヘッドルーム」では、準主人公の「マックス」は、主人公「エディスン」の記憶をコンピュータ上に再構成したものだ。マックスは共感のような意思を示すことがあるが、あくまでも人間であるエディスンの記憶の断片として共感めいたセリフを引用するに過ぎない。

人間たちはマックスに倫理観や常識、道徳といったものを教えようと苦心するが、多くは無駄骨に終わる。

ただ、無数のべらかず集的な文章を読ませて「倫理とはこういうものである」と教えるよりは、人間の記憶をなんらかの形で読み取り、それを参考にしたほうがまだ共感に近いという気はする。

神林長平の小説に「名前は、名付けられた側ではなく、名付けた側を変容させる」というような一節があったと思うが出典を失念してしまった。
同じように、AIはただ作られただけでは単なるモノだが、名付けられた瞬間から、名付けた側に愛着や執着、感情移入を引き起こす。人間は共感する対象を生物に限定しない。海でも山でも風景でも、なんにでも共感し、涙を流すことができる。

AIの論文として、美意識や哲学、道徳に踏み込むようなものが目立つようになってきたのは、逆に言えば、従来からの研究が大きな区切りを迎えつつあることへの反動かもしれない。

2012年頃まではAIの研究は巨大なコンピュータがなければ不可能と思われていた。Googleが1匹の猫に反応する人工知能を開発するのに要した電気代は数億円とも言われる。
そこからGPUの活用に注目が集まり、ここ数年までは秋葉原で売っているPCに最新のGPUを載せれば誰でも最先端の研究に参加できるようになった。

ところがここ1、2年はGPT-3のように再び巨大な計算資源を使わないと実現できないような研究が目立つようになってきた。こうなると、困るのは世の中の大勢である、資金源を特に持たない研究者たちだ。F1レースに誰もが参加できるわけではないのと同様、在野の研究者たちの興味の矛先は、巨大な計算資源を必要としないがより重要なテーマ、つまり美意識や道徳や倫理といっより本質的な問いに移っていったとも考えられる。

もちろん、今は無謀なほど巨大に思えるGPT-3も、近い将来、秋葉原で売られてるPCで動くようになる日が来るはずだ。これは歴史的必然であり、不可逆的な流れでもある。
そのとき、AIは本当の意味での美的感覚や道徳観を持っているだろうか。