ノーム・チョムスキーはアメリカ合衆国の哲学者、言語学者、認知科学者、政治哲学者である。
チョムスキーは人間は生まれながらにして言語を理解するための能力が備わっており、その能力を駆使することで短期間にどんな国の言葉でも学習することができると説く。別の言い方をすれば、あらゆる言語の根底には本質的に同じ性質を持つ「普遍文法(Universal Grammer)」が存在し、英語や日本語、ドイツ語、スワヒリ語などは普遍文法から生成された表現形に過ぎないのだという。
チョムスキーの主張するところでは、全ての言語は生成文法(generative grammer)に基づく。
筆者がなぜ全く専門外に思える言語学に興味を持ったのかといえば、この「生得的に持つ普遍文法」なるものが人間にのみあるとすると、人工知能においては大問題になるからだ。
よく知られているように、ディープラーニングは人間に限らず、生物が持つ神経細胞の性質を模倣して作られている。さまざまな手法や組み合わせがあるが、基本は「(人間に限らない)生物が持つ神経細胞の模倣」であるということだ。
つまり、もしも人間だけが生まれながらにして持っている「器官」が言語の習得に必須のものということになれば、現在のディープラーニングによる自然言語解析(または自然言語理解)といった活動は全くの徒労に終わるはずだからだ。
実際、東京大学の酒井邦嘉教授らは、チョムスキーの理論に基づき、MRIを用いて文法を解釈する器官の特定に成功している。
ディープラーニングの立場から言えば、たとえば視覚野という器官と同じ機能を果たすのがフィードフォワードネットワークだと考えると、現在主流となっている自己注意ネットワークはこの普遍文法を担当する器官と同じ機能を果たしているのかどうか、ということになる。
ディープラーニングのやや胡散臭いところは、生物の構造にヒントを得ていながら、性能向上のためには生物の構造をあえて無視するというご都合主義にある。あくまでも生物の構造はアイデアを得るためのヒントに過ぎず、欲しいのは道具としてのアウトカムであるという、純粋科学からみると至って邪道だが、工学として考えると極めて真っ当な方法論に基づいている。
そうすると、脳機能の一部として普遍文法があるのかないのかという議論とは別に、そもそもディープラーニングは普遍文法を再現できるのかという問いが生まれてくる。
筆者個人としては、これはイエスと答えられる日も近いのではないかと考えている。
なぜか。
ここ1、2年の話題の中心は自己注意ネットワークに大量の文書を学習させた事前訓練済みモデルをベースに、英語以外の他言語や、言語ですらない画像にまでその範疇を広げようという動きだ。
どういうことかというと、ほんの半年前まで、すなわち2020年の夏頃までは、画像を分類したり生成したりするには畳み込みニューラルネットワーク(CNN)を使うのが普通だというのがこの界隈の常識だった。畳み込みニューラルネットワークは、正しく人間の視神経から連なるV1野、V2野以遠の層状構造を結果的に再現したものと考えられる。
しかし、視覚と表現が密接に結びついているとはいえ、感覚的には、視覚が直接絵画などの表現に至るわけではないため、CNNを用いた画像生成は、視覚野の信号を逆流させるような生物学的にはあり得ない前提に基づいて行われていた(この辺がご都合主義と感じる所以だ)。
人間による画像表現を再現しようと思うのならば、本来は視覚野からの情報を元に運動に変換し、運動によって生み出された「描きかけの絵」を、再び視覚野にフィードバックして上達していくようなプロセスが必要なはずである。
もちろんこういう研究もなくはない。
出典:https://jiupinjia.github.io/neuralpainter/
ただし、論文の締め切りが短いせいかわからないが、どうも多くの研究者は結論を急ぎすぎのようにも見える。
人間の創造性というのは、決して「あれに似てる」から「イイ」というわけでもないのだ。
カメラが普及した時代にシュルレアリスム運動が起きたように、人間の表現や創造性の本質というのは視覚情報のみに頼っていてはうまくいかない。
昔、iPhoneが出たばかりの頃に、写真を薄く表示して、それを指でなぞると色をピックして誰でも手軽に絵画風の表現を楽しめるというアプリがあったが、あれは絵画の本質から最もかけ離れた例の一つだと考えられる。表層だけ似ていても、本質的には全く異なる活動なのだ。
ところがわずか六ヶ月前に世界は大きく変わった。それまで専ら視覚野のモデルに頼りきりだった世界に、忽然として自然言語処理の大群が乗り込んできたのだ。
OpenAIが開発(というべきか。訓練?養成?)した、GPTと呼ばれる自然言語処理モデルは、原理そのものは典型的な自己注意ネットワークでありながら膨大なパラメータを持ち、膨大な文章量で学習した、正しく言語のお化けのようなモデルに膨れ上がった。GPT、およびBERTと呼ばれる一連の仕組みは、非常に興味深い特徴を備えている。
こうした最新の自然言語モデルの面白いところは、英語で事前学習させたモデルであっても、そのあとで日本語や他の言語に転移学習(ファインチューニング)することで短期間かつ手軽に高性能な言語モデルを取得できるということだ。
専門外の人から見れば「それがどうしたの?」と思うかもしれないが、これは大事件なのである。
もともと、転移学習は視覚モデルではよく用いられてきた。たとえば、大量の風景写真を学習させた視覚もでるに対して、あとから大量の顔写真を転移学習すると、ゼロから学習するよりも簡単に特徴をつかむことができる。
これは、画像には普遍的な特徴があり、たとえば「斜めの線」や「縦の線」などの局所的な特徴は、対象が風景写真でも顔写真でも変わらない。だから転移学習が効果的に行えるのは、視覚的にも納得感がある。
しかし、英語と日本語は全然違う。ただ違うだけでなく、使用する文字の種類も違えば、単語の区切りも違う。日本語や中国語は欧米圏の言葉と違い、単語がスペースで区切られているわけではないので事前に様々な方法を使って言葉を分解する。場合によっては、この時点ですでに日本語ではなくなっているヘンテコな中間言語になってるのだが、これを英語しか知らない自然言語処理モデルに転移学習させると、なんとびっくり、あっさりと高い性能を出してしまうのである。
これはいったいどういうことだろうか。英語と日本語が全然違うのは、受験英語で苦労した経験のある人なら誰しも納得することだろう。そもそも主語述語目的語の順序からして違うのである。
もちろん、英語の学習ずみモデルの日本語への転移学習が、本当にゼロから学習するよりも効果的なのかどうかはもう少し議論を待たなければならないだろうが、もしも英語の事前学習モデルから他言語への転移学習が有効な場合、このモデル(AI)には人間が生まれながらにして持つと言われる「普遍文法」を何らかの形で獲得していると言えないだろうか。
この話の面白いところは、チョムスキー自身は「学習説」を否定しているところだ。これは「プラトンの問題」と呼ばれている。
いわく、「子供は聞いたこともない文章を正確に、しかも自由に創作できる」し、それは子供自身の育成環境に依らないことから、人間が生まれながらにして文法能力を身につけているのだ、という主張につながる根拠ともなっている。これに対する批判も少なくない。
筆者に言えるのは、少なくともディープラーニングによって言語を超えた転移学習ができるという事実があり、これは言語には細かな文法の差を超えたところに何らかの「言語理解のための本質的な機能」および「言語の本質的な特徴素」が存在する可能性を示唆していると考えられる。
さらに驚くのは、自然言語モデルの転移学習が、単に言語という狭い範囲にとどまらないことで、昨年秋に発表されたImageGPTは、画像の特徴量を擬似言語化して学習させることで、欠けたピースを埋めるような生成を可能としたり、視覚野の再現モデルよりも高い分類性能を出したりできるようになったことだ。
こうなってくると、そもそも「人間は生まれながらにして普遍文法を持っている」という説にとどまらない。人間は文法どころか、あらゆるものを文法的に解釈できるということでもあるのだ。
つまり、最近の自然言語モデルというのは、自然言語という範囲を悠々と飛び出そうとしているのだ。
人間が時間を認識できることと、こうした自然言語モデル的なものと、実は密接な関係があるのかもしれない。
言語というのは必ず時系列を伴うからだ。
普遍文法を唱えたチョムスキーも、まさか画像理解までもが「文法」として扱われる日が来るとは予想していなかったのではないか。まだご存命のようだから是非とも聞いてみたいものだ。
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちら新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。