人工言語と自然言語。その曖昧にして決定的な境界

2021.09.12

Updated by Ryo Shimizu on September 12, 2021, 05:28 am JST

プログラミング言語や数式のように、人間が意図的に厳密な意味と定義を作り出した言葉を人工言語と呼ぶ。

それに対して、人間が生まれながらに使う言葉を自然言語と呼ぶのが一般的だ。

ところが、一般に自然言語と呼ばれているものも、一種の人工言語的な側面があることには、あまり注意を向けられていない。

たとえば、日本人なら誰でも、国語の授業を受けるはずだ。
国語の授業では、決して生まれながらに使う言葉を習うわけではない。

漢字の書き取りでバツがついたり、長文読解でバツがついたりする。この性質は、数式の計算を間違うとバツがつくのと同じで、多くの日本人は幼少期の成長過程において、「日本語」という半人工言語の文法を叩き込まれるのである。

人々が普段目にする「書かれた言葉」である文章と、人々が普段口にする、「話された言葉」である口語は文法がそもそも違う。

口語をそのまま文字に落とすと、とても読むに耐えない。口語のように見える文章であっても、そこには厳然たるルールが存在し、ちゃんと「読める口語」としての台詞に変換されている。

では口語が真の自然言語なのかと言えば、そうでもない。口語であっても、生まれた瞬間から、両親や兄弟や友達と言った周囲の人に言葉を直され、間違えば笑われ、もしくは通じないことに苛立ちを感じ、通じれば喜びを感じるといった報酬系によって強化学習される。

ということは、真の自然言語を話す人間などどこにもいない、ということになる。

いわゆる自然言語と人工言語の違いは、実際にはこうした些細なことでしかない。
にもかかわらず、人工言語に比べて自然言語はなんと扱いづらいのか。

自然言語が自然言語たる所以は、使われながら文法や言葉の意味が変化してしまうことだ。
新語が生まれたり、昔からある言葉が別の意味を持ったりするようなことが頻繁に起こる。

近年の人工知能は、あらかじめネット上のできるだけ多くの言葉を学習させた基礎的な言語モデル、いわゆるファウンデーションモデルを用いて、それを目的に応じて再学習して使うというのが主流だ。

しかし、本来の自然言語が変化し続けるものだという前提を考えると、現在、自然言語の処理でもっとも優れた性能を持つと言われているGPT-3系のファウンデーションモデルであっても、十年後には陳腐化して使いものにならない可能性がある。もちろん常に新しい言葉を再学習させ続ければ、一年くらいの賞味期限を毎年更新することはできるかもしれない。しかし常に新しい言葉の学習が必要なものを「ファウンデーションモデル」と呼べるだろうか。

自然言語で新語が発生してしまうのは、自然言語を使う人同志での合意形成に必ずしも正確な文法や意味を必要としないからだ。

特に日本語においては、どのような漢字二文字の組み合わせでも、強引に意味を伝えうる。日本語は特にそうだが、日本語話者が全ての日本語の単語を知っているという前提はそもそも共有されていない。

こちらが話す単語を相手が知らないかもしれない前提では、新語はさらに生まれやすい。
人は知らない単語を聞いた時、無意識にでも意味を類推してしまう。この類推の過程で誤解が生まれ、それまでその言葉が持っていなかった新しい意味が付加されたり、意味が変化したりする。この相互作用は言葉がやり取りされる度に行われ、しばしば全く合意形成ができないまま唐突に終わる。

この相互作用を無視して「静止した自然言語」だけを扱おうとするのが、ディープラーニング以前の昔ながらの自然言語処理だった。

口語に着目すると、親しい間柄同士では新語が生まれやすい。新語というよりも符牒に近い。
ある時期、筆者の周りでは中性脂肪のことを「実力」と呼ぶのが流行したことがある。

「太ってきたね」と言う代わりに「実力ついてきたね」と言うのである。

もちろんこれは仲間内でしか通用しない符牒だが、営業マンの間では、朝まで酒を飲んで暴飲暴食するのが仕事と信じられていた(今では信じられないような)時代があり、そうすると必然的に太ってくるので、これを実力というポジティブな表現に言い換えていたのだ。

新語の導入には、当然、仲間内であっても合意形成が必要だから、誰か「実力」を「中性脂肪」の言い換えとして使っている人が、それを知らない人に話すときに、注釈として「実力ってのは中性脂肪のことだよ」と添え伝える。この言葉使いのおかしさ、面白味が共感を生むと、その言葉は伝搬していく。

筆者が高校に入った時、初めて新潟県内の色々な方言を持つ人々が集まる場を体験した。
学区がなく、全県一円から生徒が集まる高校だったので、新潟県内の細かな方言のあれこれが一気に交わったのだ。

都会で育った人には想像もつかないだろうが、田舎で育つと、山一つ越えれば方言が違うのは当たり前である。

たとえば、南魚沼あたりで育った友人たちは、「おじ」とか「おば」とかの話をよくする。しかも、「おじ」も「おば」も話を聞いているとだいぶ若い。田舎の方は叔父や叔母と友達みたいに接するくらいに両親の兄弟姉妹が多いのか、としばらく誤解していたが、半年くらいして、「おじ」は弟、「おば」は妹のことだと教えてもらって面食らった。

またある時、誰かが「チョッセー」と言っていて、それがどう言う意味なのか筆者には類推できなかった。
「あいつチョッセーよな」と言われても、チョッセーがどういう意味なのかわからない。今振り返れば、これはBERTの学習に近い。つまり、チョッセーをマスクして「あいつ■■■■よな」を類推すると、あまりポジティブな言葉は浮かばない。

実際、このチョッセーは「ちょっとダセェ」くらいの意味ではなかったかと思う。

また別のある時、僕はサンフランシスコで美味しいと評判のイン・アンド・アウトと言うバーガーショップに初めて訪れた。メニューはとてもシンプルで、バーガーとダブルバーガー、それにチーズを入れるか入れないかくらいしか選択肢がない。にもかかわらず、僕は注文に苦戦していた。

「Do you like アイニョン?」

と聞かれたのだ。
アイニョン?と首を傾げると、愛嬌のある笑顔を浮かべた店員が両手で円を作って「アイニョン」と言った。

それでもさっぱりわからないので肩をすくめると、今度は別の店員が白くて丸いものを持ってきて僕に見せた。

「アイニョン」

僕にはアイニョンとしか聞き取れなかったものは、実際にはオニオン(玉ねぎ)だった。
つまり、バーガーに玉ねぎを入れるかどうかを聞かれていたのである。

これはラーメン二郎の「ニンニク入れますか」と言うのと同じで、このお店では定番の質問だったようだ。そもそもアメリカにいてもオニオンを発音で聞くことなど殆どない。初めて聞いたので全く聞き取れなかったのだ。

アメリカ人が正しい英語を喋っているかどうかと、それを聞き取れるかどうかは全くの別問題だ。
ある国際会議では飲み会の間中、ずっとaとeの発音を逆に喋るアラバマ訛りの学者と話したこともあったし、それぞれの土地にしかない方言もある。スペイン語を関西弁のような感覚で喋る人もいる。

そもそもアメリカにいる人がアメリカ人とは限らない。
ある時、ホテルの部屋を清掃に現れたメイドさんが、明らかに日系人のように見えたのでチップを渡そうと思って「これチップです。どうぞ」と渡すと、彼女は照れ臭そうに笑いながらこう言った。

「Sorry, I can't speak English」

アメリカでは日系人が日本語を喋れないのは普通だ。でも彼女は中国系だったのかもしれない。
見た目ではその人がどのような国の言葉を喋るのか全くわからない。

東京でも店員さんが外国人ということがもはや珍しく無くなった。
これは20年前まではかなり珍しかった。

アイニョンがわからなかったと言う話はしばらく話のネタになり、どうでもいい時でも単に玉ねぎを呼ぶときに「アイニョン」と言う発音を使うようになった。

これが口語の持っている不思議な性質である。
アイニョンという言葉の耳慣れなさと、それが文字では何度も目にしたことのあるonionと言う単語との結びつきの面白さ。口にした時の独特の感覚。その程度の単語の聞き取りに失敗したという気恥ずかしさ。そういうものが総合的に「おかしみ」を醸成して仲間内だけの言葉になっていく。

今の技術の延長線上であっても、BERTやGPT-3のような学習で、一周遅れくらいの頻度で人間の言葉をキャッチアップするAIが作れなくはないだろう。

しかしそれでも、たとえばコロナ禍で急速に日本でも広まった「Webinar」のような新語(と言っても、20年前には英語圏ではごく普通の言葉だった)だったり、これから出てくるかもしれない新しい概念をAIが理解するようになるには、人間と相互作用するか、少なくとも人間同士の相互作用を注意深く観察し続けなければならない。

そして毎年のようにファウンデーションモデルを更新していくことで、むしろ数年前の自然言語と現在の自然言語を定量的に比較することができるようになるだろう。

それでも足りないのは、やはりAIには身体性が決定的に欠けていることにある。
AIにおける身体性という考え方は、今後益々大切になっていくだろう。

クロスモーダルのような単純な話ではなくて、身体を持たないAIが、身体というものをどう扱うべきか、または扱わないべきか、という議論である。これについては、またいつか考えてみよう。