п»ї 固有名詞と個体識別『週末農夫の剰余所与論』第17回 | ニュース屋台村

固有名詞と個体識別
『週末農夫の剰余所与論』第17回

6月 28日 2021年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o 株式会社エルデータサイエンス代表取締役。元ファイザーグローバルR&Dシニアディレクター。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

タマネギの苗を昨年3種類合計で250本ほど植えた。今年はサルの被害が最小限で豊作だ。来週はニンニクを収穫する予定。ショウガの芽出しはうまくいっているだろうか。週末農夫は忙しい。

タマネギの収穫=2021年6月19日 筆者撮影

筆者の別シリーズ「みんなで機械学習」は農繁期になって、長期間お休みをいただいている。機械学習には大量のデータが必要で、しかもコーディングの問題をかかえている。機械学習で有名なKaggleよりも初歩的な学習環境を準備しているけれども、データの帰属とコーディングの課題は解決できていない。機械学習はAI(人工知能)技術の中心的なテーマで、最近はディープラーニング技術によって、画像の個体識別、ボードゲームの勝利手順探索、タンパク質の立体構造予測、自然言語処理などでヒトの能力をしのぐ画期的な成果が相次いでいる。この機械学習技術が近未来の産業・経済・社会など、ヒトの生活環境を大きく変革してゆくことは間違いない。しかし、少数の支配的な人びとによる未熟な価値観によって、AI技術の発展が極端に偏ったものとなる危険性は大きい。AI技術が未来に向けた人びとの「可能性」とはならずに、現在の問題すら解決できずに、恐竜の滅亡のような過去の歴史となるかもしれない。「みんなで機械学習」しながら、技術(軍事技術も含めて)は支配(独占)できない、支配的な技術は必ず乗り越えられるということを実証したい。

数学が支配(原理的に解明)できると考える極端な論理主義者は単純に間違えている。数学は論理(ヒト)よりも自然に近い。AI技術の根幹にかかわる数学が支配(独占)できないのだから、AI技術が支配できるはずがない。ディープラーニングの数学的な原理は十分には解明できていない。解明できていないものを支配(独占)できるはずがない。自然言語処理でヒトのレベルの言語能力に達したとされる「GPT-3」は、機械としては独占されているけれども、用途はオープンに運用されている。自然言語(英語)のディープラーニングによる機械学習が成功した仕組みは単純だ。大量の文章(45テラバイト=45×1012バイト、CDに換算すると約1400枚分)をデータとして用意して、文の中の単語をプログラムでマスクする。この穴埋め問題を、データベースから推定する問題を延々と繰り返して学習している。穴埋め問題を自動的に作成して回答するプログラムによって、文章の中の「単語」の意味を学習している。文の前後関係を判断する問題も学習している。この方法が画期的なのは、大量の文章さえあれば、一切の「教師データ」は不必要ということだ。ただし、学習には大規模な専用コンピューターを何週間も動作させるので、大量の電気エネルギーを必要としている。「GPT-3」は言語能力があっても、知識があるわけではない。「GPT-3」の内部のどこかには知識のようなものがあるかもしれないけれども、ヒトが理解できるようにその知識を説明することはできない。

ヒトは言語能力において、他の動物を凌駕(りょうが)している。だからといって、進化論的に「すぐれている」とは限らない。個体識別能力においては、多くの動物に劣っている。タマネギの一つひとつに名前をつけるヒトはいないだろう。サルであれば、おいしいタマネギを確実に見分けている。昆虫なら、ある場所の一つのタマネギで一生の生活に十分だ。個体識別は視覚や嗅覚(しゅうかく)などの感覚の問題ではなく、生活に関係づけられた場所認知の問題だ。AI技術で個体識別がヒトより優れているのは、単にヒトが劣っているからかもしれない。人名や地名など、固有名詞が使われるようになったのは、言語としては比較的新しいと思われる。神話では100とか1000の固有名詞が使われていたとして、現在は100億とか1000億の固有名詞がネットで検索できる時代になっている。ネットではIPアドレスとして、約340澗(かん)個(2128 = 約 3.4× 1038 = 340澗 = 340兆の1兆倍の1兆倍)を必要とする時代になっている。これらも一種の固有名詞かもしれないけれども、個体識別ではない。個体にコードを付与しただけで、その存在場所が特定されていない。もしIPアドレスがGPSシステムとリンクしていたら、ネット犯罪の検挙率は大幅に上昇する。犯罪者は固有名詞として報道されても、刑務所では厳しく個体識別される。

裁判において、電子メールなどの大量の証拠文章から固有名詞を抽出して、事件との関連を推定するコンピュータープログラムが実用化されている。「GPT-3」に固有名詞の識別機能を機械学習させることはできても、個体識別させることはできない。電子メールで偽名を使っても、優秀な検察官であれば、犯罪プロファイリングによって、犯罪者と犯罪の状況を推論するだろう。そのような「知恵」を「GPT-3」に機械学習させることは困難だ。少なくとも、犯罪プロファイリングに関する大量の「教師データ」を必要としている。大量の裁判記録において、判決文を教師データとして、犯罪プロファイリングを機械学習できたとしたらどうだろうか。言語能力だけがある汎用(はんよう)の「GPT-3」と、犯罪プロファイリングなど、文章からの特殊な推論(個体識別)を得意とする専用マシンを複数台同時に使って、本当にヒト(検察官や裁判官)の能力を超えるAI技術を開発する可能性はあるだろう。

固有名詞は個体識別ではないけれども、固有名詞は言語による個体識別の重要な要素であることは確かだ。言語の機能として、感情を表現し、物語を表現することは言語学として研究が進んでいる。論理的な表現では、言語学というよりも哲学や論理学の研究が不十分で、現象学以降大きな進展がない。論理的な表現では固有名詞は意図的に消去される。言語による個体識別には、様相論理などの形式論理よりもむしろ、固有名詞の網羅的解析が役立つだろう。固有名詞を「データ」と考えて、場所や個人の属性のコーディングを自動的に行うことになる。固有名詞にはGPSやIPアドレスなどのデータも含まれる。

「GPT-3」の成功をいち早く学習し、犯罪プロファイリングに応用するのは、米国と中国だろう。相互に仮想敵国を犯罪者として犯罪プロファイリングする。その場合、圧倒的に中国が有利だ。米国は中国語を機械翻訳する必要があるからだ。中国語の機械翻訳は、犯罪プロファイリングのような精密な言語処理の段階には至っていない。日本語に固有の自然言語処理に成功すれば、すなわち漢字を含む文字単位のNグラム(連続したn個の文字で分割するテキスト分割方法、4文字熟語など)による日本語版「GPT-3」がうまくできれば、中国の国家としての犯罪プロファイリングに大きく貢献できる。安全保障分野も含めて、日本の政府や産業界としてもAI技術に積極的に投資をしてもらいたい。「みんなで機械学習」はあえて日本語で機械学習を学ぼうとしている。場合によっては、米国と中国以外の国々と協力して、AI技術の第3極を形成していきたい。もちろん、第4極や第5極であってもかまわない。AI技術の多様性と多元的な競争は、近未来の世界全体の安定性にかかわる。「みんなで機械学習」をゆっくりと楽しむことができるようになりたいものだ。

--------------------------------------

『剰余所与論』は意味不明な文章を、「剰余意味」として受け入れることから始めたい。言語の限界としての意味を、データ(所与)の新たなイメージによって乗り越えようとする哲学的な散文です。カール・マルクスが発見した「商品としての労働力」が「剰余価値」を産出する資本主義経済は老化している。老人には耐えがたい荒々しい気候変動の中に、文明論的な時間スケールで、所与としての季節変動を見いだす試みです。

One response so far

コメントを残す