固有名詞
『みんなで機械学習』第41回

6月 19日 2024年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千×千×千×千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス アンド テクノロジーへ

2.3 データサイエンス テクノロジー アンド アート

2.4 データサイクル

2.5 データベクトル

2.6 局所かつ周辺のベクトル場としてのデータとシミュレーション

3  機械学習の学習

3.1 解析用データベース

3.2 先回りした機械学習

3.3 職業からの自由と社会

3.4 認知機能の機械学習とデジタルセラピューティクス(DTx)

3.5 学習は境界領域の積分的探索-ニッチ&エッジの学習理論

3.6 機械学習との学習

4  機械学習との共存・共生・共進化-まばらでゆらぐ多様性

4.1 生活と経済の不確実性

4.2 生活と経済に関連する技術は、何を表現しているのか

4.3 スモール データ アプローチ-個体差のまばらでゆらぐ多様性

4.4 まばらでゆらぐ多様性の過去・現在・未来

4.5 生活の不確実性を予測する

4.6 弱い最適化脆弱性/反脆弱性からのスタート

4.7 ひとつのビッグ予測、たくさんのスモール適応

5  自発的な小組織(seif-motivated small organizations)

5.1 社会、地域、家族 vs. 国家、企業

5.2 組織は組織でできている組織サイクル

5.3 機械学習する組織

5.4 CAPDサイクル

5.5 ビジネス表現の個体差(AI中心8画面周辺モデル)

5.6 組織の周辺積分的思考

5.7 データサービス商品を創出する知的自由エネルギー産業-固有場知能農業

6  おわりに;生活と社会のビューティフル ランダム パターンズ(前稿)

6.1 ほとんど色即是空・空即是色な世界(前稿)

6.2 ランダムな人びと(本稿)

前稿(『みんなで機械学習』第40回)に、「ランダムパターンズ」の「自由度」が、「ビューティフル」かどうかは、人びとと共有する表現の場が「自由」であることを問うているようにも思われる……、と記載した。意味不明なので、再考してみよう。「ランダム」な「パターン」は、論理的にはありえない、または想像しがたい。「パターン」があれば「ランダム」ではないからだ。しかし、マクロに見ればパターンがあっても、ミクロにはランダムであることもありうるし、そのパターンにも大きな自由度があって、パターン自体がランダムであることもありうる。論理的には想像しがたい「ランダムパターンズ」を見た時に、人びとが「ビューティフル」と感じるかどうかは、少なくともそのパターンが邪悪で危険なものではないことは当然として、ある程度「ビューティフル」と共感できる人びとと共に、「表現の場」を共有していることが必要だろう、ということが言いたかった。「表現の自由」という政治的な概念ではなく、「表現の場」は「自由」な人びとによって共有される批評の言語空間や、美術館などの公共空間を意味していて、自由なアートの立場で考えている。個体差の機械学習においては、個体差を表現する場を見いだすことが重要だと考えているので、そのような「表現の場」を見いだすためには、「自由」な人びと、筆者の妄想(もうそう)では、「ランダムな人びと」と共に冒険する、という話の展開になる。

常識的な文脈では、人びとの生活習慣などはランダムではないので、母集団でのエビデンス(統計的に真な命題)を検討するために、臨床試験では人びとを無作為割付(ランダム化)することになる。母集団における平均的な挙動ではなく、個体差を強く意識して、患者個人の予後を予測する個の医療においても、大量のデータがあれば、個体差を含む統計的なモデルによって、ある程度の個人ごとの予後予測が可能になる。大量のデータとは、特定の地域や特殊な疾患での1万人程度のデータだろうか。いずれにしても、母集団を複数の部分集団に分割して、部分集団ごとに予測モデルを作ることになる。部分集団が、性差や年齢によって、ある程度推定できる場合には、層別解析を想定したデータの収集方法も考えられる。しかし、希少疾患などで、大量のデータがありえない場合や、個体差を生じる要因が全く見当がつかない場合など、従来の統計的な方法ではほぼ無力な場合は、臨床的な医師の経験や、患者の希望的観測に依存せざるを得ない場合も少なくない。そもそも、患者個人の予後を予測するのだから、患者自身のデータが膨大にあれば、さらに、患者自身のデータが大きなランダム変動をともなうのであれば、従来の統計的な方法とは別種の、臨床的な医師の経験や、患者の希望的観測により近い、機械学習の方法がありうるだろう。筆者の研究領域では、バイオマーカーによる予後予測に、個体差をともなう機械学習の方法、フェノラーニング®を応用する課題だ。筆者の課題も、20年ほど前には、個体内変動と個体間変動の関係をモデル化するという、より統計的なアプローチを考えていたけれども、現在は、患者自身の判断または試行錯誤にともなう、大きなランダム変動を機械学習するという方向にシフトしている。

ランダムな人びとは、想定する物語の周辺で、冒険する人びとだ。標準的な治療法で良好な予後となる疾患では、あえて冒険する人はいないだろう。確立された治療法がない、もしくは高価なのに効果には疑問がある場合や、安全性に疑問がある場合など、医学的なアドバイスに頼りきりになるのではなく、よくわからないけれども、冒険したくなる時がある。医学的な問題だけではなく、解決方法がよくわからない社会問題や環境問題など、専門家の判断に依存するのではなく、試行錯誤が有効な問題は多数考えられる。試行錯誤を冒険と呼んでいる意図は、試行錯誤の対象となる人びとや、社会実験を行う当事者達だけではなく、ほとんど関係ないけれども興味を共有するサポーターのような人びとも含めて考えている。現代の文脈では、冒険者を経済的に支援するスポンサーが、サポーター相手に、無意識的に目撃する広告を行うことで、好意的なメッセージを伝えるようなものだ。冒険者が軍隊で、スポンサーが国家の場合は、国民がサポーターであるかどうかを問わずに、ほぼ強制的に宣伝を行う場合もあるので、「表現の場」が「自由」ではない場合は、とても危険な冒険となる。

芸術家を代表格とするランダムな人びとは、自身の生活すら省(かえり)みないで冒険をする。現在はサポーターはいない場合であっても、「表現の場」は確実にとらえている。冒険を避けて生活をしている人びとも、自身のライフサイクルでは、多くの冒険を経験しているはずだ。ランダムな人びとそれぞれの周辺に「表現の場」があって、表現者のネットワーク、作品のネットワークに加えて、「表現の場」のネットワークが多層的に絡み合っている。そういう多層的な関係を、予測誤差を指標として、組み合わせ論的に構成する機械学習によって理解することができるかもしれない、できる場合もありはずだという仮定が、フェノラーニング®の出発点であり、到達点でもある。

中世以降の政治的な権力者は、隙間(すきま)なく論理的に(多重ではなく)領地を支配することを目指したので、農耕地の面積に比例する税金(年貢)のシステムを重要視した。通商を独占的に管理する目的で、関税のようなシステムを作るけれども、商人の2重帳簿の知恵のほうが優っていたようだ。現在の税制は、所得税や消費税など、より精密な根拠(エビデンス)による税制となっているけれども、言語(法律)で定義できる範囲であるため、ネット商人のAI(人工知能)技術には追い付けていない。しかし、中世にはすでに、非人や悪党が活躍し、人びとに受け入れられ、田畑に束縛されない人びとが、技術や芸能を育んでいた(『無縁・公界・楽-日本中世の自由と平和』〈網野善彦、平凡社ライブラリー、1996年〉)。ランダムな人びとは、政治的な支配から漏れはずれて、創造的な活動を行う人びとでもある。ランダムウォーク(酔歩)のような、短期的なランダム変動ではなく、個人や社会に予測困難な大きな変革をもたらすので、ランダムな人びとというよりは、カオスな人びとというほうが適切かもしれない。個体差の機械学習が実用化する社会では、ランダム(カオス)な人びとが主役となって、AIツールを使いこなすという近未来に、希望を見いだしたい。

6.3 データ化する私(本稿)

インターネット上の個人情報に限らず、購買履歴や防犯カメラの情報など、自分自身のデータが、ほとんど意識することなく、巨大企業や国家に収集される時代となった。医療画像についても、MRI(磁気共鳴診断装置)の3次元画像など、自分自身の身体の詳細なデータが、病院のコンピューターに管理されている。膨大な量の、自分自身のデータが、そのデータのコピーが、多数のコンピューターに記録されている。そのすべてのデータを集めてきて、AI技術で解析すれば、どのような自分自身の意味が発見されるのだろうか。購買履歴や防犯カメラの情報、MRI画像も、それぞれ部分的には、AI技術で自動的に解析できる。自分自身のデータに、社会的な意味や経済的な価値があることは自明であっても、自分自身のデータから、どのような自分自身の意味が見いだされるのか、「言語的な意味」以外の意味があるのか、考えてみよう。

自分自身がデータ化されていることの意味、すなわち、巨大企業や国家によって、本人が意識しない状態でデータ化されていることの意味は、多くの場合、隠されている目的があり、その意味を正確には知りえない。データを所有している巨大組織も、その意味の大部分を知らないか、見逃しているのが現状だろう。データを所有することが、市場や社会における支配力になると仮定されているのだろう。一方で、自分自身が主体的に、DIY(Do It Yourself)で、自分自身をデータ化する場合は、哲学的な意味も含めて、思考実験できるようになる。

太古から人びとは、物語を語り継ぎ、超越的な人格(例えば神)の存在を信じてきた。しかし、物語や神が文字によって記述されるようになると、人びとは超越的な存在を見失うようになった。大量の文字が印刷され、情報や知識が氾濫(はんらん)した。「神は死んだ」という哲学者も現れた。筆者は、物語としての冒険を信じている。哲学には冒険がなくなってしまったのだろうか。冒険は、未知への越境であって、超越的な人格を見いだすことも冒険に含まれる。ギリシャ哲学は、超越的な数への信仰と、論理の冒険をツギハギにして誕生した。論理の冒険に代わって、機械学習の冒険を哲学するようになれば、自分自身をデータ化する哲学的な意味が見えてくるかもしれない。

文字には数字も含まれ、情報や知識が数学的に表現されるようになった。文字としての数字以前にも、太古では、骨や石に削り跡の1対1対応を作って、取引の記録(認証)が残されていたようだ。すなわち、太古から数概念やデータによる記録は存在していた。現代では、情報技術の発展によって、データ量が飛躍的(指数関数的)に増加しただけのことかもしれない。データ量の増加は、人類の言語能力の限界を超えて、コンピューターが言語を理解するかのように動作したり、コンピューターの予測を言語では説明できない(確率としてしか表現できない)状況になったり、人類としては、コンピューターとの共進化を無視できない社会で生きている。もし、私が1時間後に頭痛を感じる確率は40%であると、私の健康アプリがアラームを発したら、私はどうのように反応するのだろうか。自分自身をデータ化する医学的な意味は明確でも、哲学的に、医学的な意味以外の意味はあるのか疑問になる。

自分自身をデータ化することには、身体的なデータ以外にも、自分自身と関係がある、自分の周辺のデータ化もありうる。視覚・聴覚・触覚・臭覚・味覚などの感覚データは、それぞれが独特な距離感を持つ、自分の周辺データだ。自分の社会的関係のデータに、政治や宗教との関係も含まれるかもしれない。自分の社会的関係においては、特に犯罪行為に関係する場合に、偽物の自分データを作る必要があるかもしれない。身体データや社会的関係における自分データは、自分自身を「透明」にする。偽物の自分データで、社会と同程度に不透明にするのだろう。自分自身が透明になるということは、「意識」の哲学的な意味を見失うということになるかもしれない。言語を乗り越えてゆく、大量の自分データによって、得るものは大きいかもしれないけれども、見失うものもあることにも注意する必要がある。

現在の機械学習技術が不得意とすることは、固有名詞の理解だ。固有名詞は、状況に応じて別の呼び名があったり、別の書き方があったり、固有名とは限らないので、名寄せの作業が必要になる。名寄せの作業は、ある程度自動化できるようになってきたけれども、固有名が時代とともに変化するような、複雑な状況には対応できない。一般の人びとのデータ化の場合は、必要となる固有名詞の数は膨大になり、地名に番地を使うように、数字で表現することになる。インターネットのIP6アドレスは、128ビットで表現され、10進数で39乗の大きさとなり、アボガドロ数(6.022×1023)よりもはるかに大きい。インターネットに接続される機器の固有名としては十分だとしても、人類が知りえた最大の対称性(モンスター群の位数)が10の54乗の大きさになるので、一般の人びとのデータが仮に196,883次の正方行列で表現できるとすると、モンスター群程度の変化がありうるので、人びとのデータの固有名詞の数は、128ビットの世界ではなく、256ビットの世界になるのかもしれない。固有名詞が少ないので、機械学習がうまくいかないということを言いたいのではなく、そもそも、固有名詞とは何かという「概念」が明確に定義されていないため、学習しようがない。固有名詞は、個体差がある(識別可能な)個体と、1対1対応している。私には容易に識別可能な個体であっても、私とは全く無関係な他者には識別可能かどうかわからないし、個体を識別する一般的な基準を作ることは困難だ。私の生活には、私が意識せずに識別している固有物が不可欠で、私と同棲(どうせい)するロボットであれば、その全てに固有名詞を割り当てるだろう。仕事や生活を支援するロボットは、確実に進歩して、実用的なものになるけれども、固有名詞の機械学習は、時間をかけて、副作用や誤動作を検証しながら、段階的に進めてゆく課題となるはずだ。米国の巨大ITテック企業が、資金集めのための宣伝をしても、その多くは、フェイクニュースといわざるを得ない。騙(だま)されないようにしよう。

自分自身をデータ化する哲学的な意味の入り口に近づいている。このように難しい問題は、食べて試行錯誤するしかない。「データを食べる」冒険によって、自分自身をデータ化する哲学的な意味を探求してみたい。地球型の細胞生命は、ウイルスを食べることで学習してきた。もちろん、ウイルス以外の、多くの栄養成分も食べて学習している。食べられたウイルスは、細胞内で分解(消化)される場合もあるけれども、遺伝子DNAの中に複写されて、遺伝子の中で増殖するように適応したウイルスもあるようだ。細胞生命としては、遺伝子にウイルスを記憶して、再利用するチャンスをうかがっているともいえる。細胞生命とウイルスの共進化は、弱肉強食の古典的進化論より、はるかに興味深い。ウイルスはデータそのものなので、「データを食べて」学習していることになる。

「データを食べる」のはフェノラーニング®の機械学習プログラムだ。「食べる」機能は、栄養状態を維持・改善することなので、身体データの場合の栄養データについて考えて、経済データにおける栄養データとは何か、想像してみたい。次シリーズでは、フェノラーニング®を活用する近未来の農業において、農業が健康や経済と直結する(逆転する)産業構造の変革を提案しよう。

◆次回の予定

6.4 延長されたフェノラーニング®

 

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す