山口行治(やまぐち・ゆきはる)
株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニングのビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
前稿(『みんなで機械学習』第11回)では、個体差の機械学習について考えてみた。哲学の文脈で、概念としての個体差について考えると、少なくとも言語の範囲では、定義矛盾となってしまう。個体であるということは、言語の範囲では、属性や概念ではないことを意味するからだ。一方で、データの世界では、属性に与えられた「所与」(データの哲学的な表現)の集合体が、個体の意味となる。すなわち、個体差は言語ではなく、データの世界で理解することが適切といえる。データの世界において、個体における複数の属性間の構造が明示的に与えられているのであれば、統計モデルによる解析が可能で、統計専門家が活躍する。しかし、医療技術や株価の変動など、個体差に伴う不確定性が問題となる場合、適切な統計モデルが不明で、どのようなデータを収集するのか、どのような構造のデータベースが適切なのかなどの検討が不可欠で、データ解析以前の段階であるデータマネジメントにおいて試行錯誤することになる。機械学習とは、そのようなデータマネジメントとデータ解析を統合して自動化している、最新のAI(人工知能)プログラミング技術だ。技術的には、音楽のレコメンドなど。個体差の機械学習はありふれた課題なのだけれども、医療やヘルスケア、特に新薬開発の「バイオマーカー」における個体差の機械学習は、データ収集の段階から、従来の統計解析とは異質の社会的コンセンサスを考慮する必要がある。さらには、個体差を明示的に取り扱うことで、機械学習技術自体を再考するきっかけになりうるし、AIの新たな技術革新となる可能性もある。
具体的に、薬効を予測するバイオマーカーにおける個体差について考えてみよう。疾患に性差や年齢差がある場合、薬効にも性差や年齢差がありうるので、薬効を予測するバイオマーカーにも性差や年齢差にともなう個体差があると考えられる。バイオマーカーにおける性差が、単純に性ホルモンによる影響であったとしても、性ホルモンと年齢は複雑に交絡しているので、バイオマーカーの個体差はとても複雑になる。例えば、脳の医療画像を、精神科系薬剤の薬効予測のバイオマーカーとする場合、性別や年齢が脳画像からどの程度判断できるのかという基本的な個体差の評価であっても、従来の統計モデルでは困難であった。大量のデータを用いる機械学習では、推定精度が向上することは確実だとしても、脳画像を使った薬効予測のバイオマーカーの個体差と、脳画像における性差や年齢差の推定における個体差の関係を考慮すれば、より少ないデータでより正確な予測が可能になるという、新しい機械学習の方法をフェノラーニングと呼んでいる。筆者が探求しているフェノラーニングは、個体差の機械学習に特化したAI技術だ。
医薬品開発における、フェノラーニングの役割とその実現方法がなんとなくイメージできたと仮定しよう。フェノラーニングは個体差の機械学習に特化したAI技術なので、生理的な個体差以外でも、様々な「個体差」について応用が可能だろう。購買履歴や契約中断のデータなどをフェノラーニングの方法で分析すると、従来の機械学習法よりは推定精度が向上する場合が多い。しかし、その向上率は画期的ではない。フェノラーニングが画期的なのは、個体差を評価する最小限の仮説しか仮定していないので、うまく推定できれば、学習プロセスが理解しやすいことだ。大量のデータを使うディープラーニングでは、予測精度がよい場合でも、学習結果を明示的に説明することができない。ディープラーニングも、画像認識のモデルとしては、脳に似た単純なモデルなのだけれども、大量のデータを処理するために、大量のパラメーター(特に処理層の深さ)を人工的に用いている。ディープラーニングは、大量に電気を消費する、巨大な人工脳になってしまった。
例えば企業や国家のような人びとの集合体は、法律や契約書類で記述されている「組織」であって、社会的な組織にも個体差があるだろう。生体組織からの類推で、構造的な個体差と機能的な個体差がありうる。しかし、人びとの集合体である「組織」が何を表現しているのかと考えると、「組織」の内と外を区別する境界が不可欠で、「組織」の内と外における「順位づけられた場所」を表現しているのではないかと思われる。「順位づけられた場所」は組織の内部構造そのものだし、外部の組織や個人・社会との動的な関係は組織の機能を表現している。すなわち、組織の個体差において、「場所の表現」もしくは「表現の場」を理解することが重要になる。組織の内部もしくは外部の場所を、離散的なネットワークとして表現すれば、ネットワークの重心(またはハブ)やエッジ(境界)から、組織の内部も外部も自然に順位づけられる。これらは構造的な個体差に対応するとして、機能的な個体差はハブとエッジの中間層に集積するのではないかと仮定したい。代謝関連遺伝子ネットワークの研究などから示唆されている調節ノードの考え方で、筆者なりに「ニッチ」と名付けている。
発明や発見は個人の活動の結果であったとしても、組織としての会社や国家が、活動の場を提供していることは確かだろう。産業に有益な技術的な発明や発見は、特許として表現される。特許は制度化された集合知でもある。特許データベースを探索的にデータ解析する技術は、専門家による先行特許検索やパテントマップとして実用化している。しかし、特許の機械学習が、専門家以上の役割を果たす段階には至っていない。大量の特許データを機械学習して、特許に表現された組織の個体差を、ある程度推定可能になるのであれば、特許戦略に定量的評価が可能となるかもしれない。個体差が無いと仮定した場合の正解(合理的な説明)を求めるのではなく、特定の個体差に最適化した戦略を探索するという意味だ。
集合知の機械学習が可能になるということは、企業の特許戦略に貢献するだけではなく、人類の文明を未踏領域にプッシュするだろう。社会的な観点からは、肯定的な側面も否定的な側面もありうるだろう。ヒトが概念や理念によって理解する文字文明ではなく、コンピューターが概念や理念には還元できない個体差を、個体ごとに最適化する(必ずしも最善ではない)データ文明が実現する。おそらく、個体差とは、予測誤差を最小化して、特定の目的関数を最適化する過程で、動的に理解するようなものなのだろう。そのような最適解がビリオン個生成されたとき、未来を選択するために最も信頼できるのは、人びとの生活意識なのだと思う。人びとの生活意識から乖離(かいり)してしまった現代の民主主義は、多くの社会問題を山積みにしているので、必ずしも最善ではないかもしれないけれども、集合知の機械学習に期待したいことはたくさんある。
江戸時代の浮世絵は、西洋絵画の印象派よりも印象的だ。歌川広重「大はしあたけの夕立」における雨の表現は、『スモール・ランダムパターンズ・アー・ビューティフル』にふさわしい。角度の異なる雨が、雨がランダムであることを強調している。ランダムであるという印象は、表現として増幅できるのだ。個体差も、個体差があるということを、表現として増幅している。
歌川広重 「大はしあたけの夕立」 著作権フリー画像
『スモール・ランダムパターンズ・アー・ビューティフル』
1 はじめに; 千個の難題と、千・千・千・千(ビリオン)個の可能性
1.1 個体差すなわち個体内変動と個体間変動が交絡した状態(前稿、第11回)
1.2 組織の集合知は機械学習できるのか – 円周率
死はわれわれを閉じはしない
死は円周を開放している
そとへ出てゆくばかりである
ことばは ならない
意識は
表現に閉ざされることはどけっしてない
死の恐怖が
まだ 敵である
『詩集<枯れる瑠璃玉>』(円周率、堀川正美、思潮社、1970年)
わたしたちの近未来は、私やあなたの生活の延長上にはないかもしれないけれども、私やあなたの生活に大きな影響を与えうる。「データの時代」における個体差の機械学習は、わたしたちの近未来を不可逆的に変革するだろう。現時点での個体差の機械学習は、個人の購買履歴から商品をレコメンドするサービスなどのビジネス応用で普及してきた。将棋のプロ棋士は、AIプログラムが予測する最善手は想定していても、現実の対戦相手の個性や心理状態なども判断しながら、必ずしも最善手ではない勝負手を選択する場合があるらしい。将棋のAIプログラムは、対戦相手の個体差を理解する段階には至っていないので、勝率がよくても面白くはない。それでも、個人の個体差であれば、近未来に機械学習が可能になり、多くのビジネス応用が実現されるはずだ。そのようなAIビジネスの社会的な影響や責任について、「ビッグデータ」の専門家やサービスを提供する企業に判断を任せるしかないのだろうか。わたしたちがわたしたち自身の「スモールデータ」を使って試行錯誤してみよう。「スモールデータ」による個体差の機械学習が可能になるときに、決定的に重要な課題は、企業や国家などの「組織」の個体差を学習して、社会的な課題の解決案を探索することであって、わたしたち自身の課題となる。「スモール・イズ・ビューティフル」な時代に向けて、個人と組織の関係に大変革がもたらされ、人類未踏の社会となるだろう。
社会的な「組織」に個体差があることは自明であっても、個体や種のような、進化論的な試行錯誤がない「組織」では、歴史や文化などの、わたしたち自身による集団の個体差が問題となる。そのような、わたしたちの集団的な特性を機械学習するとしたら、どのようなデータが必要なのだろうか。地球上の国家は限られているので、ビッグデータは期待できない。逆に、国家が国境によって限られていること、そのような「場所」における個体差が重要になるだろう。もちろん、個体においても場所は重要で、社会的役割に直結している。「場所」に個体差があるということは、別の個体が同じ場所の同じ属性を持つことができないという意味で、「場所」には必ず順位や順番がともなう。「場所」は航空路線の有向グラフのような、ネットワークとして表現できる。国家の場所は、国境を接する首都のネットワークとして表現できて、微妙な国際関係を無視すれば、双方向の無向グラフになるだろう。企業ネットワークの場合はもっと複雑で、業界内相関図のような表現や、資本関係の表現など、様々な事業の「場所」の表現がありうる。
社会的な「組織」の個体差は、国家の権力機構や企業の統治様式に大きく依存しているように思われるけれども、組織の中心部はデータ化されない特異点である場合が多い。逆に組織は、組織の内と外を明確に区別する傾向があり、組織の「周辺」における組織の個体差が、データとして表現されやすい。わたしたちは、このような組織の個体差に関する考え方を、マージナリズム(周辺主義)と呼ぶことにしよう。国家内の政治体制としての専制君主主義でも民主主義でもない、国家間の関係から、移民や難民の視点を重要視して、政治体制を議論する立場であって、近未来的な社会にふさわしいだろう。
国家よりも大きなスケールで、地球全体の社会課題にも難問が山積みとなっている。人間の能力を動物と比較して考えると、ミツバチのような高度な社会性は欠落していて、オオカミのような家族愛によって社会を構成している。キリスト教は、家族愛を隣人愛へと抽象化して、個人と社会の関係に、倫理的な合理性をもたらした。17世紀の哲学者スピノザのエチカは、キリスト教の延長線上で、合理的な倫理性を追求して、無神論者のレッテルを張られてしまった。AI技術の倫理性は、合理的な場合はかなりの危険が伴いそうだ。スピノザは「神すなわち自然」に合理性の原点を見いだしたけれども、神も自然とも縁遠い、わたしたちの時代の経済的な合理性は、人びとの政治的判断にしか根拠がない。
社会的な組織の集合知を機械学習できるようになったとしても、地球全体の社会問題における個体差は別問題だ。この場合の個体差は、人びとの社会や文化の多様性に近い。宗教の多様性を無視することは出来ないとしても、経済的な合理性にも多様性はあるのだろうか。グローバル資本主義としては、些細な技術的要因以外の多様性は、世界中どこにも無いかのようにふるまっている。経済的な合理性における多様性は、ローカルな経済、もしくは政治的に分断された経済にだけ見いだされるのだろうか。わたしたちの物語の最終章では、グローバル資本主義も、地球全体の非平衡熱力学、より正確には情報熱力学の「情報」を「データ」で再定義した非平衡熱力学という第一原理からは免れることができないことを「証明」したい。グローバル資本主義にとって、地球環境が必要条件であることは明らかなので、「データ」熱力学が十分条件であるかどうか検討していこう。
地球環境が、太陽エネルギーと生命活動に伴うエントロピーの非平衡熱力学で理解できることは自明だとしよう。生命活動に伴うエントロピーを、人間の活動に限定する必要はない。最近発展している情報熱力学では、熱力学的なエントロピーを、情報理論のエントロピーとして再解釈している。情報理論は通信やコミュニケーションの理論であって、統計的な予測理論との相性も良い。「データ」の場合は、「情報」にデータの計測プロセスを追加する必要がある。データの計測にとっても、データを予測するための計算プロセスがエントロピーと関係してくる。ランダムネスとエントロピーの関係を理解することも重要だ。非平衡な地球環境を前提条件とする人びとの経済活動は、化学反応における自由エネルギーとエントロピーの変化のように、熱力学の原理が働きながら、全体としては非平衡でランダムな変動になる。グローバル資本主義における経済的な合理性は、場所性を否定して、個体差が無いかのようにふるまいながら、スティーブ・ジョブスのような、カリスマ性のあるCEO(最高経営責任者)の個性を必要としている、自己矛盾した「見せかけ」の合理性でしかない。「スモール・イズ・ビューティフル」な時代の、本質的な意味での経済的な合理性における「個体差」は、個体間変動と個体内変動が複雑に交絡したデータ熱力学となるだろう。
抽象的な話は要注意だ。要するに、現時点ではよくわからないことを、抽象的に議論しているだけのことなのだ。地球環境と経済合理性を議論するために、適切なデータはどのようなデータなのだろうか。平衡系熱力学のPV=nRTからの類推で、地域の人口や気温変化を推定しうる人工衛星による地球観測データが最有力だということは想像できる。地球を周回する深層海流が、非平衡系としての地球を、熱力学的に特徴づけている最大のパターンだと仮定しよう。陸上の生命にとって、降雨量は小さいけれども重要な、ランダムなパターンだろう。大きなパターンの変動が、小さいパターンの変動要因となっているけれども、小さいパターンにはその他の多くの小さな要因があるはずだ。地球観測データは、日本の経済学者、宇沢弘文が唱えた社会的共通資本であって、地球観測データを公共財として公開して、わたしたちの気の向くままに解析してみたい。特許データが、社会的組織の個体差を機械学習する公共財であったように、地球観測データは、地球規模での、経済合理性の個体差を機械学習する公共財となるだろう。
個体差が不確定性の原因となる問題において、個体差を合理的に説明することは困難だ。そこで、個体差が含まれるデータを機械学習してみること、その試行錯誤を最初のステップとすることを提案している。一方で、人びとにとって個体差は、直感的に明らかな差異であって、合理的に説明する必要性もない。わたしたちが直感的に明らかだと思う個体差、例えば性別、年齢、場所などを、コンピューターに機械学習させてみて、予測の難易度を合理的に説明できるようになれば、より直感が働きにくい個体差についても、機械学習からわたしたち自身が学ぶことができるようになるだろう。フェノラーニングは、コンピューターによるフェノタイプ(表現型)の機械学習であって、機械学習による予測の難易度を、わたしたちの言葉で説明してみる、わたしたち自身の学習でもある。
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトOrangeでみんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、Orangeにフェノラーニングを実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。
コメントを残す