п»ї ラッキーな経験からセレンディピティな発見へ 『みんなで機械学習』第52回 | ニュース屋台村

ラッキーな経験からセレンディピティな発見へ
『みんなで機械学習』第52回

12月 09日 2024年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆データを職業にする

本シリーズは文明論ということもあって、話題が散乱していて、筆者の専門は何なのか、疑わしく思われているかもしれない。筆者の職歴や学歴は、多くの方にはなじみが薄いけれども、学者ではなく、実務家だ。筆者の職業は、「データ」であって、データサイエンスや生物統計学という専門的な高等教育がない時代から、45年以上、「データ」を生業としてきた。「データ」を職業とする、世界的にも草分け的な“少数民族”だった。40年前のロンドン大学医学部病院のコンピューター室では、英語は下手でも、コンピューター言語が達者な日本人として重用(ちょうよう)された。たくさんの失敗をしながら、それなりの年齢になるまで仕事ができたのだから、仕事の仲間や上司にはとても感謝している。筆者が高校生の時代から、哲学的な意味で興味を持っていた「個体差」について考え続けていることで、「データ」への興味は尽きることは無かった。しかし、職業として取り組んだ「個体差があるデータ」の問題では、生物統計学やデータサイエンスに限界を感じていた。その限界を突破できるかもしれないと考えたのが、個体差の「表現」を機械学習するフェノラーニング®だ。フェノラーニング®を発展させて、近未来のデータ文明において、みんなが「データ」を使って仕事をすること、その仕事が現在よりも健康な仕事(経済活動)となることを期待して、本シリーズを続けている。

「データ」を上手に使うためには、言語の世界における過適応(固定概念)を脱学習(アンラーニング)する必要がある。統計学の仮説検定における帰無仮説のようなものだ。効果があることを検証するために、効果がないことを仮定して(帰無仮説)、「データ」によってその仮説を否定する。現在のビジネスでは、統計処理された「データ」を使って議論をして、議論を論理的に正当化することが通常で、まれに「データ」によってビジネスの固定概念を反証することもある。「データ」を統計処理する専門家は、十分に品質管理された「原データ」を取り扱う。「データ」の品質管理では、人間(言語)による過適応(固定概念)を排除するために、データをランダム化することが基本だ。品質が不十分なデータの場合は、さまざまな原因によるデータの偏り(バイアス)を慎重に評価する。単純に言うと、標準偏差などのデータの誤差やばらつきを表示しない、平均値だけのグラフや集計は、たとえ国家の統計であっても信用しない(限りなく全例調査に近い人口統計は例外として)。

しかし、個体差は単純なデータの誤差ではない。遺伝子の差異によって個体差を説明できるという考え方は、哲学的には(科学的にも)問題が多い。個体として生きるために遺伝子がある。遺伝子は保守的で、遺伝子の偶然の変異が、結果として個体差のように見えているだけだ。遺伝子の差異では、ヒトとネズミはほとんど同じに見えるし、一卵性双生児は、同じ時に生まれても、同じ時に死ぬわけではない。社会生活や健康問題での重要な個体差において、遺伝的な要因はあるとしても、その他の要因の寄与はとても大きくて、しかも個体差に関与する要因は数限りなく多い。筆者の実務経験と思考実験では、個体差を、個体集団の中で能動的に「表現」として認識される個体差(表現因子)に限定すれば、その表現因子の数はとても少なくなる。表現因子ではない、その他の個体差に関する要因は表現因子(を推定するためのデータ変数)で予測できるという仮定が、フェノラーニング®の出発点になっている。

医学データであれば、性別や年齢が重要な表現因子であることは容易に想定できる。社会的なデータの場合は、場所(地域など)が重要であることも確かだろう。医学的なデータであっても、社会的な要因もあるので、性別・年齢・場所(身体の内外の場所)が重要な表現因子となる。そのほかにも、問題に応じて、数個の表現因子を追加する必要があることは確実だけれども、追加する表現因子の選択を恣意(しい)的に行いたくない。問題として、XXの予測問題を考えてみよう。まずは、性別・年齢・場所を推定しうる網羅的なデータ(数百変数かそれ以上)を収集する。年齢や場所の推定は、問題に依存して大雑把(おおざっぱ)に行う。「XXの予測」に関係すると想定した因子(10因子程度)が、ある程度、網羅的データから推定可能であることを確認する(場合によって網羅的データを再考する)。あまり根拠はないけれども、表現因子は3個以上5個以内(個体差の表現空間の次元数)、その表現因子を網羅的データから推定するのに必要なデータ変数は20変数程度を想定している。次のステップは、個体差を評価しやすいサブグループを機械学習で探索して、サブグループごとに追加の因子を推定するための網羅的データの変数を選出して、サブグループごとに「XXの予測式」を作る。各個体が各サブグループに属する確率の計算式も機械学習によって最適化する。最終的に、未知のテストデータを使って、例えば、最も帰属確率の高いサブグループの計算式だけを使うか、複数のサブグループの重みづけで予測するのか、ある程度探索的に予測方法を決定する。予測値の誤差だけではなく、予測プロセスの安定性や再現性も含めて、予測の信頼性に関する診断指標も工夫する必要があるだろう。

上記のような複雑な計算をしても、品質の良い臨床試験データであれば、単純な統計計算よりも10%程度(筆者の限られた経験)、予測精度の向上が見込めるだけかもしれない。しかし、この手順(フェノラーニング®)の本当の価値は、欠測値や外れ値を相当数含む、品質に問題があるデータの前処理(データマネジメント)を、ある程度自動化していることだ。データマネジメントを自動化する可能性は、画像データのディープラーニング(現在のAI〈人工知能〉技術の基盤技術)から学んだ。医学系「データ」の実務経験では、データマネジメント業務は、データ解析業務の3倍程度の業務量となる。ディープラーニング技術が開発されるまでは、データマネジメントは、ほぼ100%プログラマーの経験と労働に頼っていた(データの品質管理のための、データベースの設計と作成も含めて)のだから、ディープラーニングは画期的で、AIで取り扱えるデータの量と質が飛躍的に向上した。

筆者が「データ」を職業とした半世紀の遅々とした歩みの成果として、フェノラーニング®を発案・工夫したとしても、その影響力は限りなくゼロに近いので、近未来のデータ文明において、社会や経済が現在よりも健康になるとは思えない。フェノラーニング®は、「データ」を使うビジネスの草創期において、最小限の知的財産権のひとつでしかない。しかし、過剰に資本主義化して、投資の規模を競う現在のAIビジネスでは、社会や経済が現在よりも不健康になるリスクが大きいので、そのブラックスワン型のリスクに対抗する反脆弱(ぜいじゃく)性(※参考;https://diamond.jp/articles/-/224579 )のひとつの試みとして、フェノラーニング®の活用を思考実験している。データ文明の新大陸におけるAI技術の政治利用、すなわちAI植民地主義・AI帝国主義・AI軍国主義・AI独裁主義、はとても危険で、しかも容易に実現できる。AI技術の政治利用は、現在進行形の人類最大のリスクであって、空想の(まやかしの)AI 民主主義では対抗できない。人びとの生活に直結するビジネスとして、「データ」を職業とするAI農林業によって、健康な経済の成功例を作っていくことで、独占的なAIビジネスに抵抗する、地球規模の包囲網ができることを願っている。原子力発電を使って、画像や文章を大量に生産・消費しなくても、パソコンがあれば、生活に直結する経済活動を、より健康に実行できる。データ文明が繁栄することを期待して、まずは健康な社会を作ってから、文化活動を楽しみたいものだ。

◆栗のAI農林業

縄文時代の初期から、栗が栽培され、食糧としてだけではなく、建築材としても利用されていた(※参考1、※参考2)。栗栽培には、スマート農業とスマート林業の分断をつなぐヒントがあるかもしれない。栗栽培の歴史や文化史は、縄文時代の驚くべき大発見から始まる。しかし、ヨーロッパクリ、中国クリ、アメリカクリについては、各地域で栗栽培が衰退してしまったためだろうか、ほとんど記載がない。当面はニホンクリに関する知識を頼りに、近未来の栗のAI農林業について考えてみよう。筆者が借りている寒村の農園には、以前から栗の木が6本あり、素人ながら20年以上、栗拾いと栽培管理をしてきた。栗のAI農林業については、考えたことは無かったけれども、簡単ではないことはよくわかる。

栗を食料とする場合、果皮(鬼皮)と種皮(渋皮)を剥(む)く作業が大変だ。栗むき専用の調理器具は便利だけれども、全自動(ロボット)栗むき機はかなり難しい。一般論として、工場の全自動機械は連続式が主流だ。しかし、ロボットを使う場合、小型のバッチ式も再検討の余地がある。栗むきの場合、単純な機械で8割、9割の栗がうまく剥ければ、問題の栗を選別して拾うロボットを作ることは簡単だろう。

栗の木の剪定(せんてい)作業では、小型の電動チェーンソーが便利で、チェーンソーにカメラがついていたら、遠隔操作ができそうだ。作業者が木を上るのは、危険でエネルギー効率も悪い(疲れる)。同じ方式で、都市の街路樹でも、高所作業車での作業をロボット化できるだろう。遠隔操作を機械学習すれば、自律剪定ロボットになる。

栗林の栽培管理では、下草刈りも危険な重労働だ。しかし、果樹園の下草刈りは、比較的平坦(へいたん)で、障害物も樹木などに限定されているので、農園内外の雑草刈りとしては自動化しやすい。部屋の状況を判断する自動掃除機を大型化して、下草刈りをする可能性はあるかもしれない。倒木や笹など、大型の障害物を運び出しながら農場の地形を学習して、仕上げの雑草刈りを自動運転で時間をかけて行うことが考えられる。

栗の樹木を、建築材料として使うことは、縄文時代から行われていた。栗材は、鉄道の枕木としての需要もあった。しかし、現代の建築用木材としては、高品質で安価な外国産の木材があるので、栗木材の付加価値を工夫する必要がある。栗を木炭とすることはできるけれども、爆(は)ぜるので、調理用や燃料としては問題があるようだ。最近では、サトウキビの茎など、農業廃棄物をバイオ炭として用途開発されている。バイオ炭の用途としては、コンクリートに混入して、建築材料としての機能性を付加するとともに、炭酸ガスを固定して、カーボンニュートラルに寄与することが期待されている。栗も木炭粉末にして、バイオ炭と混合して焼結し、建築材料とすることが考えられる。

栗の食品としては、甘栗やマロングラッセなどが思い浮かぶ。縄文時代では、ドングリやトチの実などとともに、栗を保存して、カロリー源としていたようだ。成書では、栗が主食だったという記載もあるけれども、穀物類を主食とすることとは、だいぶ状況が異なる。栗を主食とする経験はないので、ジャガイモを主食とする状況を想像すれば、調理法や保存法など、穀物とは別に考えたほうがよさそうだ。当然、食糧のサプライチェーン全体が変化する。一般に、食品の栄養学においては、食品中の栄養成分の分析から始まる。栗の栄養成分も詳細に調べられていて、単なるカロリー源としてだけではなく、ビタミン・ミネラル・タンパク質を含む、栄養食品のようだ。しかし、栗を相当期間、相当量食べたら、体内の栄養状態はどのように変化するのかという、栄養食品としての栗のデータはあるのだろうか。健康者に無理に栗を食べてもらうわけにもいかないので、栗を食べると「XXXに良い」という、医学的な仮説を作ることから始めるしかない。幸い、栗を漢方薬として使う処方が知られているので、ヒントが得られるかもしれない。

栗のAI農林業において、AI技術(特にフェノラーニング®)が最初に役立つのは、栗のプレシジョン栄養学(データ駆動型栄養学)と思われる。栗を食べて「XX病」を予防しよう、といった具合だ。しかし、本当に言いたいことは、みんなで栗を栽培して「穀物栽培に起因する近代文明病」を克服しようということだ。穀物栽培を否定する必要は無くて、オルタナティブとの共存のメリットが主張できれば十分だ。鋤(すき)と鍬(くわ)による農耕が、産業革命によって、大規模農業機械へと進化して、バイオテクノロジーによる育種も試みられているけれども、地球規模でみると、水資源や土壌・天候への影響は、資源を消費しているだけで、持続可能な農林技術とは思えない。少なくとも、経済社会的に健康な農林業ではない。AI技術を活用する栗栽培が、オルタナティブとなるためには、少ない資源で、知的財産権を作り出せるかどうかということが問われる。栗のAI農林業は、筆者の夢想でしかないけれども、縄文時代からの1万年の文明が、新時代のデータ文明へとつながる、希望とか期待は、無謀な投資しかできない新資本主義をもってしても、完全に否定・無視できるものではない。希望とか期待には、ラッキーな出来事がありうる。

◆トポロジカルデータ解析

最近ラッキーだと思ったことは、トポロジカルデータ解析の教科書『Topological Data Analysis with Applications』(Gunnar Carlsson, Mikael Vejdemo-Johansson, 平岡裕章〈監訳〉、一宮尚志、吉脇理雄〈共訳〉、森北出版、2024年)を日本語で読めることだろうか。偶然の幸運のことを「セレンディピティ」というらしい。ラッキーからセレンディピティへの道のりをたどってみよう。トポロジカルデータ解析(TDA)は、今年10月に生物データの最新数理解析の学会で知った。個別の発表内容は表面的に理解できたけれども、TDAは深い内容がありそうだと思い、ネットで検索して、最新の教科書(2022年)を見つけた。しかも、今年11月には日本で翻訳本が出版される予定だったので、予約購入をした。購入をしたことを忘れていると、11月下旬に、郵送されてきた。書籍のタイトルで、「with Applications」とハイライトされているように、11種類の応用例が、ウイルス進化から政治まで、多様でとても興味深い。しかし、数学的にはトポロジーが基礎にあるので、数学者にとっても読みごたえがある内容になっている。筆者にとっては、その内容を身に着けるまでに、1年以上の時間が必要で、多分10回は通読するだろう。教科書としてのコストパフォーマンスはとても良い。

古典的な多変量解析法の主成分分析から、最新の機械学習法まで、一貫した数学の記法で記述している。データの形(トポロジー)に注目することで、とても簡潔で、見通しがよい記述になっている。筆者にとって、特に有益なことは、フェノラーニング®のアルゴリズムを、数学的に洗練されたものとして、他のデータ解析方法と比較できるようになることだ。TDAの教科書に個体差に注目した記述はないし、データマネジメントの視点もないので、フェノラーニング®の特許出願の先行文献になる心配はない。意外なところで、数学愛好家の仲間を見つけられるかもしれない。とてもラッキーな話だ。

最近の日本は、科学技術や産業技術において、欧米だけではなく、中国にも追い抜かれているという印象があるかもしれない。筆者は我田引水で、日本の数学教育のレベルは欧米以上で、少なくともデータ解析関連のプログラマーとしての資質は、インド人と日本人が(以前はロシア人も)世界でトップクラスだと信じている(ユダヤ人は別格として)。プロの数学者のレベルも大切だけれども、アマチュアの数学愛好家の大多数が、数学を応用した産業経済活動を推進して、数学文化を支えている。数学文化が素晴らしいのは、世界共通言語で、国境が無いことだ。トポロジーは18世紀スイスの数学者、レオンハルト・オイラーが創始した。オイラーの公式のような、初等関数解析の完成ではなく、幾何学を根底から問い直す、未来の数学だ。最終的に(多分)幾何学全体を代数化した20世紀フランスの数学者、アレクサンドル・グロタンディークの数学は、まさに未来の数学であって、集合論が古典に見える。代数化するというのは、群論(とその発展形)の言葉で記述するということで、厳密な定義であることは分かっても、何の役に立つのか、どう使ったらよいのか、直感的にはわからない。トポロジーは、悪く言えば、数学者のための数学というイメージがあった。トポロジカルデータ解析(TDA)で、そのトポロジーとAI時代のデータ解析が合流したのだから、ラッキーというよりも、セレンディピティがふさわしい。

筆者が、「ニュース屋台村」に原稿を書くようになったのは、ニューヨーク在住のアーティストへの追悼文として、ライプニッツのモナドロジーについて考えるようになり、近代合理主義哲学の巨人、デカルト、スピノザ、ライプニッツの哲学を再読するようになってからだ。当時の哲学者は、優れた数学者でもあった。デカルトは、「座標」を幾何学の道具にして、代数計算による幾何学を創出した。ライプニッツは、微積分学を定式化して、現代のコンピューターの基礎、2進法を発案した。筆者としては、スピノザの哲学に驚愕(きょうがく)するとともに、歴史とは別次元の未知数を感じた。スピノザの哲学は過去の哲学ではなく、現在の問題であって、人類の歴史が逸脱しているのではないか、という疑問が、筆者のデータ論の底流にある。しかし、スピノザは数学とどのようなかかわりがあったのだろうか。ライプニッツが万能計算機を夢見たように、スピノザはTDAを身に着けていたとしたら、筆者の疑問が筆者自身にブーメランのように戻ってきた。

過去記事から引用してみよう。「『野生の位相』の人類最初の発見者は、17世紀の哲学者、スピノザだった。スピノザの幾何学は、ユークリッド幾何学のような証明体系にはなっているけれども、『神』を無限遠の特異点として追加した射影幾何学だったと思われる。少なくとも、レンズ磨きのスピノザは、無収差レンズの磨き方から、神である光の波動方程式を、光の位相として体感していたに違いない。」(『週末農夫の剰余所与論』第2回「野生の位相(2)」https://www.newsyataimura.com/yamaguchi-27/)。もちろん、スピノザは射影幾何学も、トポロジーも、TDAも知らない。しかし、当時誰も知らなかった無収差レンズの曲面は、身体感覚として知っていた。スピノザの哲学は、属性の定義の連続で、属性の所与、すなわち具体的な個物は登場しない。スピノザは、所与(データ)ではなく、データの形を見ていたのかもしれない。筆者のデータ論「スモール ランダムパターンズ アー ビューティフル」で不完全燃焼だった部分、西欧における中世までの価値観「真・善・美」の、美とデータの関係について、大きなヒントが得られた。スピノザは主著エチカで、善の属性を定義した。善とデータについて、善の所与の形を問えるのであれば、その「ランダムパターンズ」の形が「ビューティフル」なのだろう。

トポロジカルデータ解析(TDA)は、機械学習の別法(Yet Another Machine Learning)以上のもので、データと数学をつなぎ、データと哲学までもつなぐ、近未来の可能性を垣間見たような気がする。偶然にTDAを知ったことは、ラッキー以上の出来事だった。

※参考1:『栗の文化史-日本人と栗の寄り添う姿-』(有岡利幸、雄山閣、2017年)

※参考2:『ものと人間の文化史 166・栗』(法政大学出版局、2014年)

 

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す