山口行治(やまぐち・ゆきはる)
株式会社エルデータサイエンス代表取締役。元ファイザーグローバルR&Dシニアディレクター。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
前稿までの「認知症を生きる人類と人工知能」は、本稿『住まいのデータを回す』の最終章となる「データ論への準備」への導入部分になるはずであった。しかし、人類と人工知能について共存・共生・共進化を考えるためには、ウイルスの世界の理解が不可欠であることに思い至った。その直接の引き金は偶然に手に取った『ウイルス・ルネッサンス-ウイルスの知られざる新世界』(山内一也 著、東京化学同人、2017年)だった。人類と人工知能についての共存・共生・共進化を考えることで、ウイルスの世界が多少なりとも理解できるようになり、ウイルスの世界を理解することで人類と人工知能についての共存・共生・共進化のイメージが豊かになると直感した。ウイルスとの共存・共生・共進化は人類誕生以前から始まっていたのだけれども、2003年にヒトゲノムの解読が完了し、2015年ごろから次世代シークエンサー(経済的で高速なDNA塩基配列分析装置)により環境中ウイルスの網羅的分析(ヴァイローム)が可能になったことで、皮肉にも、科学的な意味ではウイルスと人類の共存・共生・共進化についてほとんど理解できていないことが明らかになった。
ニュース屋台村の前シリーズ『データを耕す』では、17世紀の哲学者スピノザとライプニッツが主人公だった。最近ではデータ経済という言葉を新聞で見かける。データという概念は、哲学的にはある属性に与えられた個別の値「所与」のことであって、データの概念は、筆者の勝手な解釈によると、哲学的な意味での世界の属性について深く考察したスピノザと、2進法を発明して個体性にこだわったライプニッツの合作のようなものだと考えて、『データを耕す』をまとめた。教科書的には、近代合理主義はデカルトから始まることになるのかもしれないけれども、デカルト座標は偉大な数学的発明であっても、原点がある直交座標系はユークリッド幾何学の完成形でしかない。スピノザとライプニッツはデカルトを批判的に乗り越えて、近代自由主義の扉を開けた。ライプニッツは2進法による万能計算機の原理を思いつき、近代の先まで行きそうになったのだけれども、人類初のスピノザ主義者として死んでいったというのが『データを耕す』という物語であった。
データ経済について考えるために300年前までさかのぼる必要はない。しかし、300年後の人類のありかたを考えるとき、「データ」が「言語」や「貨幣」のように、文明の転換点になるという主張が「データ論」となる。スピノザは「神すなわち自然」と喝破して、自由主義の原点(または特異点)ともいうべき倫理書エチカを完成させたけれども、発禁本とされ、生前に出版されることはなかった。『データを耕す』のテーゼは「データすなわちコンピューターにとっての自然」だった。だからデータサイエンスはサイエンスなのだと、在野の統計プログラマーでしかない自分自身を言い聞かせていた。この「自然」という言葉を、ウイルスのことだと解釈したら、恐ろしい世界が出現する。レンズ磨きの職人でもあったスピノザは、おそらく「自然」を「光」としてとらえていたので、「光」が「神」のように見えたのだろう。しかし私たちにとっての自然は、自分自身のゲノムの中と、自分の住む環境に多種多様に存在するウイルスのことだとしたら、どのような倫理書エチカになるのだろうか。コンピューターに大量のウイルスのデータを集積して分析する。その分析には人工知能(AI)のプログラムが用いられ、スーパーコンピューターを使って計算しても、ウイルスの進化スピードにはかなわない、決定論からは程遠い世界だ。個体としてのウイルスには意識も知性もないかもしれない。しかしウイルス全体としては、種の概念を超えて、遺伝コードだけを共有し、人類の知性など競争相手にすらならない「自然」となる。
◆人類ではなく「ランダムなひとびと」として考える
単なる一動物種である人類は、特定のウイルス感染を防御できたとしても、ウイルス全体にはかなわない。もちろんウイルスは人類など相手にしていない。ごく例外的なウイルス、おそらく全体の1%以下、が感染症の原因となり、人類に分類され認識されているだけのことだ。病原性ではない一般ウイルスについて考えるとき、勝ち負けではなく、人類でもなく、一般市民(ピープル)としての愛と冒険の物語の文脈がふさわしい。愛と冒険の物語はランダムなひとびとの物語となる。納税者であり民主主義社会の主役である一般市民ではなく、全力でプログラミングをし、ウイルスと自分自身の共存・共生・共進化の可能性を追求するランダムなひとびととして生活する近未来を想定している。難しい問題ではない。環境中のウイルスのデータのように、データ量が膨大になると、解析時間が増大するだけではなく、解析結果を解読する時間も膨大なものになるので、機械学習するAIプログラムが必要になるだけのことだ。経済データではなく、自分と同居者や近隣の人々の健康のために、ウイルスデータを分析する。ウイルスは神になるのではなく、コンピューターに分析されるデータとしての自然になる。
ウイルスに勝てないからといって、ランダムなひとびとは無力ではなく、あきらめもしない。隣人に敵対するウイルスについては、それはウイルスの1万分の1かもしれないけれども、無視はできない。地震や津波、火山の爆発を予測するように、予測の精度が問題ではなく、予測することによって有効な予防策をシミュレートし、防備を強化することが目的だ。隣人と気軽に挨拶(あいさつ)するときの天気予報のようなものだ。スピノザのエチカは神に関する定義と定理から始まり、近づきがたい独特の雰囲気がある。しかし注意深く読むと、スピノザは「属性」について語っているのであって、属性に与えられる個々の「所与」は偶然的なものとして抽象的にしか記述していない。そして後半の感情と生活の話こそが、スピノザが本当に言いたかったことではないかと思えてくる。
ライプニッツのモナドロジーは個体性もしくは哲学的な意味での「所与」について、万能計算機の発明者が語った物語であるから、データ論の出発点にふさわしい。しかしその物語はあいまいで、スピノザがあえて語らなかった物語を寓話(ぐうわ)化したものに過ぎない。スピノザは哲学者がランダムなひとびとと共存・共生・共進化できることを望んでいた。しかしAIの時代では、スピノザが語らずに守っていた個別でランダムなひとびとの感情と生活が、データに姿を変えて技術や経済の対象となっている。スピノザが語らなかったデータエチカ、AI技術の倫理がデータ論の出発点となるだろう。
◆ゲノム敗北の敗北
ヒトゲノムの解読が完了した2003年、人類にとって、少なくとも分子生物学にとって偉大なる勝利の陰で、日本のゲノム研究者は『ゲノム敗北-知財立国日本が危ない!』(岸宜仁、ダイヤモンド社、2004年)の戦後処理を強いられていた。しかしその当時は、次世代シークエンサーは実現していないし、1000ドルゲノム(個人のゲノムを1000ドル以下で解読すること)が半導体競争のように、国家の産業経済政策として抽象的に議論されていただけだった。本当に敗北したのは、ベンチャー企業を立ち上げて国際科学者チームに挑んだ風雲児クレイグ・ベンターだった。ヒトゲノム解読競争もしくは独占的な特許化において国際科学者チームに敗北したベンターは、ゲノムの中に遺伝子が2万5千個程度しかないことに驚愕(きょうがく)して、これからは環境ゲノム(メタゲノムのこと)だと負け惜しみを言ったことが伝説になっている。そして、次世代シークエンサーの時代になって、ベンターのベンチャー企業は発展し、ヒトマイクロバイオーム、そしてヴァイロームなど、環境ゲノムは欧米で最前線の研究プロジェクトとなっている。ベンターのような強力な個性は例外としても、『ゲノム敗北』を語るには早すぎた。科学者としての闘いは独占的な特許化ではなく、ゲノム情報の「意味」を理解することだったはずだ。現時点では、ゲノムの中に1.5%程度しか存在しないタンパク質に翻訳される遺伝子としての核酸配列と、遺伝子の発現調節に関与する直接的なプロモーターが理解できている程度で、いまだに95%以上の核酸配列は意味不明なのだ。意味不明なのに、ゲノムの50%程度がウイルス由来核酸配列と推定されているのだから、まさに驚愕ものだろう。意味不明ではウイルスと戦いようもない。しかし、勝利できなくても、敗北もできない。
ゲノム敗北の敗北は、タンパク3000プロジェクトで顕著になる(『真理の工場-科学技術の社会的研究』〈福島真人、東京大学出版会、2017年〉に詳しい分析がある)。ゲノム敗北はDNA>RNA>タンパク質、一方通行のセントラルドグマにおける敗北だった。ゲノム敗北からの復興は、ゲノム情報からタンパク質構造を読み取る構造ゲノムを新たな国際競争の場とした。しかし、タンパク質の立体構造の予測は予想以上に困難で、さらに、構造から機能を推定することはほぼ絶望的であることが次第に明らかになった。タンパク3000プロジェクトに対して、未知なるウイルスの世界を反例としなくても、セントラルドグマには従わない多くの生命プロセスが明らかとなり、特にRNAの世界は混沌(こんとん)としている。新しい創薬のヒントも、タンパク質立体構造からではなく、疾患と関連したRNA動態解析から生まれているので、タンパク3000プロジェクトはバイオ医薬品の競争力とはならなかった。科学研究における理論の役割は重要視されてきたけれども、データ解析は実験助手程度の取り扱いしかされなかったことが、データの時代におけるゲノム敗北であり、ゲノム敗北の敗北でもある。データの世界は、データベース構築とデータ解析だけではない。最近のAI技術のように視覚データをモデル化することなど、データの世界を発見することが出発点となる。家族写真をアルバムで整理していた時代に、隠しカメラの画像がデータになることを想像できただろうか。ウイルスの世界をデータとして読み取ることで、前人未到のデータの世界が見えてくるだろう。
◆折り畳まれた世界
DNA、RNA、タンパク質はアルファベットの配列のような長い1次構造から、機能を発現する立体構造が作られる。立体構造でも特に、折り畳まれることで複雑な機能調節が行われている。折り畳むという操作は、典型的な非線形の世界への入り口で、パイ皮を折り畳んでこねるパイコネ変換からカオスが生じることはよく知られている。哲学の文脈では、コペルニクス的転回ということで、天動説から地動説への視点の逆転を、画期的な発想の転換とすることがある。しかし天動説にしても地動説にしても、ユークリッド幾何学的な、均一で線形な宇宙像でしかない。本当に画期的なのは、アインシュタイン以降の宇宙論で、非ユークリッド幾何学を正当化し、ブラックホールなどの特異点まで発見してしまった。しかし、宇宙の一部にタンパク質やDNAがあるとして、それらが折り畳まれた世界であることを現代の宇宙論は理解できない。
経済学はどうだろうか。精緻(せいち)な数式で経済現象をモデル化したとしても、そこには折り畳まれた世界はない。古典的な経済モデルでは、資本主義の市場や階級社会が動的であることを説明できても、折り畳まれていないと証明することはできないだろう。恐慌や革命は実際に起こっているし、折り畳まれた世界のように見える。生物としてはありふれた折り畳まれた世界を、いまだに科学的な意味では理解できていないのだから、哲学的な唯物論で宇宙論や経済現象には折り畳まれた世界は存在しないと、観念論的にもしくは確率論的に宇宙論や経済現象における生命の関与を消去するしかない。しかし宇宙に生物は存在するし、経済の主体は生物としての人間なのだから、最新の経済学もウイルス発見以前の世界観と方法論でしかない。
◆生きているウイルスとプログラム
ウイルスは細胞に感染し、自己増殖しているときは確実に生きている。ウイルスは自己増殖するコアシステムを細胞内に構築して、細胞の様々なプロセスを借用しながらしたたかに生きている。細胞外にばらまかれるウイルスは、動物の精子や植物の種子のようなもので、ウイルスの生活環の一部ではあるけれども必ずしも生きている必要はない。鉱物のように結晶になるウイルスもある。しかし細胞外の環境は多様で、必ずしも生きてはいないウイルスであっても、環境への適応はとても複雑なプロセスとなり、再度細胞に感染するまでのプロセスは偶然と創意工夫に満ちている。
筆者はプロセス中心主義者で、巨大なシステムは制御が困難で適応力もないと考えていた。しかしウイルスの世界から学んだことは、効率がよくコンパクトなコアシステムと、複雑なプロセスの組み合わせが最強らしいということだ。プロセスかシステムかという論理的判断ではなく、プロセスとシステムを組み合わせる創造性をウイルスから学んだ。そして、ウイルスの世界を想像していると、系統樹によって表現される進化論には大きな疑問がでてきた。ダーウィンの理論は、ウイルスについて何も知らなかった時の理論で、生物の半分以上をブラックボックスにした進化論は過去の物語のように感じる。ウイルス全体の系統樹は不明で、ウイルスの進化は淘汰(とうた)では説明できそうもない(おそらく宿主や環境との共進化が主役となる)。しかしウイルスが生物の進化に深いかかわりがあることは確実なのだ。
本稿は科学論文ではない。進化論についての科学的な議論には深入りしないようにしよう。データサイエンスの新境地を求めて、『住まいのデータを回す』ことを想像しながら、AIとともに認知症を生きる人類の近未来物語に集中したい。そこにウイルスの話が突然、無作為に割り込んできた。筆者は偶然を信じている。偶然の出会い、無作為割付試験を信じている。しかし同時に、合理的かつ論理的な説明を好み、科学的な理解の限界も身にしみて感じている。哲学を希求すると、現在の論理や合理性はあまりに未熟で、その真理性は偶然以下としか思えない。真理という言葉が不適切なら、現在は可能性として存在することしか理解できていなくて、存在すると信じられることを理解できない時代のフラストレーションを感じる。1+1=2のようにして整数を理解することが、論理的な可能性としての理解であり、リーマン仮説のように全ての素数の分布をゼータ関数の特異点として理解することが存在すると信じられることだ。リーマン仮説は計算できる範囲では正しいけれども、現在の数学的な論理では証明できず、200年近く仮説でしかない。
前置きが長すぎた。ウイルスをプログラムとして理解しようというのが筆者のアイデアだ。プログラムを数学的な対象とするプログラム意味論の力を借りて、ウイルスのデータを数学的な対象として考えてみよう。ウイルスをプログラムとして理解することについては次稿でも継続して考えてみる。ウイルス全体とプログラム全体の類似性について考えているので、個別のウイルスとプログラムの関係については将来の課題となる。生活環境のウイルスデータを解析するプログラムは、いわゆる科学的なバイオインフォマティクスのプログラムとは大きく異なっているだろう。生活に不可欠なものとなるかもしれないウイルス天気予報についても別稿で考えてみよう。
最後に「共存・共生・共進化」というキーワードを発見したことが「データ論の準備」となっていることを説明しておきたい。哲学の文脈では、いわゆるアカデミズムが形成される以前の未開拓分野に立ち入るため、方法の問題が重要になる。文学で文体が重要になることに類似しているかもしれない。「共存・共生・共進化」は、それぞれ科学的な用語として独立に定義できるけれども、データ論としては倫理的かつ生態学的な方法論として、単一のイメージで語っている。すなわち、データにおける「共存・共生・共進化」を記述しうる論理的・数理的なモデルと意味空間を構成することが方法の問題となる。筆者は素数や複素数の実在性を信じる極端な実在論者であるため、論理的・数理的なモデルと意味空間を構成するとはいっても、それはあくまで実在をともなうモデルと意味空間のことで、構成可能性や検証可能性といった限定は考えていない。従ってプログラムやウイルスといった実在する対象から出発してデータ論を構築することを試みている。
論理的・数理的なモデルとしては折り畳まれた世界を記述する1対多対応が基盤になるはずだ。ランダムネスについて、中心極限定理が教える正規分布の重要性を疑うつもりはない。しかし、ウイルスと共に生活するような、非定常で非平衡な開かれた世界では、分散が計算できない、場合によっては期待値すら計算できないランダムネスが重要になるだろう。1対多対応の代表的な例は複素対数関数であり、生物の個体差によくみられる対数正規分布を複素化して多重化したような分布関数をもし構成できれば、折り畳まれて本質的にランダムな世界を記述できるようになるかもしれない。こういった本質的にランダムな世界を記述する方法で、「共存・共生・共進化」について考えて、ある一つの概念またはキーワードにたどり着くことを目指す。それはスピノザが語った「属性」に関する決定論の世界ではなく、スピノザが語らなかった「所与」に関する非決定論の世界となるだろう。
コメントを残す