п»ї 日常生活のデータは私とあなたと世界を変える、進化論的にまたは運命論的に 『住まいのデータを回す』第9回 | ニュース屋台村

日常生活のデータは私とあなたと世界を変える、進化論的にまたは運命論的に
『住まいのデータを回す』第9回

1月 16日 2018年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社エルデータサイエンス代表取締役。元ファイザーグローバルR&Dシニアディレクター。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

本稿『住まいのデータを回す』シリーズは第5回で示した通り、全体構想は以下のようにスタートした――ある意味とても恐ろしいデータ化された生活者である私たちは、逆に、データ化された生活を前向きに生きることで、「データ」の力を借りて、慢性疾患の予防もしくは治療に「気長に」取り組む方策を考えるのが本稿の出発点であった――。未来への方向性として、人とコンピュータの共存・共生をそれぞれの「独立性」が増大する方向でとらえていた。しかし、結論は見えていないので、このような記事が何の役に立つのか大いに疑わしく感じられるだろう。筆者としては「気長に」取り組むとしても、やはり具体的に役立つ記事でありたい。

具体的な目標を考えてみよう。国際生活機能分類(ICF)は障害者支援や介護計画を作成するときに実際に役立っている。ICFをベースに日常生活のデータを集積したと仮定する。介護計画作成を人工知能(AI)技術で支援できるだろうか。データ解析の立場からは、ICFをベースとしたQOL(Quality of Life)、QOA(Quality of Aging)、QOD(Quality of Death)のような総合指標を作ってみたい。そしてそれらの指標を個別化することで、個別化された介護(すなわち個人ごとの介護計画)をAI技術で支援することが可能になるだろう。

こみいった議論だが、データに振り回されない(データを振り回す)ためには、それなりの準備が必要になる。ミトコンドリアや葉緑体が細胞内共生することで、真核生物は進化論的に異次元の多様性を実現した。人がネットワーク内共生する近未来では、地球規模の大きな環境問題も、個人ごとの健康問題も、同時・多層的に解決を試みる多世界モデルが稼働しているという未来予想が本シリーズの結論となるはずだ。

古典的な確率論では、小惑星が地球に衝突する確率、もしくは地球規模でのウイルス感染が拡大する確率Aと、私が5年後も生きている確率Bの同時確率を計算することは困難だ。小惑星が地球環境を破壊すれば、もしくは致死的なウイルスであればAが起こらないことがBの条件付確率となり、流れ星や風邪の流行程度であればAとBは独立な事象となる。古典確率では私の未来は予測できなくなる。もしくは量子確率のように、現在は重ね合わされ、未来はもつれているのだろうか。そして量子コンピュータは神もしくは光のように全てをお見通しになる。

筆者の想定している多世界モデルは民主主義の発展のようなもので、天気予報程度の予測精度さえあれば、個々人がそれぞれの生活に応じて、様々な未来予測にもとづいて行動する進化論的なモデルだ。未来予測を行う多数のモデルがネットワークで共有され、大量に生成される乱数列を使って、自分自身の生活データを含んだシミュレーションが行われる。このアイデアは、薬の薬効を予測するモデルについて考えたことを一般化してみたものだ。小惑星が地球に衝突する確率と地球規模でのウイルス感染が拡大する確率その他多くのリスクを同時に最小化するためには、このような多世界モデルが実用的な技術となることを期待したい。

◆ICFモデルによる社会システムの変革

ICF(国際生活機能分類)は2001年にWHO(世界保健機関)で採択され、厚生労働省が日本語訳の著作権を有する、健康状態と健康関連状況を記述するための、統一的で標準的な言語と概念的枠組みだ。概念的枠組みとして、心身機能、身体構造、活動と参加、環境因子には合計1424の分類項目が示され、一方、健康状態、個人因子には提示された項目はない(※参考1)。生活機能を、「人が生きること」の全体を示すもので、「心身機能・身体構造」を「生命レベル」、「活動」を「生活レベル」、「参加」を「人生レベル」と意訳すると日本語として分かりやすくなる(『国際生活機能分類 ICFの理解と活用 ―人が「生きること」「生きることの困難(障害)」をどうとらえるか』〈上田敏、萌文社、2005年〉)。

筆者はICFよりもWHOのICD(国際疾病分類)のほうがなじみ深い。ICDは病理学の基盤の上に築かれた西洋医学の分類体系として確立しているが、精神医学に関してはアメリカ精神医学会のDSM(精神障害/疾患の診断・統計マニュアル)が先行し、ICDとDSMの整合性を保つ努力が行われている。筆者自身が英国で経験したDSM-IVの導入に関する混乱を紹介しよう。当時英国は『Oxford Handbook of Psychiatry』の記述的な診断方法に慣れ親しんでいたのに、急にDSMでStatisticsといわれてしまい、多項目の機械的な分類(チェックボックス型)の考え方が導入されて、とまどっていた。そこで精神科の先生方のデータ解析のお手伝いをしていた、日本から来た留学生にStatisticsの話を聞こうということになったらしい。幸い筆者はDSM-IIIRの使用経験があったので、教科書的ではない、実務的な話を紹介できた。Statisticsというのは、いかにバイアスを少なくするのかという見方を重視していて、ランダムな誤差は大数の法則で数学的に処理できるという話をして納得してもらった。正直な話をすると、DSMには米国社会の大きなバイアスが入っていると感じられたけれども、『Oxford Handbook of Psychiatry』のように、医師自身を含めて英語言語に依存するよりは、DSMのバイアスが少ないという、日本人としての感覚もあった。しかし診断されるのは患者個人であって、ランダムな診断誤差の問題は大きい。この事情は病理診断でも同じで、臨床診断と死後の病理診断が一致する確率はとても低いけれども、間違えた臨床診断であっても、最善の臨床対応がなされれば、治療の予後は診断とは別問題となることも事実だ。患者にとっては予後予測が重要で、その当時の(現在でも)統計学はほとんど役立たないことも雑談すると、臨床医の機嫌は上々だった。

ICFの話に戻ろう。ICFは障害支援や介護の現場で役立っている。ICFは生活機能として、「人が生きること」の全体を示すものであることを、上述の上田先生は明確に説明している。そして介護や支援のポイントは、ICF項目相互の関係としての悪循環や良循環を発見することだという。筆者の視点では、ICFは生活をデータ化したもので、そのデータの中から「回る」部分を発見する問題となる。こういった創造的な発見は熟練者の技と直感に頼っていたけれども、ICFのようにデータとしての性質が強まり、データがあふれる時代になると、AI(人工知能)の仕事になる。AIには本稿で格闘中の「回る相関係数」を教えよう。ICFの「個人因子」には分類項目が無い。年齢や性別などの背景因子は容易に想像できる個人因子だけれども、ICFそのものに加齢や老化という概念が無く、生活における性差も想定されていない。「個人因子」の重要な役割は生死感ではないだろうか。「人が死ぬこと」を考えない「人が生きること」にはどの程度の「個人的」な価値があるのだろうか。ICFにおける宗教やスピリチュアリティの項目は社会的な因子として列記されたものでしかない。上田先生が提案する「主観的体験」においても「人が死ぬこと」は想定されていない。WHOとしての「個人因子」の研究は、まだスタート地点にすら立っていないというのが実情なのだろう。

ICFにおいて、「参加」と「環境因子」の相互作用は社会システムとして重要視されている。障害者に優しい社会システムは、生産性の高い社会モデルであり(少なくともWHOはそのように想定しているし、日本政府としても異論はなさそうだ)、AI技術が活躍する社会でもある。AI技術を社会システムに積極的に導入しようとする場合、そのプラスの効果とマイナスの影響を、利害関係者のバイアスが少ないように評価するためにICFが役立つと思われる。特別な評価項目を工夫しなくても、広く使われているICFの評価項目を使って、評価方法を工夫すればよい。データモデルやデータマネジメントはICFとして確立しているのだから、データ解析とそのバリデーションだけに集中できる。

◆QOL、QOA、QODみんな回してみよう

QOL(Quality of Life)は医薬品開発において、重要な評価項目となっている。医薬品開発ではMedical Outcomes Study 36-Item Short Form-36 (SF-36)が汎用評価法としてよく使われる。疾患特異的評価法の場合、統計学的なバリデーションの問題がある。ICFをベースとすれば、心身機能や身体構造も医学的な観点から網羅的に分類されているし、活動(生活)、参加(社会)、環境に関する項目も充実しているので、QOLにおける汎用評価法と疾患特異的評価法の両方に対応可能だろう。実際、インターネットの文献検索サービスPubMedで”ICF, QOL”を検索すると78件の論文が見つかり、ICFをQOLスケールのチェックリストとしている研究が相当数ある。しかし、ICFを患者自身が使うのは項目数が多く、表現も難解であるため現実的ではない。AI技術でコールセンターのクレーム処理を行う時代だから、QOLスケールも従来の質問票に限定する必要はないので、ICFに適したQOL評価技術を工夫することが可能だろう。それはAIスピーカーかもしれないし、AI体重計かもしれない。患者さんの健康状態と「生活の質」の関係について、対話的にデータを収集して、自分自身の過去や他者と比較できるようにすること、その定量化のフレームワークにICFが使えるのではないかと考えている。

現在のICFではそもそも老化や「死」のことは重要視されていない。QOA(Quality of Aging)、およびQOD(Quality of Death)に関係する項目をICFに追加することで、ICFがより多層的・多世界的なスケール(世界観)となることが期待される。世界観について話し始めると収拾がつかなくなるけれども、世界観のない「共通言語」などありそうもない。体系的な分類法はアリストテレスの亡霊のような気がするし、コード体系として科学技術を取り込もうとしているけれども、ICFがWHOを一神教にしてしまわないことを願いたい。宗教や民族が多様であることは容易に認められても、宗教や民族も含めた共通言語など想像できないし、単なる相対主義的な啓蒙思想となって、政治と歴史に埋没するのが精いっぱいかもしれない。しかしコンピュータと共生するしか選択肢のない(と筆者は信じている)現代においては、難しい哲学的議論をしている時間は無い。政治や歴史に私たちの人生を任せるわけにはゆかない(筆者は歴史的記述や政治的言動を、事実認定以前の段階で、問題解決の方法の問題として信頼していない)。「生」がコード化できて、「死」がコード化できないはずがない。「生」「死」「老化」は、その全てではないとしても、その意味を現在の技術で解析できる範囲では、DNAにコーディングされている。

◆日常生活データを代数化する

今回も、とりとめもなく長い記事になってしまった。「日常生活データを回す」ためには、時間軸を設定して運動方程式を考えるか、代数的な操作として円環構造を考えることになる。前者の物理的な方法は、微積分演算子の代数化によって、現在では後者の問題の一部となっているけれども、歴史的には物理学を幾何学がサポートして、最終的に代数化された。従って、日常生活データを代数化することが本稿の最終目標となる。

「日常生活データ」は行に多数の個体、列に多数の属性を並べたデータ行列として与えられると想定している。「多数の」という場合、少なくとも10以上、通常1万以下の大きさを想定している。ICFの項目数は1500程度なので、想定範囲内ということだけれども、最近では100万件を超えるビッグデータの解析も実用段階になっている。時間軸を含めて3次元行列とすることも考えられるけれども、時点ごとの複数のデータ行列で、時点間では部分的に個体間の対応関係がある、経済分析などで使われる「パネルデータ」を想定している。物理では時間・空間を連続変数として取り扱うことが普通なので、行列表現をする場合は、無限個の列を仮定してから、適当な収束条件により、有限個の固有値などを計算することになる。データ行列の場合は通常、しらみつぶしに計算するけれども、適当な位相(距離)を導入できれば、行列を分割したり、近似して計算したりすることもできる。問題は行列の式として与えられ、解は固有値や特異値として与えられる。すなわち、計算方法としては線形代数学でしかないけれども、群の表現論のような、データモデルの代数構造に対応した表現論を目指している。

ICFをデータモデルとする場合、そこにはどのような代数構造が隠れているのか、もしくは想定している代数構造を表現するためには、どのようにICFを拡張すればよいのかということを問題として原稿を書いてみたものの、先が見通せる段階には至っていないことが分かっただけのことだった。当面の目標は「回す」ことなので、データモデルだけではなく、実際のデータを使って考えてみたい。

◆確率論としての多世界モデル、もしくはAIと共生するリスク

データ行列が量子論に近い理由は、その確率解釈にある。データ行列の場合は「誤差」という確率変数を考える固定効果モデルが古典的な解釈だったけれども、多数の確率変数を考える変量効果モデルや、確率変数の条件付確率まで考えるベイズ統計も実用段階になっている。筆者がデータ解析を始めた40年前には、固定効果モデルであっても、逆行列の計算などで計算方法を工夫しない限り、とてもおかしな計算値が出現して、理論と実践は異なるのが普通だった。しかし、どのような統計モデルを使っても、個体差の問題は満足に取り扱えていないのが現状だろう。筆者の考える個体差の問題とは、例えば病気の予後予測のように、個体差を考慮して特定の個体にとって有益な結果を得る方法のことだ。個体差を考慮して、薬効があるのかないのかという判断を効率よく行う方法は臨床試験の試験デザインとして研究されているし、それなりの成果はある。予後予測を患者ごとに「適切」に行うことは科学的には無理なので、臨床医が仁術を尽くしていると言えばそれまでなのだけれども、現在の臨床試験データの限界を無批判にAI技術で医療応用することは大いに疑問視している。

もう少し正直に話そう。筆者はいまだ確率論を理解できていない。コルモゴロフ流の測度論による確率空間の定式化や、ボレルの集合論的な精密化は、考えられている世界が大きすぎて、その世界での位相が定義できたとしても実感が無いのだ。収束する部分空間は発散する部分空間に対して、無視できるほど小さいに違いない。一方で、量子確率という、量子論をうまく説明できる確率概念は、そもそも非可換代数から発生しているため、代数操作だけ理解できれば実は簡単に理解できる。世界は時間的に非可換なのだから(少なくとも熱力学が関与する現象については)、確率も非可換であるほうが理解しやすい。しかし、その量子確率(自由確率論ともいわれる)では確率的独立性の定義が難しくなり、直感的には分かりにくい。筆者は確率論の独立性の概念自体が難しいので、古典確率論のように分かりやすくしてしまうと、ゴマ化されている気がする。私たちは万能の神ではないから、確率的に独立な事象など、本当は理解できていないのだろう。もっと簡単な結論にすると、筆者は確率概念そのものを疑っていて、乱数が実体で確率は乱数の記号的表現のようなものと考えている。数学は数を中心にすべきで、集合や論理に還元すべきではないという立場だ。実数の性質や微分積分を研究するために集合論は強力なツールであった。整数や有理数であれば、代数学のほうが強力であることは明らかで、現在は実数や関数であっても、圏論という代数学が集合もその部分に含む形で強力なツールとなっている。乱数とは正確には乱数列のことで、量子論的な測定で作るか、コンピュータの疑似乱数で満足するのか、πなどの超越数の中に発見するしか乱数列を作り出す方法は知られていない。データサイエンティストはもちろん、疑似乱数で満足している。乱数を本質的には理解することはできないかもしれないので、多数の乱数列をインターネットで共有して、理解したつもりになろうという作戦だ。

AIと共生するリスクを最後としよう。AIに限らず、コンピュータに依存すると、水害に弱くなる。小惑星の衝突で恐竜は死滅したけれども、ワニとカメは生き残った。アンモナイトのように海生生物も水質汚濁には弱い。ワニとカメのように、まさに水際を巧みに生き抜く生物は環境の大変化に強いのではないかと想像させられる。原子力発電において、非常時の電力が制御装置の弱点であることは確かだとしても、津波で水浸しになったり、異常な湿度が続いたりしたら、電力があってもコンピュータは機能しなくなるだろう。リスクは分散する以外の確実な対処方法はない。インターネットは分散処理システムとして誕生したけれども、AI時代のビッグデータは少数のデータセンターに依存している。インターネットの障害は原子力発電の事故よりも深刻かもしれない。しかも水害のように不可逆的な事故の場合は、短期間の回復が望めない。コンピュータと共生しても、コンピュータに依存するのではなく、人とコンピュータそれぞれの独立性が高まり、多様なコンフィグレーション(機能的な組み合わせ)が実現するように、筆者も微力ながら努力したい。恐竜にはならなかった小鳥と、ワニとカメのように。

参考1;ICF 国際生活機能分類 ―国際障害分類改訂版―(世界保健機関〈WHO〉、〈翻訳〉厚生労働省、中央法規出版、2008年)

※『住まいのデータを回す』過去の関連記事は以下の通り
第5回 住まいの多様体(その5)
https://www.newsyataimura.com/?p=6902#more-6902

コメント

コメントを残す