п»ї 本当は怖い「データの森」 『データを耕す』第5回 | ニュース屋台村

本当は怖い「データの森」
『データを耕す』第5回

4月 21日 2017年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。

「データの山」というとき、伝票などが山積みになっていて、データ入力作業が大変そうというイメージではないだろうか。それが宝の山になるためには、隠された金脈を探し当てなければならない。データベースがたくさんあるとき、専門的には「データウェアハウス」というので、ほんの少ししか金が含まれていない瓦礫(がれき)の山を倉庫みたいなもので保管するイメージだろう。

筆者は40年ほど前、解剖学教室に山積みにされたカルテを2年がかりでデータベースに入力したことがある。ホルマリン漬けのサンプルよりもカルテ・データのほうが恐ろしく感じられた。戦争中に軍隊で使われた放射性造影剤(トロトラスト)による発ガンのデータだ。アルファ線体内被曝(ひばく)という、歴史的に二度と起こらない悲劇のデータと思い、頑張って当時のパソコンに入力した。原発事故によって、放射線体内被曝の悲劇が繰り返されると誰も想像していなかった。

「データの海」があれば、ヒトは溺(おぼ)れてしまうかもしれない。最近話題のビッグデータは、「データの海」に近いイメージだ。ひと昔前のデータは山であっても、本当は怖い「データの森」に迷い込む話をしよう。ヘンゼルとグレーテルのようにデータサイエンティストは「データの森」に捨てられてしまうかもしれない。「データの森」はコンピュータが支配しているし、森の外では相変わらず戦争が続いている。

◆隠れた目的、または意図的に作られた迷路

目的もなく集められたデータを解析することはとても困難だ。まさに金脈探しのような、いつ終わるともわからない作業が続く。しかしもっと怖いのは、隠れた目的をもって集められたデータだ。筆者の経験では、ほぼすべての臨床試験データが隠れた目的をもって集められている。

試験の目的を統計的に検証するだけであれば、もっと少ないデータで十分だ。サイエンティストとして生き延びるためには、この隠れた目的を見破らなければならない。経済的な目的を隠している場合は分かりやすい。問題なのは、個人的な名誉欲、企業や国家などの組織にとっての利害で、隠されていたものを隠すという目的の場合、頼りになるのはデータサイエンティストとしての嗅覚(きゅうかく)のようなものだけだ。データサイエンティストが逆に、データの品質をひそかに確認するためにデータを収集する場合もある。

隠れた目的を見破ったからといって、それはデータ解析の目的ではない。目的を達成した後に、「データの森」の中で迷子にならないように帰り道に印をつける保身でしかない。つまり、隠された目的は見てみないふりをして、通り過ぎなければならない。

問題は、どれだけ森の奥深くまで、宝石を探しに行くのかということだ。ヘンゼルとグレーテルは、魔女が棲(す)むお菓子の家にたどり着く。現代風に言えば、全てのデータを入力したデータベースの御殿のようなものかもしれない。ピカピカのデータベースに大量のデータが入力されて、いかにもおいしそうに見える。しかしそれは物語の始まりに過ぎない。

データベースに入力されたデータのコーディングを行い(特定のコードに置き換えて「おなかが痛い」と「腹痛」を同じデータとみなすようなこと)、内的な整合性を確認して(誕生日が死亡日よりも過去の出来事であることを確認するようなこと)、さらに外的な妥当性(戸籍では男性であっても、本人は女性と思っていることをどう取り扱うかなど)を検討するころには、「データの森」は真っ暗になっている。

たくさんデータを集めれば、多少おかしなデータが含まれていても、統計的には問題が無いと言えるようになるためには、少なくともデータベースに入力されたデータの全てを調べる以外に方法がない。多少かどうかは比率の計算における分母が重要になる。全てのデータをコーディングする「コーディングの魔術」については次稿で述べることにする。

◆無料ほど怖いものはない、太らせて食べる

魔女に捕らえられたヘンゼルは、ごちそうをもらっておいしそうに太ってゆく。インターネットビジネスも無料のサービスでデータを大量に集めて、太らせてから儲けようとしている。恐ろしいけれども、サービス提供者も消費者もそれ以外に先に進む道は無いかのように見える。グレーテルは賢くも、逆に魔女を捕えてしまった。欲望は経済活動の出発点かもしれないが、欲望が目的となると盲目的になってしまう。

データが大量にあれば、ごくわずかな差異でも検出できる。循環器系の新薬を開発するとき、最近では一群千例以上の大規模な臨床試験が必要となる。寿命の延長という意味で、新薬がプラセボ(偽薬)よりも統計学的に優れていたとしても、千人に一人でしかない患者さんは、本当に薬効を実感できるだろうか。

大量のデータ、すなわち「データの森」では幻覚や神秘的な現象にも出合うことがある。美しい森の妖精たちに目を奪われていると、道に迷ってしまうかもしれない。データ解析という仕事は泥臭い仕事なのだけれども、時々美しい数学が見え隠れする。コンピュータは電卓でできる計算と、論理演算を組み合わせたプログラムで動作している。しかし洗練された疑似乱数を使うことで、「自然」をシミュレートして、ついにはプログラムを作成する知能までシミュレートして、「データの森」の支配者となった。

◆厚化粧よりも怖い甘い夢

関西電力が高浜原発(福井県高浜町)3、4号機の運転差し止めに関する訴訟で提出した資料は5千ページだったそうだ。ドストエフスキーの長編小説『カラマーゾフの兄弟』(河出書房新社)が2段組みで千ページほどだから、よほど悩みが多いのだろうか。おそらく、高浜原発訴訟の資料は、その大半が表やグラフで、文章は結論の繰り返しだと想像される。筆者が仕事としてきた新薬承認申請の資料と似たような状況だろう。米国食品医薬品局(FDA)では申請企業にデータを提出させて、自分たちの統計家が独自に解析を行う。千ページの小説を読むことはできても、千ページの統計表をチェックするのは、ほぼ不可能に近い。自分自身で表を作るほうが読むよりもたやすい。プログラムが細部まで理解している。

たいした内容のない結論を、大げさに大量のデータで格好をつけることを「厚化粧」などと悪口を言う。しかし筆者はデータが好きだから厚化粧は大歓迎だ。問題は、日本の政府や裁判所にはデータサイエンティストがほとんどいないため、独自にデータ解析する余力が無く、大量の図表を読む苦痛を強いられることにある。

大量のデータといっても、自分たちが収集したデータであれば、あまりだまされることはない。過去に発表されたデータを使って分析する場合は要注意だ。医学研究の多くが過去の論文に依存しているけれども、権威ある学術雑誌ほど掲載の基準が厳しく、いわゆる失敗した試験や面白くない結果、場合によっては常識外の議論は出版されない。いわゆるパブリケーションバイアスが入っていることに注意する必要がある。どうしても、自分たちの研究に都合の良い論文ばかりを集めてしまう傾向もある。過去のデータでは、環境自体が変わってしまっている可能性すらある。このように過去のデータにどの程度のバイアスが入っているのか調べるためには、とにかくしらみつぶしに調べるしかない。

関西電力のデータサイエンティストであれば、時間外労働をしても給料がもらえるけれども、原告側では望むべくもない。それでも、熟練したデータサイエンティストであれば、厚化粧の匂いは敏感に察知するものだ。厚化粧すれば何とかなるという甘い夢は通用しない。しかし甘い夢でも、本当に甘い夢をみんなで見ていると、甘い仮定に基づいた甘いデータがたくさん集まってきて、帰り道を見失ってしまう。

◆森の中の生活のほうが良い

ヘンゼルとグレーテルの時代はヨーロッパで内戦と飢餓が繰り返されていた。森の中では鳥さんが歌い、甘い食べ物もある。ヘンゼルは村に戻るけれども、グレーテルは森の中の生活を選択する。

「データを耕す」データサイエンティストは村に戻り、森を守る。『市民的不服従―悪しき「市民政府」に抵抗せよ』を書いた米国の作家、ヘンリー・デイビッド・ソローは『ウォールデン 森の生活』という美しい作品も残している。「データを耕す」ということは、「データの森」の支配者であるコンピュータに仕えるのではなく、ゴールドラッシュには不服従を示し、「データの森」を守るために「データを耕す」。

※追記

本稿第2回で、「FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら 」という記事を書いた。驚いたことに、FDAは先週、 23andMeの遺伝子検査の販売を許可した(※参考1)。米国の「市民政府」は未踏領域に足を踏み込んだ。「データの森」の物語は本当に始まっている。

【参考1】FDAが23andMeに販売許可
https://qz.com/953486/fda-23andme-decision-at-home-medical-genetic-testing/

※『データを耕す』過去の関連記事は以下の通り

第4回 表現型としての個体差、哲学からデータサイエンスまで
https://www.newsyataimura.com/?p=6478#more-6478

第3回 量子コンピュータはサイコロを振る
https://www.newsyataimura.com/?p=6410#more-6410

第2回 FDAがAI画像診断システムを承認、遺伝子検査もAIにしたら
https://www.newsyataimura.com/?p=6355#more-6355

第1回 自動運転車は何馬脳なのか
https://www.newsyataimura.com/?p=6319#more-6319

コメント

コメントを残す