山口行治(やまぐち・ゆきはる)
在野のデータサイエンティスト。元ファイザーグローバルR&Dシニアディレクター。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。職業としては認知されていない40年前から、データサイエンスに従事する。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。
東京・お台場にある日本科学未来館は2001年にオープンしてから16年が経過した。昨年、大規模なリニューアルをしている。AI(人工知能)の時代を間近にして、データサイエンスがどのように取り扱われているのかを知りたかった。結論から言うと、「データ」はサイエンスの裏方のままだった。未来ある子供たちにとって、夢は「データ」の中にはないらしい。健全だとは思うけれども、いま生きている社会が健全ではないことを自覚することも大切だ。
◆「100億人でサバイバル」
「100億人でサバイバル」という企画展示は、震災や原発事故という現実に起こったハザード(社会の存続や多くの人々の命を脅かす危険)を再考して直視する内容になっている。観客は未来を支える子供たちが主人公であるため、直感的な理解を助ける工夫が見どころだ。
しかし筆者は、アイコンのように描かれている「ハザード曲線」に感心を持った。時間は左から右に進み、右肩上がりで3度ほど小さなハザードのピークを示して、大きなハザードがやってくる。ハザードのピークは微分不可能な折れ曲がりのように見える。
ハザードの性質として、リスクの連鎖反応で組み合わせ論的爆発(※参考1)のような増加があり、ハザードのピークとなる特異点の後には、二重指数関数(※参考2)のような急速な減衰があるのだろう。ハザードは確率現象なのだから、ハザード曲線を上述のような解析的なイメージではなく、確率的なイメージに翻訳したいものだ。
千年に1度の大震災は実際にどのような分布をしているのだろうか。統計の理論では、データの最大値の分布などで極値分布(※参考3)が知られている。極値分布に二重指数関数が含まれていることは興味深い。確率的なイメージと解析的なイメージが二重指数関数で重なってくる。ハザードとは全く関係がないけれども、二重指数関数は数値積分の世界でも大活躍をしている。
コンピュータは微分より積分のほうが得意だ。ヒトはニュートン力学のように、微分のほうが理解しやすい。コンピュータと一緒に「100億人でサバイバル」したいものだ。
◆「問い」をみつけること
科学未来館リニューアルの根幹にある考え方は「問い」をみつけることで、回答を与えることではない。「問い」をみつけて、考えて、アクションすることを支援する道具として、スマホのアプリ「Miraikanノート」を無料で配布している。
数年前に大きな社会問題となった科学論文詐称問題を覚えているだろうか。実験の証拠写真もデジタル化されているので容易に改ざんできる。従って欧米では、実験ノートを電子化することで、科学実験の証拠性を高めている。日本でも特許出願など証拠性が必要とされる民間企業の研究所では電子実験ノートが導入されている。
日本の大学などではコストの問題から電子実験ノートの導入がおくれているが、欧米の大学では紙の実験ノートよりも電子実験ノートのほうが経済的だという実証実験もある。日本における問題は、安価な電子実験ノートをいかにうまく活用するのかという、研究者の教育の問題と、そもそもデータをどのように残すのかというデータサイエンスの問題であることを指摘しておきたい。
大手IT企業が販売する高価な電子実験ノートは使いやすく保守管理も行き届いている。一方で、インターネットで容易に使える安価な電子実験ノートもある。日本の研究現場に不足しているのはお金ではなく、データの価値を評価することと、異業種と連携してIT技術を使いこなすチームワークだろう。「Miraikanノート」は一種の電子実験ノートなので、未来の日本の研究者は無料の電子実験ノートをうまく使いこなすに違いない。
◆「コホート」研究
未来館には先端ロボットが展示され、AIというキーワードを何度も見かけた。しかし「データ」の価値については明確なメッセージは無かったと思う。原発事故で甲状腺がんが増加したのかどうかという議論では1回目の調査と2回目の調査を比較していたが、調査の分母を確定する「コホート」研究については言及されていなかった。
「原発事故 コホート」でグーグルを検索してみてビックリした。チェルノブイリ、スリーマイル島、フランス原発労働者などのコホート研究がヒットするけれども、“Fukushima Cohort Study”という福島県立大学の研究論文を探すのは容易ではない。
ぜひ「コホート」という言葉を覚えてもらいたい。コホート効果とは世代効果ともいわれ、ある時ある場所で大きな体験を共有すると、その後長期間にわたり生活習慣に影響を与え、疫学データに大きな影響を与えることがある。戦争体験、炭鉱労働者、移民などの研究が有名だ。原発事故のコホートでは、放射能被ばくだけではなく、故郷を離れるストレスなど、多くの要因が考えられるので、追跡調査を行う対象集団(コホート)を確定することが必要になる。
◆データの山から「愛と冒険」を探し出す
AIの時代になるとヒトはコンピュータに勝てなくなる。AI技術は確率論をベースとするゲーム理論なのだから、コンピュータが本気を出せば(本気でプログラミングすれば)、ヒトが勝てるはずがない。計算や論理操作でコンピュータに勝てないのと同じだ。
そういった勝敗の問題が損得の問題に直結しているため、AI企業が多くの国民のデータを活用して得をする。確率計算のためには多くのデータを必要としているので、分母が大きいほうが有利になる。AI企業が儲ければ、納税するので国民も得るところがある。グローバル企業が地球規模での脱税を行わないという条件付きで。しかし国家がAI技術を使うときには要注意だろう。国民のデータは国家のものではなく、国民自身のものであることを忘れてはならない。
一方で、コンピュータは地球規模でのネットワークを形成し、ニッチ&エッジの未来社会の基盤技術にもなりえる。コンピュータとともに、多くの友人と分かちあう「愛と冒険」があれば、ゲームの勝敗などどうでもよいと考えるのは筆者だけだろうか。科学の未来と未来の科学者に必要なのは、データの山から「愛と冒険」を探し出す、未来志向のコンピュータ活用技術であって、ヒトがたくさんの「愛と冒険」を経験することから未来が始まる。
参考1 組み合わせ論的爆発
日本科学未来館制作のアニメ本編「『フカシギの数え方』 おねえさんといっしょ! みんなで数えてみよう!」をぜひ見てみてください。数理的には続編「数え上げおねえさんを救え」も大変参考になります。送電網の解析はニッチ&エッジに近い実例になっている。
https://matome.naver.jp/odai/2142258992824098301
参考2 二重指数関数
https://en.wikipedia.org/wiki/Double_exponential_function
参考3 極値分布
https://ja.wikipedia.org/wiki/%E6%A5%B5%E5%80%A4%E5%88%86%E5%B8%83
※「データを耕す」過去の関連記事は以下の通り
番外編1 恵比寿映像祭の「ポピー:アフガン・ヘロインをたどって」 https://www.newsyataimura.com/?p=6379#more-6379
コメントを残す