п»ї データ論の準備(2)方法『住まいのデータを回す』第19回 | ニュース屋台村

データ論の準備(2)方法
『住まいのデータを回す』第19回

5月 14日 2019年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

株式会社エルデータサイエンス代表取締役。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

前稿は「データ論の準備(1)目的」だった。「目的」について思いを巡(めぐ)らすうちに、まとまりのない長文となってしまった。「データ論」は40年間の筆者なりの思いがあるので、簡潔な目的に要約することに抵抗感があったのだろう。データ論の目的は、機械文明の限界を乗り越えて、データ文明が開花するための技術思想を模索しながら、現状では解決の見込みのない問題群に「データ」技術によってアプローチすること、と要約できる。これらの問題群は機械文明が作り出したと仮定すれば、機械とは根本的に異なる技術思想、例えばデータやウイルスの技術思想によって、解決へのヒントが得られるはずだ。その未解決問題の一つとして、認知症について『住まいのデータを回す』ことを模索してきた。ぐるぐると、17回も文章を書いているうちに、ウイルスと共存・共生・共進化するライフサイクルのような「データサイクル」という技術思想にたどり着いた。データ論の目的をより簡潔に記述すると、データサイクルというデータ技術の実用性を明確にすること、と要約できる。

しかし、データサイクルという概念や技術について、明確に理解できているわけではない。どのようにすれば明確に理解できるようになるのか、その目的を達成するための「方法」が問題になる。

◆哲学における方法の問題

本シリーズの重要登場人物である17世紀の哲学者、デカルトの『方法序説』は近代哲学の骨子のようなもので、スピノザのエチカにおける「幾何学的秩序によって証明された」哲学のような徹底した方法論ではない。しかし、デカルトはデカルト座標を発明して、幾何学を計算可能にしたのだから、スピノザの先達(せんだつ)であることは疑いようがない。疑いようのないことから考察を始めること、筆者にとっては認知症に近い「我おもう」よりも、確かに近代を感じることのほうが、「データ論」の出発点にはふさわしいと思われる。

哲学の誕生はギリシャ哲学にさかのぼり、ソクラテスがソフィストを論破したとき、「何も知らないことを知っている」議論だろう。しかしソクラテスは死刑になる。プラトンはソクラテスの議論を、ピタゴラスの密教的な数学でシュガーコートして、知の殿堂であるアカデミアを創設した。数を数字によって表現することで、個数と序数(順序数)を同一視する錯覚が始まる。ピタゴラス学派は分数(有理数)では表現できない「無理数」を発見してしまった。無理数を認めない限り、実数であらわされる直線や円の幾何学が成立しない。アカデミアに学んだユークリッドは、この怪しげな実数の世界を、幾何学的な証明という「論理」によって正当化してしまった。

このような大胆な哲学的トリックは現代でも続いている。カントールが無限集合を発見して、有理数の無限と実数の無限が異なることを証明して、再度、実数の世界が怪しげになったら、ホワイトヘッドとラッセルは「集合論」を数学の基礎にすることで、無限集合を正当化してしまう。哲学における方法の問題は、数学の自由と哲学の自由が交錯する場かもしれない。

「データ論」の方法も、個数と序数にさかのぼり、「万物は乱数である」という哲学的トリックから始める。「万物はデータである」という錯覚を正当化する方法だ。「データ論」において、個数は個体差をともなう数として確率変数となり、序数は順序ネットワークとしてランダムな振る舞いを示す。

具体的にデータ行列を使って説明しよう。データ項目をN列として、観察個体をM行とすれば、MS-EXCELのようなNxM成分による集計表となる。データ行列としては数値データだけを想定して、適当にスケール変換されていると仮定する。データ項目を確率変数と解釈すると、NxN成分の共分散行列が定義できて、多くの統計モデルの出発点となる。最近では、遺伝子データのように観察個体数Mよりもデータ項目数Nがはるかに大きいデータ、または同じ個体から何度も繰り返し測定されるデータなどの、従来にはないビッグデータも解析の対象となる。うまく操作すると、MxM成分の個体間結合の行列が定義できる。この結合行列は大半の成分がゼロとなるスパースな行列となる。NxM型のデータ行列から、NxNとMxMの二つの正方行列が定義できて、それらの固有値や特異値の分布を計算できる。後者のMxM型結合行列の研究は始まったばかりなので、それらの固有値や特異値が何を意味しているのかよくわからないけれども、個体間のネットワークグラフとしての性質に関係していることは確かだろう。

◆データ量を測るゼロ点としてのランダム行列

IT(情報技術)革命が経済の話題になるはるか前から、17世紀のライプニッツが2進法による万能計算機を発明してから、情報技術は急速に発展していた。しかしITによるデジタル革命が社会全体に大きな影響を与えるようになったのは、シャノンが情報量を定義してからだと思う(※参考2)。シャノンの情報量は、通信技術によって情報を伝達するときの量を、熱力学のエントロピーと類似の数式で定量化している。情報の内容ではなく「情報量」を抽象的に定義したことで、技術進歩の評価が容易になり、技術応用が促進された。

データ量をデータ通信・記録の情報量としてではなく、データ取得のコストとデータ活用の利得から計算するとすれば、例えばNxM型のデータ行列の場合、独立なデータ項目数と個体数の積(NxM)に比例するだろう。しかし、多くのデータ項目は独立ではなく、相互に相関しているし(NxNの共分散構造)、個体数も集団的な構造があるために(MxMの結合行列の構造)、単純な計算はできない。そこで、データ行列において、全ての成分を乱数としたランダム行列はデータ量を測る「ゼロ点」となる可能性がある。N次正方行列は一般にN次元の線形空間とみなせるので、ランダム行列がN次元空間のゼロ点となるイメージだ。

ここで再度、数学的なトリックが必要になる。データ行列の成分を実数から複素数に一般化してみよう。データを複素数にしても、行列成分の対称性などの条件で、行列の固有値や特異値が実数となり、数学的には取り扱いやすくなる。データを複素数化するというのは違和感があるかもしれないけれども、画像処理をモデルとするAI技術(いわゆるディープラーニング)で使われるTensorFlowは、行列成分を一般化してベクトルにしたテンソルでデータを表現しているのだから、無理な話ではない(複素数は2次のベクトルとして表現できる)。本稿第15回(※参考3)ではTensorFowを発展させたSpinorFlowについて記述した。「データ論」では複素数のデータ行列から始めることにしよう。別の言い方をすれば、「データ論」が扱うデータは複素数としての乱数で、通常は誤差とかバラツキとして、純粋に統計的にしか意味のない量ということになる。データ量のゼロ点がうまく定義できれば、同様にデータ行列の特異値や固有値の分布としてデータ量を測ることを想定している。

◆機械文明と都市文明、もしくは分子機械とウイルス

数学的自由と哲学的自由が交錯する危うい方法を志向するのには理由がある。機械文明はすでに私たちの思考を機械化しているため、データ文明の萌芽など容易に取り込んで機械化してしまうからだ。機械文明を農業機械までさかのぼれば、都市文明とほぼ同じ射程距離となり、数学や哲学すらのみこんでしまう。AI(人工知能)技術が機械文明にのみこまれてしまえば、機械化された私たちの思考ではAIに対抗しようがない。だから、ウイルスとランダム行列という、全く関係のない、しかし現在想像できる最も強力な方法が必要になる。

都市文明が終焉(しゅうえん)するとすれば、それはウイルスが人類を本気で襲うときだろう。地球上の都市がすべて崩壊すれば、機械文明もAIもすべて崩壊する。ウイルスは分子機械なのだろうか。筆者は、ウイルスは分子機械ではなく、データ生命だと考えている。分子機械はタンパク質であり、データ生命は遺伝子コードに対応する。データ生命は、生命としての多様性を増大するように進化している。人類が生命の多様性を大きく損なう原因となるとき、ウイルスとしては看過できなくなるだろう。しかし、機械文明からデータ文明への移行がうまくゆけば、都市は仮想化され、ウイルスとの共存・共生・共進化が可能となる。

方法としてのウイルスは、ウイルスを知ることから始まる。ウイルスを知るにはAI技術が必要だ。私たちの思考スピードでは、ウイルスの変化に追いつかない。現在のAI技術は視覚モデルであるため、見えないウイルスを、アニメのように見えるようにするのには役立つだろう。しかし、ウイルスにとって見られることが本質ではない。細胞に接着して食べてもらわないと感染できない。ウイルスは触覚と味覚、または臭覚のような、分子認識の世界で生きている。ウイルスを知るためのAI技術は、分子認識が基盤となる。この分野でもアルファ碁をプロにも勝るレベルに仕上げたディープマインド社が、アルファフォールドというタンパク質の3次構造を予測するAIプログラムで先行している。しかし、ウイルスの表現論までさかのぼって、本気で分子認識を追及しているようには思えない。

◆「データ」の表現論

ウイルスは何を表現しているのだろうか。表現された作品としてのウイルスはウイルス粒子だとして、表現するのは細胞内のウイルス製造装置であり、表現された作品を鑑賞するのは感染される細胞なのだから、ウイルスが表現しているのは、細胞の内部と外部をつなぐウイルスの生活環ということになる。ウイルス生活環のトポロジーがウイルス表現論の方法となる。ここでいうトポロジーは数学的な意味でのトポロジーよりも原初的なもので、「場所=トポス」を抽象的に表現できればよい。単純化すれば、ウイルスは生きる「場所」を表現しているのだと思う。

「データ」の表現論においても、表現者、作品、鑑賞者をそれぞれ想定することになる。データすなわちコンピューターにとっての自然という、本稿の出発点にさかのぼれば、表現者は「自然すなわち神」であって、鑑賞者はコンピュータープログラム、作品は「データすなわち自然」そのものということだろうか。ヒトはプログラマーとしてデータを鑑賞する。データ論の方法は、データの表現論でもある。ウイルスの表現論から学び、データ文明が機械文明と決別して、私たちが生きる場所を、視覚的ではなく分子認識として理解できるようになることが、データ論の方法の問題となる。

◆「データ論」の方法の問題

『方法の問題-弁証法的理性批判序説』(サルトル全集第25巻、人文書院、昭和46年重版)もしくは『弁証法的理性批判』には、バス停で列をなす人々についての記述があったはずなのに、簡単には見つからなかった。サルトルが、個人と集団の問題を考えた時に、人々の順序、序数と個数の相違に気が付きながら、突破口を見いだせずにいたという読後感を48年後の今でも覚えている。それはマルクス主義の問題というよりも、ギリシャ哲学からの哲学的トリックの問題なのだと思う。カントは哲学の限界を受け入れるために『純粋理性批判』を書いた。サルトルは哲学の限界を超えようとして、確実なものが無いことに不安を覚え、堂々巡りをしたのだろう。

もし、『弁証法的理性批判』を乗り越えるような文章を書こうとすればどうすればよいのだろうか。『弁証法的理性批判』はとても混乱した、乱文で、難解な文章であることは間違いない。データ論の立場からは、『弁証法的理性批判』をコンピューターに読み込ませ、少なくとも検索可能にすることから始めたい。

データ論の方法の問題は哲学的な問題ではない。機械文明の限界を生きる、自分自身の問題のはずだ。自分と他者の間に、ウイルスが存在することを理解せず、全て理解しているかのような言い方をする傲慢(ほうまん)な人々の問題だ。データ論が実際に書かれることがあるとすれば、機械論的な制約を乗り越えて、数学的自由を信じることが出来る、明確な動機が必要だろう。『住まいのデータを回す』は、認知症の薬物療法への新しいアプローチを模索してきた。このような困難な課題には、自分自身が信じていることを疑うこと、方法的懐疑が必要だと思われる。データ文明が機械文明よりも、より良いと思えるような、全体構想について考えてみたい。

参考1:ランダム行列と分布のUniversality(普遍性)
https://www.weblio.jp/content/ランダム行列

参考2:シャノンの情報量
https://ja.wikipedia.org/wiki/情報量

参考3:『住まいのデータを回す』第15回、認知症を生きる人類と人工知能(2)

認知症を生きる人類と人工知能(2) 『住まいのデータを回す』第15回

コメント

コメントを残す