п»ї 機械学習する民主主義『みんなで機械学習』第25回 | ニュース屋台村

機械学習する民主主義
『みんなで機械学習』第25回

7月 31日 2023年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

英国の経済学者エルンスト・シューマッハー(1911~1977年)の「スモール イズ ビューティフル」における中間技術の提案を、「みんなの機械学習」として実現するため、「スモール ランダムパターンズ アー ビューティフル」という拙稿を連載している。前稿では、近代的な、論証を重視する微分的思考から、デジタル時代の俯瞰(ふかん)する積分的思考への移行について考えてみた。計算としては、乱数を用いる確率積分の話だ。特に、デジタル分解能で位相制御するデータの世界は、量子の世界のような、人類として未経験の領域になる。「スモール ランダムパターンズ アー ビューティフル」は途中の画像以降なので、制作ノートに相当する前半部分は、飛ばし読みしてください。

「スモール ランダムパターンズ アー ビューティフル」のゴールは、結論を論理的に構築することではなく、生活世界において、データの世界との共存・共生・共進化に希望を実感することにある。近代的なモノの価値を問う経済から、コト(サービスなど)の意味を重要視する経済への移行を時代背景として、近未来のデータサイエンス テクノロジー アンド アート(データの世界)が、人類の文明論的な変革をもたらす夢物語を、少なくともディストピアとはしない、複数の探索路を切り開こうとしている。物語のゴールにおいては、意味が認知される以前の「データ」そのものが、みんなの機械学習によって、「言語」とは別の、文明の道具になるだろう。

◆機械学習する民主主義

AI(人工知能)は、コンピューターがデータに関して機械学習した結果を、人間が理解しやすいように、意味のありそうな表現として提示し、人間にとって役に立つように、価値のある(儲かる)サービス商品化したものだ。従来のデータ解析におけるグラフ表現に限らず、生成AIでは、画像表現や文章表現も可能になってきた。サービス商品としては、自家用車の自動運転技術のように、従来の製品に組み込まれる場合が多い。AI技術が高度になると、技術内容が人間(AIプログラムの制作者を含めて)では理解できなくなり、AI技術が原因となる問題も増加して、不具合が予測困難となるため、AI技術の倫理的な問題が重要視されている。AIが、神や独裁者のように振る舞うSF(サイエンスフィクション)の世界を想像しなくても、AI技術が近代以降の社会システムに与える影響が甚大になることは確実だ。例えば、小学校教育における機械学習の導入について、前稿では、新薬の臨床試験のような方法論を提案してみた。

AI技術の有無に関係なく、近代以降の社会システムは、国家的紛争(戦争やテロ)の暴力性が限度を超えて、環境問題(気象変動など)や社会問題(経済的格差の増大など)も加速度的に増加して、持続可能な社会システムとは思えない段階に至っている。恐竜の大絶滅のような、人類の大絶滅が起こったとしても不思議ではない。筆者としては、言語文明からデータ文明への、文明論的な変革を想像しながら、本稿を連載している。例えば民主主義は、単独では不安定な政治システムであるため、啓蒙主義の実践によって、未来への希望や責任を補強するというのが、近代の理念だった。しかし、軍国主義教育を除けば、そのような啓蒙主義の実践が成功したと思えないし、少なくとも発展的に継続していない。言語による啓蒙ではなく、データから機械学習する民主主義はどうだろうか。政治の支配者が、AI技術で民衆を監視するよりも、民衆が支配者を監視するほうが技術的な効率がよいのは確実だ。監視するというよりも、支配者としての政治思想や社会思想と関連するオルタナティブデータを公開して、みんなで機械学習してみたい。経済活動の場合、広義の経済データを公開できる企業が市場で信頼される。政治活動であっても、同様の活動は可能なはずで、公開するデータが信頼できる政治団体が、選挙で支持されるのは当然だろう。

◆意味のあるデータを発見して公開する

意味や価値があることが確かなデータを大量に保有していれば(ビッグデータのこと)、データサイエンスの発展によって、政治活動や経済活動において有利な時代となった。ビッグデータではなくても、デジタル分解能でのデータであれば、大量のデータを安価かつ短期間に収集できる。しかし、ミリ秒以下の時間変化や、顕微鏡レベルでのデータの場合、ほとんどが意味不明なデータといわざるを得ない。人間の直感では経験したことのないデータの世界であるため、意味不明でも当然だろう。それでも、周期的なデータの場合は、位相を制御して、フーリエ変換などを行うことで、人間が直感的に理解できるようになる場合がある。量子力学の原理を使うNMR(核磁気共鳴)解析では、例えば、画像の空間情報を、位相情報から再構成するといった工夫が行われる。いわゆるスペクトル解析の話で、元のデータが複素数で表現されているために、フーリエ変換では、周波数だけではなく位相情報にも重要な意味が見いだされる。データが複素数で表現されるのは、量子力学だけではなく、電磁気学(光や電波など)でも、よく知られていることなのだけれども、位相を制御できるようになったのは、レーザーの発明以降、デジタルの時代になってからだ。デジタル通信技術が、難しけれども大きな可能性があるのは、位相制御の話だ。別の言い方をすれば、スペクトル解析をして、経験的に理解できる周波数だけを見ていたのでは、複素数で表現される深遠な数式の意味を理解することは困難だ。しかし、位相を制御する実験を行えば、その結果は(実験が成功すれば)とても理解しやすくなる。

直感的には意味不明な問題を、精密に議論できるようになったのは、現代数学の大きな成果だと思う。例えば、方程式の解という数学的な対象が理解困難であったとしても、方程式の解に対する数学的操作が厳密に定義できれば、方程式の解の意味が数学的な概念として拡張され、自然に理解できるようになる。200年前の、ガロア(フランスの数学者、1811~1832年)の群論が、現代数学に与えた大きな衝撃だった。対象に対する操作を考えることで、対象への理解が深まる。直感が働きにくい抽象的な議論になったとしても、抽象的な定義がうまくゆけば、より一般的な問題として、具体的な問題がが解けてしまうのだから、強力な方法としか言いようがない。数学だけではなく、物理学や工学、データサイエンスにおいても、直感的に理解しうる対象ではなく、対象に対する操作を考えることで、対象に隠された意味が理解できるようになる場合がある。哲学の場合でも、概念を明晰(めいせき)にする方法として、概念の体系化(形而上〈けいじじょう〉学)ではなく、その概念が何の役に立つのか(どのような効果をもたらすのか)ということを考える、米国流のプラグマティズムも、現代数学の抽象的な方法に近いかもしれない。筆者が考案した機械学習のアルゴリズム、フェノラーニング®は、データの意味ではなく、データが表現するもの(ことがら)の意味を考えるので、現代数学と同類の、抽象的な考え方だろう。より正確には、フェノラーニング®は、データマネジメントの操作を抽象化している。

データの意味を発見した場合、本当に意味のある発見となるためには、公開して、人びとの反応を確認する必要がある。しかし、データを公開できない何らかの理由があるかもしれない。データ市場が実現されて、データが商品のように流通するようになるかもしれないけれども、言語活動の全てが商品にはなっていないのと同様に、全てのデータが商品となることは無いだろう。データが公開できない場合でも、データの意味に相当する予測モデルであれば、知的財産権を保護して公開することは可能だろう。予測モデルの性能評価のためのデータを、シミュレーションで作成して公開することも可能だ。ただし、特許の「発明」において、シミュレーションで作成したデータによる実施例が認められるかどうか、筆者では判断できないし、認められる場合でも、相当の工夫が必要と思われる。データを独占することの社会的な不合理を明確にするためにも、高価なデータを使ってアイデアを実証することよりも、アイデアを実証可能な形で公開することを推進してゆきたい。

◆価値のあるデータを知的財産権で保護する

価値のあるデータもしくはデータベースによる経済活動を保護するのは著作権であって、予測モデルのように、データから実際に経済的価値を創出するのは、データを解析するアルゴリズムであり、特許権によって保護される。解析プログラムは著作権で保護されるけれども、プログラムを実装した装置は特許権で保護される。技術的なデータやプログラムの場合、改ざんが容易であるため、公開して改ざんを防止すると、経済的な対価は得にくくなる。データ解析のアルゴリズムが特許で保護されたとしても、商品として市場で流通することがないため、その経済的な価値は評価しにくい。多くの場合、企業買収によって、特許とともに、特許を考案した技術者集団ごと売買される。この場合、ひとりで考案したとしても、100人の企業のほうが経済的評価には有利であることは明らかで、ベンチャー企業は無理しても成長せざるを得ない。単純にいえば、データを使う技術的なビジネスの場合、近代以降の市場経済では無理が多く、社会制度の制度設計を根本的に再考する必要がある。しかし現実には、そのような制度設計の議論には時間がかかるため、社会制度が不十分な問題点は、国家が介入して解決するしかない。国家の介入は、独占禁止法や技術規制などの明示的な場合だけではなく、治安技術や軍事技術として、国家自身が非公開で経験を積む場合もある。国家の場合は、国家間の競争も考慮されるため、データ関連技術の保護の問題はとても複雑になる。AI技術を活用して、制度設計の議論を加速したい。具体的には、法人格を拡大解釈して、ヒト、カネ、モノ、に加えて、データを法人格の構成要素とすることが考えられる。AI人格のようなものとして、ほとんどがデータとデータ関連技術で構成される法人格もありうるということだ。納税義務があるけれども、広範な法律によって、経済活動が保護される。

◆データの積分的思考をアルゴリズム化する

前稿で、デカルト・ニュートン流の微分的思考について考えてみた。力による因果関係や、内部の特異点にこだわる思考法で、論証による説得を重要視する近代的な科学や哲学と相性が良い。一方で、近代合理主義哲学の2番手であるスピノザの思考は、論証よりも定義を重要視して、問題全体を「外から」俯瞰する積分的思考だ。力による因果関係よりも、システムとしての安定性や発展性を重要視して、説得ではなく、発見によって理解が深まると考える。細部の特異点にはこだわらない、おおらかな思想で、近代がスピノザの思想を理解していたら、アウシュビッツやヒロシマのような極限状況には至らなかっただろう。残念ながら、スピノザに続くライプニッツが、当時の数学としては正しい、微分演算と積分演算の関係を整理して、無謀に行き過ぎたスピノザ主義を修正して無毒化してしまった。しかし、現代のルベーグ積分論以降の積分概念では、可測空間を定義して、特異点も含めて積分可能関数の豊饒な世界を発見した。そして量子力学で活躍する不思議な複素数の関数を、超関数(ディストリビュ―ション)として、積分概念によって関数概念を拡張して、現代数学で正当化することに成功した。定義にこだわるのは、現代の代数学の抽象的な思考法そのもので、スピノザの思考は、近代を飛び越していたのだから、当時理解されなかったのも当然だろう。量子力学は、感覚的には理解不能であっても、正しい物理理論として、画像診断やレーザー、半導体、量子コンピューターなど、さまざまに役立っている。同様の、積分的思考法は、データサイエンスでも大いに役立っていて、機械学習など、AI技術を支えている。ただし、統計学の基礎として学習する「分布関数」(ディストリビューション・ファンクション)は近代的な関数であって、超関数(ディストリビュ―ション)のような現代的な関数概念ではない。確率概念も含めて、代数学的な精密化と拡張が期待される。

近代経済学の富の配分(ディストリビューション・オブ・ウエルス)は、分布関数以前の概念で、期待値の差異しか議論していない。人為的な分布の場合、分散が無限大になるような分布もありうるので、超関数の意味での分布関数が役立つこともあるかもしれない。いずれにしても、経済学でもデータにもとづく議論をするためには、論証ではなく、積分的思考を試してみるのが有効で、機械学習が大いに役立つはずだ。予測可能性を積分可能性と類似した概念とすれば、予測アルゴリズムを試行錯誤しながらデータの意味を探索するフェノラーニング®の思考法は、アルゴリズムとして精密に定義することができるので、経済データが何を表現しているのかを考えることで、経済学分野においても役立つだろう。

◆機械学習との学習は、コンピューターとの共存・共生・共進化

筆者は、40年間、科学技術分野(特に新薬開発)での探索的データ解析に従事してきた。本稿では、データサイエンス・テクノロジー・アンド・アートにおいて、探索的な機械学習を推進しようとしている。具体的には、デジタル分解能の心電図データから、どのような意味が見いだされるのか、試行錯誤してゆくつもりだ。一方で、経済分野のオルタナティブデータを工夫して、中小企業の経済活動に役立つ「予測アルゴリズム」を、知的財産として保護する事業も展開してゆきたい。探索的な機械学習とは、機械学習を仲間のように考えるグループ学習でもある。機械学習を使った自習ではない。この感覚を説明するのは難しいけれども、機械学習を教師とする自習ではない、というほうが分かりやすいだろうか。話題のチャットGPTが確実に役立つ応用例がある。ブレインストーミングやアイデアプロセッシングという分野だ(参考:https://www.youtube.com/watch?v=Fawjb2fvxeM)。従来は1日程度かかった準備作業が、1分程度で完了してしまい、試行錯誤をしても、アイデアがまとまるまでの時間は大幅に短縮される。その秘密は、チャットGPTは膨大な数の複数人の文章を読み込んでいるため、グループ学習のような効果があるのだろう。チャットGPTを用いた正確な論証は難しくても(もっともらしいフェイクの作成は容易)、ブレーンストーミングには最適なツールとなる。

ブレーンストーミングをしなくても、チャットGPT(のような言語の機械学習)の応用はたくさん考えられる。現在のMSウィンドウズやGメールでは、全文検索が可能で、自分自身の語録が単語帳のように管理されている。その単語に、5W1H、いつ(When)、どこで(Where)、だれが(Who)、なにを(What)、なぜ(Why)、どのように(How)、のタグを機械学習で自動的に付与すれば、自分自身の言語表現の意味理解が飛躍的に高まるだろう。実際に、大量の電子メールを証拠とする裁判では、人間が5W1Hのタグ付けを行って、事件の真相に迫っている。パソコンの検索機能が、あたかも自分を熟知しているかのように振る舞うようになる。組織全体の単語帳ができれば、その組織が保有する知識や人間関係の全容が解析可能になる。組織情報の場合は、個人情報とは異なるので、組織の自己認識をどのように活用するのか、難しい議論が必要であることはいうまでもない。SNS(ソーシャル・ネットワーク・システム)に高頻度で出現する単語を分析する現在の技術とは、比べようもない分析力となるため、社会の共同体や国家を分析対象とする場合は、社会を破壊しうるほどの、予測不能な変化を想定する必要がある。フェイクニュースだけではなく、誰も気が付いていない真実のニュースも含めて、大量のニュースを生成して、社会活動を破壊する軍事技術も容易に作成できる。恐ろしい未来は、デカルト以降の近代にすでに始まっている。引き返すことはできないし、(スピノザのように)勇気をもって先回りするしかないだろう。

生成AIは、コンピューターが洞窟に絵を描いている段階だ。しかし、コンピューターとの共存・共生・共進化について、真剣に考える段階にあることは間違いない。表現論の枠組みで共存・共生・共進化について考えると、共存は作品相互の共存、生成AIが制作する作品も含めて、多数の多種多様な作品が共存する状態を意味する。共生は、作家相互の共生、生成AIのアルゴリズムも含めて、表現者としての生活様式の多様性を意味する。共進化は、表現の場の進化に対応するので、進化における種の問題というよりも、表現の場が退化したり、絶滅したりすることなく、多様で豊饒(ほうじょう)な表現の場を維持発展するために、コンピューターが果たす役割について考えることになる。共存・共生・共進化に共通するのは、多様性ということになるけれども、共存・共生・共進化はとても動的な過程でもあるので、動的な意味での多様性をどう理解するのかということが、未来への課題となりそうだ。日本には武者利光の「ゆらぎの科学」という先駆的な研究成果がある(参考:https://www.athome-academy.jp/archive/mathematics_physics/0000000230_all.html)。表現の場が、過度にボラティリティーが高い状態ではなく、無風でもなく、適度に揺らいでる状態をうまくとらえることができれば、コンピューターとの共存・共生・共進化へのヒントが得られるだろう。

雲の写真No.3、筆者撮影、2023716

『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千×千×千×千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス アンド テクノロジーへ

2.3 データサイエンス テクノロジー アンド アート

2.4 データサイクル

2.5 データベクトル

2.6 局所かつ周辺のベクトル場としてのデータとシミュレーション

3  機械学習の学習

3.1 解析用データベース

3.2 先回りした機械学習

3.3 職業からの自由と社会

3.4 認知機能の機械学習とデジタルセラピューティクス(DTx)

3.5 学習は境界領域の積分的探索-ニッチ&エッジの学習理論(前稿)

3.6 機械学習との学習(本稿)

第3章「機械学習の学習」では、機械学習の技術的な内容を学習して、独自に筆者が開発している機械学習法、フェノラーニング®、の概要を説明する予定だった。技術的な内容としては、機械学習は、データ解析の手法というよりも、自動化されたデータの前処理技術である、というのが筆者の考え方で、データの量や性質に応じて、様々な機械学習法を工夫する余地がある。一方で、チャットGPTが話題となり、AI(人工知能)ビジネスが過熱して、バブル経済の様相となってきた。AIビジネスは、米国企業が独占状態で、中国政府が研究開発で追従している。英国、カナダ、イスラエルなど、AI人材で善戦している国もあるけれども、日本のAI人材は26位でしかない(『チャットGPT vs. 人類』〈平和弘、文春新書1413、2023年〉に引用された「グローバルAIインデックス」〈2021年〉)。日本政府としても、ウサギとカメの物語として、AIビジネスに後れを取っていることを認めている。筆者としては、AI技術そのものが黎明期(れいめいき)であって、技術内容が数学的に理解できる段階ではないため、今後も不連続な飛躍的発展がありうると考えて、そのような近未来に「先回りする」アイデアを複数考えてみた。そのようなSF(サイエンスフィクション)的な思考実験で、最も重要だと考えたのが、「機械学習との学習」もしくは探索的機械学習というアプローチであり、その実務的な説明によって「機械学習の学習」のまとめとしたい。

AI技術は機械学習だけではなく、ロボット技術やヒューマンインターフェースなど、幅広い技術分野を、実用目的で組み合わせた技術だ。機械学習はAI技術の頭脳に相当して、単独でも実用性があり、進歩が著しいため、AIビジネスの中心課題となっている。AIビジネスの経済効果は、AI技術による社会変革が破滅的な場合など、予測不能な場合が多い。筆者の考えでは、近代以降の産業社会が、持続不可能な地球環境問題や社会問題を山積みにしているため、その産業社会の負の財産を、AI技術によって解決可能にするポジティブな経済効果に期待している。しかし機械学習は、データ技術であるため、量子力学のように、人間の論理的能力では理解できない。人間の言語では表現することができなくて、例えば複素数の関数を超関数に拡張するといったような、意味不明な、数学的な表現に依存せざるを得ない状況を想定している。そういう状況を、言語文明からデータ文明への移行という、未来物語として考えている。

チャットGPTでも使われているディープラーニングという機械学習法は、膨大な数のパラメーターを、膨大な数のデータで最適化する強力なアルゴリズムで、最適化されたパラメータの意味を数学的に理解することはできない。いわば巨大なブラックボックスで、AI将棋はプロ棋士よりも強いことは確かであっても、プロ棋士がAI将棋を解釈しない限り、だれもAI将棋を理解できない。この問題は、データに内在する倫理的問題も含めて、AIビジネスにとって本質的な問題で、責任あるAI(Responsible AI)の問題として、様々に議論され、技術的にも工夫されているけれども、根本的な解決には至っていない。新薬開発におけるデータ解析の仕事では、まずは探索的データ解析を行い、新薬の使用目的を明確にするとともに、その目的における新薬の有用性(有効性と安全性)を検証するために、新たにデータを取得する方法を事前に設定して、探索的データ解析で得られた結果が、再現可能で、しかも統計的に意味がある(事前に想定できるバイアスが無い)ことを、適切に裏付ける必要がある。機械学習のサービス商品開発においても、まずは探索的機械学習を行い、使用目的を明確にして、問題点を整理してから、「責任ある」機械学習を商品として提供することが望ましい。しかしITシステム開発の分野では、「アジャイル開発」といって、開発しながらサービスを無償で提供する慣習があるため、機械学習のサービス商品開発には大きな危険が伴う。新薬よりも甚大な副作用があるかもしれないAI技術の「開発」には規制を行わず、商品を販売後に、社会問題となってから規制するのでは手遅れだろう。とにかく、探索的機械学習を推進することが最重要で、「みんなで機械学習」することで、「責任ある」機械学習が実現できる。

中小企業ビジネスにおいて、みんなで探索的機械学習をするためには、チャットGPTのように、事前にトレーニングした実用的なシステムが必要になる。筆者としては、業界団体に期待したいけれども、観光業や農業のような地域密着型の産業の場合は、地域の商工会やNPOなどが、事前のデータ収集とトレーニングを行うこともありうるだろう。チャットGPTのような、一般的な言語能力をトレーニングするのは容易ではない。まずは、デジタル分解能で、オルタナティブデータを大量に収集して、みんなで探索的機械学習をしてみたい。例えば、新しいデータ文明は、大陸の大河の文明のように、新しい「水」または「流域」を発見することから始まるかもしれない。日本の水資源は大陸にも匹敵するほど豊かで、深層水のように、隠された流域が膨大な数あるだろう。地域の「水」データは、地域の経済活動のオルタナティブデータとなる可能性がある。

業界レベルでの探索的機械学習の事前トレーニングには、例えば、業界レベルでのビジネスイノベーションのPDCAサイクル(Plan〈計画〉、Do〈実行〉、Check〈測定・評価〉、Action〈対策・改善〉の仮説・検証型プロセスを循環させてマネジメントの品質を高めようという概念)に機械学習を組み込んで、CAPDサイクルとするシステムを開発してみたい。学習データとしては特許データを使って、CAPDサイクルとするための機械学習には、ビジネス固有のオルタナティブデータを工夫する。この話題は第5章まで待っていただき、次回からは機械学習との共存・共生・共進化をデータによって理解することを目的として、「ゆらぐ多様性」について考えてみたい。

◆次回以降の予定

4   機械学習との共存・共生・共進化-ゆらぐ多様性について

4.1 生活と経済の不確実性

4.2 生活と経済に関連する技術は、何を表現しているのか

4.3 スモール データ アプローチ – 個体差のゆらぐ多様性

4.4 ゆらぐ多様性の過去・現在・未来

4.5 生活の不確実性を予測する

4.6 弱い最適化-脆弱性/反脆弱性からのスタート

4.7 ひとつのビッグ予測、たくさんのスモール適応

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す