п»ї なぜ、植物図鑑か 『みんなで機械学習』第35回 | ニュース屋台村

なぜ、植物図鑑か
『みんなで機械学習』第35回

3月 12日 2024年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニング®のビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

英国の経済学者エルンスト・シューマッハー(1911~1977年)の「スモール イズ ビューティフル」における中間技術の提案を、「みんなで機械学習」として実現するため、「スモール ランダムパターンズ アー ビューティフル」という拙稿を連載している。前回は、個体差に関連する組織論として、組織は組織でできていることを論じた。単なる細胞の集まりが組織ではないように、組織と個人の関係は、それぞれの「表現」を介して、立体的に理解することが望ましく、個体差を機械学習する要点となる。中小企業が表現する「場所」は、地域と業種の立体構造となる。「スモール ランダムパターンズ アー ビューティフル」は途中の画像以降なので、制作ノートに相当する前半部分は、飛ばし読みしてください。逆に言うと、制作ノートは形式にこだわっていないので、まとまりがないけれども読みやすいかもしれません。

「スモール ランダムパターンズ アー ビューティフル」のゴールは、結論を論理的に構築することではなく、生活のライフサイクルにおいて、データの世界との共存・共生・共進化に希望を実感することにある。近代的なモノの価値に従属する経済から、コト(サービスなど)の意味を重要視する経済への移行を時代背景として、近未来のデータサイエンス テクノロジー アンド アート(データの世界)が、人類の文明論的な変革をもたらす夢物語を、少なくともディストピアとはしない、複数の探索路を切り開こうとしている。物語のゴールにおいては、意味が認知される以前の「データ」そのものが、みんなの機械学習によって、「言語」とは別の、文明の道具になるだろう。

◆渡り鳥の列島文明史観

昭和の教科書で、世界の四大文明は、大河のほとりに生まれたと学んだ記憶がある。 ナイル川のエジプト文明、インドのインダス文明、チグリス・ユーフラテス川のメソポタミア文明、そして黄河文明。農耕が文明の始まりと考えれば、分かりやすい大陸中心の歴史観だ。ギリシャ哲学が西洋文明の進化の爆発と考えると、文明の爆発は大陸ではなく、地理的に多様で安全な、島国に生まれやすいのではないかと思える。人類の英知をはるかに超える渡り鳥は、海岸線や列島を往来する。農耕以前の狩猟採取時代には、大陸では狩猟が中心で、列島では採取が中心だったはずだ。日本の縄文時代は列島文明そのもので、海岸の「潟(がた)」で、定住性の資源管理と交通が行われていた。縄文時代における資源管理の詳細は、歴史家の研究に任せるとして、里山・里海としての資源管理は、江戸時代でも継続されていたので、日本人には自然に受け入れられる。資源管理は、大陸型の狩猟や農耕とは、根本的に異なる、列島型の高度な文明だ。『働き方全史-「働き過ぎる種」ホモ・サピエンスの誕生』(ジェイムス・スーズマン、東洋経済新報社、2024年)を読んで、大陸中心の歴史観に驚いた。熱力学、経済学、社会人類学など、多才な記載ではあるけれども、昭和の教科書と同じ、大陸中心の「支配」の歴史だ。渡り鳥のように、一時的な縄張りはあっても、賢く支配を逃れる叡知(えいち)を、人類も学びたいものだ。

そもそも、過去の出来事において、原因と結果があったはずだけれども、結果だけが歴史となる。大陸中心の「支配」の歴史も、結果としての歴史であって、学ぶべきことは多いとしても、自然科学のように、再現性のある実験ではない。筆者のように、過去の出来事よりも、未来の予測や現状の変革に興味がある場合には、原因と結果の間にある「プロセス」が大切になる。合理的なプロセスであっても、民主的なプロセスであっても、プロセスがつなぐ原因と結果は不確定で、しかも同時多発的なプロセスや、始まらないプロセスや終了しないプロセスなど、多種多様の「可能な」プロセスを考える必要がある。自然科学であっても、測定プロセスは、実験系への介入と測定誤差を含むので、完全に再現できる実験はありえない。統計科学では、個体差を特殊な誤差項を含む原因の一部として考える。筆者のように、機械学習のビジネス応用に興味がある場合には、個体差をプロセス(表現のプロセス)と考えてはどうかというのが、個体差の機械学習、フェノラーニング®の出発点になる。

◆機械学習する組織

学習する組織(learning organization)というチーム経営論がもてはやされた時代があった。本論では「機械学習する組織」として再考してみたい。最近の政府の政策では、デジタル技術やデータサイエンスをリスキリングすることを推奨して、財政支援もしている。リスキリングの場合は、個人の能力が問題になるのに対して、学習する組織では、縦割りの組織(ライン)ではなく、専門家が協力するチームによるプロジェクト組織が学習する。学習する組織では、専門的な知識を学習するのではなく、専門的な知識を活用したプロジェクトが、成功したり失敗したりする実務経験を学習した。機械学習する組織においても、人びとの専門知識は、AI(人工知能)またはAGI(汎用人工知能、生成AI以降のAI)を活用する「知恵」や「経験」によって代替(だいたい)され、AIやAGIをチームに含む、組織論が問題となる。企業の実務では、各組織には定型的な業務プロセスが割り振られている。業務プロセスは、例えばBPMN(業務プロセスモデル図)によって明確に定義されている場合もあるけれども、非定型で突発的なプロセスも多い。例外的なプロセスを、例えば、リスク管理プロセスとして、あらかじめ想定しておくことはとても有用だ。多くのビジネスにとって、コミュニケーションプロセスは特に重要になるので、オブジェクト指向の考え方を基本モデルに取り込んで、コミュニケーションによってプロセスが駆動されて、コミュニケーションが記録に残るように、業務プロセスをシステムで支援する場合が多い。例えば、BPMNであれば、多数のBPMNを機械学習して、実際の業務プロセスに適合するように、BPMNを生成することも可能だろう。AGIの一般的な言語能力は、生成AIとのコミュニケーションのベースとしては重要であっても、実際の業務プロセスには、より洗練されたモデルを使って学習することが望ましい。地域や業種に特有の「個性的な」(個体差のある)業務プロセスを、例えば、BPMNとして機械学習(フェノラーニング®)して、シュミレーションで仮想的BPMNを多数生成しておけば、地域の中小企業にとって、業務効率を改善する行政的(または業界団体による共助的)支援になるだろう。

◆機械学習する社会と家族

機械学習する中小企業は、業務プロセスの改善が中心になるので、AGIの用途としてはかなり限定的になる。業務プロセスの改善であっても、先進的な情報技術(例えばフェノラーニング®)を応用して、明確な経済的利益が見込める場合は、ビジネス関連特許となる可能性がある。その場合は、生成AIをフルに活用して、効率よく特許調査と特許作成を行えば、限定的なAGIの活用とはいっても、可能性としては、奥が深い。

機械学習する家族は、生活の話なので、個体差というよりも、状況に適応する多様性を考えることになる。例えば、病気になったとして、家族の経済状況(家計)が、医療に影響するかもしれないし、そもそも、どの程度、医療を信頼しているのかということで、家族の病気への対応が大きく異なる。さらに、食事をカロリー摂取とだけ考える文化と、医食同源のような、東洋医学の発想も、家族によってさまざまだ。料理を家族の重要な要素と考えるのか、テレビや娯楽をどのように位置づけるのか、病気への対応以上に、生き方の問題として、家族は本質的に多様としか言いようがない。家族として、何を機械学習するのだろうか。家族のデータは、家族の内と外を区別する、物理的な居住空間や、コミュニケーションの閉鎖性によって、家族の周辺を発見する手がかりとなる。

機械学習する社会も、社会の周辺に散在するデータを集めることから始まるだろう。国勢調査のデータのように、データの属性が社会的に定義されているデータは、内部のデータであって、多くの例外や異常値を含む。社会の周辺に散在するデータは、経済データにおけるオルタナティブデータのようなもので、内部のデータは推定するしかないけれども、少なくとも外部から見たデータとしては、自然で網羅性があるデータだ。

◆意識のないコンピューターは動詞が苦手だ

「機械学習する」という動詞は、コンピューターが自発的に学習するという意味ではなく、コンピューターにデータを機械的に(プログラムによって)学習させるときに、コンピューターから人間が自発的に学習することを意味している。人間はデータの学習が苦手なので、よほどの報酬を与えなければ、自発的にデータを学習することは無い。コンピューターに意識があれば、コンピューターが自発的に学習することも可能になるかもしれない。意識を、場所認識の反復的リセット、と考えれば、数ミリセカンドに1回程度のリセットであれば、現在のコンピューターの計算能力でも、なんとか意識らしきものを実装することはできそうだ。もしかしたら、現在のパソコンのOSでも、周辺機器の意識化ぐらいはできているのかもしれない。しかし、自己意識だけではなく、他者の意識や、社会的な共同意識まで含めると、場所認識はとても複雑になって、やはり、コンピューターに身体がないと(ロボットになるという意味)、人間を含む動物のような意識は実現できそうもない。身体を動かすことで、適切な精度での場所認識が可能になるはずだ。自動運転する自動車は、意識を持ったコンピューターになるのだろうか。もし、人間よりも安全運転で、交通事故が実際に無くなるのであれば、意識があると褒(ほ)めてもよい。自動運転戦車が、戦場で敵を射殺するのであれば、やはり意識があるかもしれないけれども、自分と相手のの痛みが解(わか)らないのでは、褒められたものではない。

機械学習の仕組みを理解する気持ちもないし、機械学習させるデータを大量に集めることもできないので、「みんなで機械学習」することなど無理だ、無謀な話だと諦めないでもらいたい。マイクロソフトのコパイロットや、アマゾンのアレクサなど、機械学習は、確実にみんなの生活に忍び込んでくる。より正確には、意識的に忍び込んでくるのではなく、そこにあるだけの存在として、動詞の部分は巨大企業に依存しながら、人びとの生活を「支配」するための道具となる。もし、巨大企業に支配されたくないのであれば、同じ技術の動詞の部分を、みんなで自覚的に豊穣(ほうじょう)にすることを試みたい。「みんなで機械学習」するのは、みんなでAI(またはAGI)を活用するための「動詞」を探す冒険だ。

生成AIで、写真を文章に変換してみると、すぐに気がつくことは、AIは名詞や形容詞の語録は豊富であっても、動詞は苦手ということだ。写真ではなく、動画から文章を生成しても、多少改善される程度で、その状況を適切に表現する「動詞」は期待できない。逆に考えて、日常的なビジネスや生活のスマホ写真に、みんなが適切な動詞をラベル付けして、そのようなスマホ写真を大量に機械学習すれば、スマホ写真から適切な動詞を生成できるようになるかもしれない。もっと具体的に、中小企業の業務プロセスにおいて、日常的なスマホ写真を撮り続けて、写真をプロセス図に添付すれば、ビジネスにとって重要な動詞を、機械学習しやすくなるだろう。

◆なぜ、植物図鑑か

スマホ写真は、最も身近な非言語的デジタルデータであって、人びとの視覚に対応している。撮影した場所や時間も自動的に記録される。現在、東京国立近代美術館(東京都千代田区北の丸公園3-1)で、「中平卓馬 火―氾濫」企画展が開催されている。昭和の現代写真を切り開いた中平卓馬(1938-2015年)は、既に他界している。中平卓馬は、『なぜ、植物図鑑か』(1973年、晶文社、ちくま学芸文庫)において、最初の写真集『来るべき言葉のために』(1970年、風土社)と決別して、言葉ではなく、写真そのものに立ち向かうようになった。企画展の最終ステージが、中平卓馬が『なぜ、植物図鑑か』を実現したものと思われるけれども、衝撃的だった。中平は、スマホが存在しない1970年代から、スマホ写真を撮っていた。中平は、全くのアナログ人間だ。100㎜の望遠レンズを標準レンズのように使いこなし、大型のカラー印画紙に、縦長のアナログな「スマホ」写真を現像し続けた。一眼レフのファインダーに写る、映画館やテレビで見慣れた横長の構図を、明確に拒否していた。中平のような天才には、スマホという技術はどうでもよくて、人びとが写真を、生活の記録として使う場合のイメージを、報道写真ではなく、「みんなのスマホ写真」としてとらえていた。「みんなのスマホ写真」が、みんなのスマホ脳となるのか、来るべき言葉になるのか、中平でもわからないだろう。その天才を生んで生かした日本の風土はもう無いかもしれないけれども、「みんなのスマホ写真」は、新しい動詞を機械学習する最重要テーマと考えている。

実際に、『なぜ、植物図鑑か』を何度か読んだ記憶はあるけれども、文章記述は全く覚えていない。植物の写真には、植物の根は写らない、という記載は無かったことはほぼ確実だ。そもそも、『なぜ、植物図鑑か』という問いに答えはない。中平の写真から、過剰なまでの同時代性が薄らいでゆくには、『なぜ、植物図鑑か』から40年近い生活時間が必要だったのだろう。そして、中平は同時代ではなく、近未来をとらえていた。パソコンのOSは、接続されるかもしれない、可能性でしかない周辺機器とのインターフェースが大量に含まれている。パソコンのOSに、日常言語などの大量の周辺知識が含まれるようになる日も近い。個体差の本質として、自分自身、もしくは組織の「場所」の自然な表現が見いだされるようになるためには、まずは、自分自身、もしくは組織の周辺を言語化してみることから始まる。言語化するのは人間ではなく、生成AIかもしれないけれども、できれば、渡り鳥が観(み)ている世界のように言語化したいものだ。

光る早朝のアスファルト  筆者撮影  2024年1月24日

 『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千×千×千×千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス アンド テクノロジーへ

2.3 データサイエンス テクノロジー アンド アート

2.4 データサイクル

2.5 データベクトル

2.6 局所かつ周辺のベクトル場としてのデータとシミュレーション

3  機械学習の学習

3.1 解析用データベース

3.2 先回りした機械学習

3.3 職業からの自由と社会

3.4 認知機能の機械学習とデジタルセラピューティクス(DTx)

3.5 学習は境界領域の積分的探索-ニッチ&エッジの学習理論

3.6 機械学習との学習

4  機械学習との共存・共生・共進化-まばらでゆらぐ多様性

4.1 生活と経済の不確実性

4.2 生活と経済に関連する技術は、何を表現しているのか

4.3 スモール データ アプローチ-個体差のまばらでゆらぐ多様性

4.4 まばらでゆらぐ多様性の過去・現在・未来

4.5 生活の不確実性を予測する

4.6 弱い最適化脆弱性/反脆弱性からのスタート

4.7 ひとつのビッグ予測、たくさんのスモール適応

5  自発的な小組織(seif-motivated small organizations)

5.1 社会、地域、家族 vs. 国家、企業

5.2 組織は組織でできている組織サイクル(前稿)

5.3 機械学習する組織(本稿)

個体差の機械学習を考えるとき、個体としての組織についても、組織の自発的な表現を見極めることができれば、その表現型における個体差をモデルの基底(座標軸のようなもの)と考えて、組織の個体差の機械学習が可能になる。例えば、中小企業の事業を機械学習することで、地域における中小企業の立ち位置が明確になって、他地域における類似の事業や、同地域での他業種との協業の可能性など、中小企業ネットワークを作る支援が容易になる。前稿で、組織の自発的な表現としては、組織の内外の「場所」、組織の内面と外的イメージのギャップ、組織の「場所」を自覚することで生じる「責任」など、データで表現される直前の、組織の「場所」の意味について考えてみた。組織の内外の「場所」は、組織の周辺であって、組織の周辺のデータを、組織活動との関係で、網羅的に収集することが課題になる。

地域の中小企業にとって、事業を継続することだけでも困難なのに、直接は収益につながらないデータを、自発的に収集することは期待できない。しかし、データで納税できるのであれば、別の話だろう。国家としても、いつまでも金銭の価値にこだわっていては、データの価値を見失ってしまう。近代の産業革命以降、産業資本主義として、国家としては、産業を金銭(資本または信用)の価値でコントロールしてきた。産業は発展し、産業社会としての成功と成熟も経験している。しかし、産業社会には根本的な欠落がある。社会を支える人びとの健康・福祉・教育など、社会サービスが自然な人口増加を前提としていた。さらに、産業がエネルギーを多用して、地球温暖化やエネルギー資源の枯渇、産業廃棄物による不可逆的な環境破壊をもたらしている。地球規模での環境問題を産業資本主義で解決できると考えるのは、技術への過信だろう。環境問題における南北問題すら合理的に解決できないのだから、環境問題では、金銭(資本または信用)の価値によるコントロールは、限定的な問題解決でしかない。筆者の立場では、産業資本主義が不完全にしか機能しない、社会サービスや環境問題では、データの価値以上の価値を想定することは現実的ではないように思われる。データ収集とデータ解析のコストを大幅に削減して、例えば、現状の1/100以下にして、産業資本主義とは別レイヤーの、社会サービスや環境問題に対応するための、データ志向の社会制度について考えてみたい。

機械学習する組織とはいっても、組織が機械学習するのではなく、社会制度として、機械学習した結果を、組織が組織活動に生かすことを想定している。機械学習することは、データさえ与えられれば、ある程度、コンピューターだけで可能なのだけれども、機械学習した結果を、理解して組織活動に生かすのは、創造的な人びとの役割だ。例えば、地産地消で、季節の食材をおいしくいただくことで、実際に地域の医療費が節約できたり、福祉施設での満足度が向上したりするのであれば、その経済価値をデータで評価する意義は大きい。さらに、データの価値が向上することで、社会システムの効率自体が改善されるのであれば、データの価値は、経済価値以上の、例えば、人口減少がストップするなど、大きな社会的価値をもたらす可能性がある。

本論考は、個人の個体差から、組織の個体差へと、個体差を機械学習する近未来をスケッチしてきた。個体差は、「個体差の表現の個体差」であるという、個体差の増幅機構に注目することから論考が始まった。個体識別が自然に可能な状況で、個体差がある状態で、個体ごとの未来予測を行うことが課題だ。例えば、薬剤のスーパーレスポンダー(劇的な治療効果を得た患者)のデータから、薬効を最適化する環境因子(生活習慣)を探索することを可能にしたい。組織の個体差において、周辺における「場所」の表現が、最も自然で自発的な表現と考えた。論考も最終段階になって、個体差の問題の「深み」にはまったかもしれない。「個体差の表現の個体差」というときには、人びとによる「表現」を切り口にしているので、少なからず、人間中心になっている。しかし、「場所」の表現は、渡り鳥であっても、植物やウイルスであっても、別の個体が同じ場所を共有できないという意味で、「個体」であることに本質的な性質であって、「表現」以前の問題だ。「個体差の表現の個体差」というときの、表現で増幅される前の個体差が、場合によっては(人間中心ではない場合)とても大きい、ということもありうる。

多少飛躍するけれども、光子や電子などの素粒子の属性(質量や電荷など)には個体差はない。物理定数として、宇宙で単一の数字が割り当てられる。しかし、実際には単一光子や単一電子の測定は可能で、別の場所または別の時刻に測定される。量子論で、粒子として測定される場合の不思議さについては、以前にも言及している(例えば、『みんなで機械学習』第29回「波風雲の技術」〈2023年10月16日付〉の文中〈参考:世界で一番美しい科学実験、誰も見たことがない世界を観る、https://www.youtube.com/watch?v=lp1xgTCLNe0〉)。量子論のいう粒子性を、個体性みたいなものと考えれば、個体として出現する(認知される)時には、すでに大きなバラツキ(不確定性)が在って、個体差のように見えてしまう。このように、表現で増幅される前の個体差については、「深み」にはまりそうな、隠された論点がたくさんありそうだ。現時点で、筆者が提案できる探求の方向性としては、「個体」をニュートン力学の質点のように考えるのではなく、量子力学の演算子法からの類推で、無限次元(もしくは巨大次元)のベクトルと考えるほうが、データ論との相性が良いということぐらいだ。無限次元の話になれば、実数である必要性も薄れるし、複素数も含めて、自由に「回る」個体となる。「ベクトルとしての個体を回す」イメージをつかむことができれば、本論考としては望外なのだけれども、探索の入り口が見えた段階だ。手探りで試行錯誤を始めたい。

機械学習する組織の話に戻そう。まずは、社会制度として、社会的なデータを機械学習して、中小企業や役所などの、地域の組織活動に生かすことを考える。すでに監視国家においては、監視カメラのデータを機械学習して、国家の安全保障や防犯防災活動に利用している。天気予報などの社会データは、公開されて、付加価値をつけて、情報サービスとして提供されている。単純に言うと、監視カメラのデータから、個人情報や国家機密などをマスクして、天気予報のような、経済活動や生活に役に立つ、社会インフラとしての情報サービスを構築することが課題になる。社会的なデータとしては、人びとの医療健康データが最も価値があるだろう。しかし、監視カメラデータでも困難な課題を、新たな社会的な問題を生じないように注意しながら、情報サービスを構築することは容易ではない。そこで、データ自体としては意味が不明な、従って価値があるとは思えない、大量かつ網羅的なデジタルデータを、社会のオルタナティブデータとして収集することを考えてみよう。例えば、波・風・雲のデータだ。具体的に、風に乗って運ばれる、環境ウイルスデータの一斉分析は、農業などの産業活動のオルタナティブデータとして、さらに感染症関連の医療健康データとして、どのような意味があるのかはわからないまでも、とても興味深い。

近未来の、機械学習する社会では、AI技術が大量の周辺知識を適切に提供するようになる。現在のLLM(大規模言語モデル)では、固有名詞を上手にピン止めできないようだ。個体の周辺に限定すれば、固有名詞も限定されるので、固有名詞の表現の揺れも含めて、実体としての個体を指示する固有名詞を、個体周辺の時空間に構成すること(ピン止め)は可能だろう。本論のように、とりとめのない機械学習論ではあっても、個体差に注目することで、世界トップレベルのAI技術を先回りして、人びとの想像力を刺激することはできる。日本語で、ひとりごとのように書き記(しる)している内容を、SAS/JMP®に実装することが楽しみだ。次回以降は、機械学習の技術的な話から離れて、ビジネスの雑感と、空即是色な世界について空想してみたい。

◆次回以降の予定

5.4 CAPDサイクル

5.5 ビジネス表現(3×3 table)

5.6 組織の周辺積分的思考

5.7 データサービス商品を創出する知的自由エネルギー産業

6  おわりに;生活と社会のビューティフル ランダム パターンズ

(中里斉 モナド; Hitoshi Nakazato, Monado)

6.1 ほとんど色即是空・空即是色な世界

6.2 観測できないブラックホールは実在する?

6.3 データ化する私(datanize me)

6.4 延長されたフェノラーニング®

作家は2度死ぬ、作品は死なない

※『みんなで機械学習』過去の関連記事は以下の通り

第29回「波風雲の技術」(2023年10月16日付)

波風雲の技術 『みんなで機械学習』第29回

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、みんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、フェノラーニング®を実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す