п»ї 廻るデータサービス 『みんなで機械学習』第17回 | ニュース屋台村

廻るデータサービス
『みんなで機械学習』第17回

3月 15日 2023年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社ふぇの代表取締役。独自に考案した機械学習法、フェノラーニングのビジネス展開を模索している。元ファイザージャパン・臨床開発部門バイオメトリクス部長、Pfizer Global R&D, Clinical Technologies, Director。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

◆制作ノート

英国の経済学者エルンスト・シューマッハー(1911-1977年)の「スモール イズ ビューティフル」における中間技術の提案を、「みんなの機械学習」として再考するため、「スモール ランダムパターンズ アー ビューティフル」という拙稿に挑戦している。前稿では、経済データと健康データのデータサイエンスについて考えてみた。前稿をふり返りながら、本稿への足掛かりを探して、「制作ノート」としている。本稿は途中の画像以降で、制作ノートの要点も、画像以降にまとめている。拙稿全体のゴールは単純だ。古典的なモノの価値を問う経済学から、最近のコト(サービスなど)の意味を重要視する経済学への移行を前提として、未来のデータサイエンスが、人類の文明論的な変革をもたらす夢物語を、少なくともディストピアとしないために頑張っているつもりだ。そのゴールにおいては、意味が認知される以前の「データ」そのものが、みんなの機械学習によって、「言語」とは別の、文明の道具になるだろう。

◆無作為化比較試験

経済データと健康データは、どちらも個体差を無視できないという意味で、現在のデータサイエンスでは発展途上の分野だ。サイエンスを強く意識するのであれば、臨床試験のような、無作為化比較試験のデータを使った解析が最良だろう。経済学でも、2019年のノーベル経済学賞は、無作為化比較試験による「世界的な貧困緩和への実験的アプローチ」だった。サイエンスを、仮説を実験によって検証する、という狭い意味で理解すれば、無作為化比較試験はサイエンスと相性が良いのは理解できる。しかし、自然はどのようにできているのかという、より一般的なサイエンスの設問においては、宇宙論や進化論のように、実験しようもない自然科学もある。数の実在性を信じる(筆者の)立場では、数学も自然科学の仲間であって、実験(シミュレーション)よりも論理的な整合性と完備性(数学者の美的感覚)を重要視する。個体差があるデータであっても、無作為化比較試験では、個体差によっては影響されない仮説の真偽を判定できる。しかし、比較によって判定できるのは、差異の有無だけであって、差異の大きさではないことを、正確に理解しているひとは少ない。しかも、個体差が無いという状態は、自然にはありえないので、科学的「真実」とはいっても、人間的な意味での意思決定理論による、合理的な「真偽」の判定でしかない。医学や経済学で、エビデンスという場合は、人間の意思決定に役立つという意味で使われる。自然科学や数学のように、多くのひとびとには理解できないかもしれない真理は、エビデンスとは無縁の世界だ。それでも統計学は、熱力学や量子力学においても、数学とともに、大いに役立っている。光子に個体差が無いように、物理学の対象には、個体差が重要な現象が少ない。気体よりも液体のほうが個性的だし、素粒子よりも元素のほうが個体差が明らかなので、物理学よりも化学(ケミストリー)のほうが、経済データと健康データのデータサイエンスには相性が良いのではないかと考えて、エコノミー・アンド・ヘルス・データケミストリーを構想している。バカげた夢物語のようではあっても、筆者としては40年以上考えてきて、やっと入り口が見えてきたと思い、文章にまとめようと努力している。

◆機械学習のデータサイエンス

機械学習には、従来の統計学的な計算方法からの発展としての統計的機械学習と、画像認識のパーセプトロンの理論が発展したディープラーニングという、二大潮流がある。最近のAI(人工知能)技術の頭脳部分になっている機械学習は、グーグルが主導するディープラーニングで、産業的にも大成功している。統計的機械学習は、教育用に普及していて、特許技術としてはマイクロソフトが主導している。ディープラーニングは、学習結果としての予測性能は素晴らしいのだけれども、モデルの内容を、合理的に解釈することが困難、という弱点がある。統計的機械学習は回帰モデルからの発展であるため、モデルを合理的に解釈することが容易になる。従って、ディープラーニングにとっても、統計的機械学習は、必要かつ相補的な技術といえる。いずれにしても、どのようなデータを使って学習するのかという、データ解析以前の問題があるので、機械学習の結果としての、モデルの解釈は画一的ではない。

「スモール ランダムパターンズ アー ビューティフル」第2章のテーマである「データにとっての技術と自然」という意味では、機械学習の方法を使ってデータサイエンスを行うのではなく、機械学習にとってのデータを、データサイエンスすることから始める必要がある。無作為化比較試験のデータについては、数多くの解説書がある。自然科学や工学の測定データでは、測定誤差について、精密な統計学が確立している。一方で、社会経済分野では、国勢調査のような全数調査、もしくは、同一集団で繰り返し調査を行うパネルデータ、調査開始時点の調査対象集団を厳密に定義して、計画的なフォローアップを行うコホート試験など、無作為化比較試験以外でも、様々なデータ収集の方法が工夫・実践されている。医学生物学領域では、ゲノムデータや3次元画像診断のような、網羅的データを収集・解析することも可能になった。最近の、ネット環境でリアルタイムに収集されるビッグデータは、社会経済分野での網羅的データと考えることができる。天気予報は、理論的にはカオス変動が不可避で、計算による予測が困難であっても、宇宙からの計測や、地上レーザーによる計測によって、リアルタイムの網羅的データを活用して、正確な予測と、予測誤差の推定が可能になり、実用的な価値が向上している。機械学習するためのデータのデータサイエンスは、飛躍的に進歩している。エコノミー・アンド・ヘルス・データにおいても、網羅的データを活用して、正確な予測と、予測誤差の推定が可能な近未来となるだろう。そのような近未来では、エコノミー・アンド・ヘルス・データの個体差は、天気予報における地域差のような役割となることを想定している。逆に言えば、エコノミー・アンド・ヘルス・データにおいても、行政区分に依存しない地域差、メッシュ統計がデータの網羅性を生かすために重要になる。行政区分(国家も含めて)に依存する経済データが役立たないというつもりはないけれども、データを取得する段階でのバイアスが含まれていることが明らかなので、経済の専門家が学習するデータであって、専門知識を前提としない機械学習には適さない。

◆サービス化する産業とデータ化する生活

サービス産業は日本のGDP(国内総生産)の7割に達していて、今後も多くの産業がサービス化すると予想されている。中小規模のサービス業を第3次産業とすれば、機械学習やAI技術(データサイエンス)を活用した大規模なサービス業を第4次産業と位置づける場合もある。本論で模索しているエコノミー・アンド・ヘルス・データケミストリーは、第4次産業のエコノミー・アンド・ヘルス・データサービス業となるだろう。製造業の経済学における需要供給モデルを、サービス業に応用するためには、サービス業が特殊な性質を持つことは、よく研究されている(『サービス立国論-成熟経済を活性化するフロンティア』〈森川正之、日本経済新聞出版社、2016年〉)。さらに第4次産業においては、経済学の基盤を、貨幣が機能する競争的市場から、データが機能する独占的社会組織へと移行して再考する必要がある。古典的な経済学の時代では、貨幣や信用が機能するためには、人間的な時間を必要としていた。第4次産業の時代では、ミリ秒以下の時間で膨大な量のデータを使って大規模なビジネスができる。第4次産業の市場は、独占的に管理されているコンピューターネットワークの中にある。その膨大なデータは、個人や組織の活動結果としてのデータであって、生活や社会活動が網羅的にデータ化される時代になった。データを使って展開されるビジネスは、データの予測と表現を効果的に使ったビジネスだ。データの表現は、リアルタイムのフィードバックがデータ化されることで、とても強力になっている。フィードバックは、人間によるものだけではなく、AIもフィードバックを作成している。AIを審判員として、AIが絵を描き、文章を作っている。

産業構造が第4次産業も含めて、本格的にサービス化する時代では、生産と消費の中間項として、データを使った高度な(ひとびとにとっては無意味な)サービスが、経済全体を円滑に循環させる役割を果たすだろう。経済としては、円滑に循環する状態は望ましいけれども、自然災害や社会的リスクへの対応や、生活や社会活動が網羅的にデータ化される有害な側面も考慮する必要がある。おそらく最大の問題は、第4次産業の経済主体となる独占的社会組織の社会性とガバナンスを、どのように保証するのかということだ。当面は(進化論的な時間スケールで)透明性を高めて、試行錯誤するしかなさそうだ。単純に言えば、自分自身の組織活動を公開しうる組織にしか、生活や社会活動のデータを収集させないようにすることから始める。政府であっても、自分自身のすべてのデータを公開しているわけではないので、公開可能なデータと公開しないデータを区別して、あらかじめ公示する必要がある。組織の経済学として、古典的なサービス業の組織活動を経済学的に理解することは可能であっても、第4次産業のサービススピードにおいて、そのサービス活動のデータをリアルタイムに解析して制御することができるとはとても思えない。貨幣しか制御できない中央銀行が、第4次産業も含む現代の経済を制御できないのは当然だろう。経済学としては制御不可能であっても、第4次産業はすでに現実のものとなり、富裕層も失業者であっても、第4次産業を主導する覇権国家や、独占禁止法の対象となるグローバル企業の組織活動と共に生きてゆくしかない。

◆データベクトル

どのような状態量であっても、状態に時間的な変動があれば微分可能になる。しかし、多変量の状態量相互の関係式の場合は、時間という外部変数を想定しないでも、変数相互の関係として、微分可能になる。むしろ、変数相互の関係を、微分方程式で記述するほうが理解しやすいこともある。微分方程式は、物理学ではニュートン力学の初歩だけれども、経済学では数理経済学として、特別な役割のようだ。しかし、微分方程式は、境界条件や初期条件への依存性と、解の一意性や安定性など、微妙な問題がたくさんあって、実際は適用範囲が限られている。このような問題に対処するために、工学では、微分方程式の局所的で単純な解をつなげて、有限要素法として利用することがある。経済学でも有限要素法が使われているのだろうか。経済学では、境界条件や初期条件を、あまり気にしていないのかもしれない。いずれにしても、数理経済学では、微分方程式による一般解に、現実のデータを当てはめようというのだから、かなり無理がある。逆に、現実のデータをベクトル空間と考えて、そのベクトル空間上の線形代数を考えるほうが、データにとっては理解しやすい。そうはいっても、筆者自身、データをベクトルと考えて、微積分を含む一般的なベクトルの線形変換の可能性に気が付いたのは最近のことだった。画像データの場合は、空間的な次元が限定されているので、ベクトル空間としての取り扱いが理解しやすい。エコノミー・アンド・ヘルス・データにおいても、収集される変数が100変数以上であったとしても、その表現空間は10次元以下で十分だろう。臨床試験のデータの場合は、おおよそ3.5次元であることが、データベースを設計する立場から、経験的にわかっている。ただし、データベースを4次元で設計しても、データベースに入力された実際のデータが、個体差を含めて、4次元で表現できるという意味ではないことに留意しておこう。個体差は、局所座標系に対応するので、微積分を線形変換として一般化するベクトル解析とも相性が良い。

データをベクトルと考えた場合の表現空間と、そのベクトル空間上での線形変換の理論は大いに可能性があるとしても、それは逆に考えると、機械学習がうまく機能することの理論的な裏付けでしかない。第4次産業における機械学習では、大量のデータ(ビッグデータ)を活用して、うまく機能する機械学習が実現できているので、このような理論的なアプローチも有用かもしれない。しかし、中小企業や商店のビジネスにおいては、限られたデータで、うまく機能する機械学習を工夫することが先決だ。個体差の機械学習を、経済データと健康データの両方を同時に意識しながら議論しているのには、それなりの理由がある。過度に個人主義的になった資本主義経済を見直す際には、経済データにおけるミクロ経済とマクロ経済の中間組織における個体差が重要になるはずだ。健康データでは逆に、解剖学を基盤とする西洋医学では、腸内細菌との共生や、社会経済的な環境因子を評価できないために、個体レベルでの個体差であっても、大量のゲノムデータを使っても、個体差をうまく説明できない。経済データと健康データともに、個体差のもとになる個体を定義すること自体が難しい。個体を定義するのではなく、個体をあるレベルで想定してデータを収集し、個体相互の関係や、上位のレベルや下位のレベルでの個体データとの関係について考えようとしている。前稿では、物理学のくりこみ理論などを参考にして、スケール依存性がある部分と、ない部分(最適なスケールがある)に区別してモデル化する議論を行った。第4次産業における個体差の機械学習は、スケール依存性がある組織活動におけるデータが中心となる。中小企業や商店のビジネスにおける個体差の機械学習は、それぞれの個体における最適なスケールを探索することから始まるだろう。探索の結果は、最適なスケールの予測と表現となるはずだ。個体差の要因となる地域性をメッシュ統計で評価する場合、メッシュの大きさを調整することで、スケール依存性を容易に評価できるメリットがある。第1次産業から第3次産業までの、膨大な数の中小企業や商店のビジネスにおいて、個体差を機械学習して、ビジネスの最適スケールが見いだされ、データサービスの知的財産が発掘できるのであれば、第4次産業の時代においても、中小企業や商店のビジネスが、社会や生活の底辺を支えることになるだろう。

◆データサイクル

資本主義経済における多くのビジネスは、スケールメリットが明らかで、大規模化すると利益率が上がる。規模の競争においても、勝った負けたなどの、古典的な命題論理(真偽)で表現できる場合が多い。一方で、経済そのものは、円滑に循環することが望ましいので、理論経済学としては、マクロに見ると平衡状態になっていて、勝敗が均衡するゼロサムゲームの仮定を基本にしている。市場に情報や力関係の非対称性がある場合や、リスクが暴発して経済が制御不能になるなど、不均衡な状況でも対応が可能なように、経済理論を一般化する試みが様々に行われてきた。しかし、文明論的なより深い問題点として、資本主義経済が、植民地主義や軍国主義などの、アングロサクソン民族に固有の、歴史的および論理的な「勝敗」の感覚に、自然科学とは異種のバイアスを持っているように思われる。

数理論理学が明らかにしたように、数学的真理の全てを、人間の論理で解明できるわけではない。自然科学においては、正しい予測を計算する理論であっても、人間が理解できないものもたくさんある。人間の論理は強力な表現方法ではあても、自然を理解する能力としては、とても限られたものでしかない。経済が円滑に循環することは、自然環境が多くの生命のネットワークにおいて循環することに近いし、海の波動や、光の波動では、複素数を使うとすっきり理解できる。しかし、これらの現象は、近代合理主義の因果関係では、うまく理解できない。サービスがデータ化されて、データを使ったサービスが、経済を円滑に循環させる近未来においては、人間の論理や言語の限界が強く意識されるだろう。廻(まわ)るデータサービスは、データサイクルという中間技術によって、ひとびとの生活を大きく変革してゆく。

データサイクルを構想していた時、例えば廻る相関係数のように、データベクトルが直接廻ることだけを考えていた。直交座標から回転座標への変換といったイメージだ。しかし、座標系を一般化して、ベクトル空間における線形変換を考えれば、局所座標をつないで位相空間を作ることができる。フーリエ変換のような表現空間への変換もイメージできる。局所座標は自然に廻っているということに気が付いた。データベクトルを一般化した局所座標は、多くの場合(例外的な特異点を除いて)、自然に廻っているのだ。多くの場合、局所的な最適解を発見できる、というデータ解析の経験とも一致する。個体差があるデータのデータサイエンスに、正面から取り組むということは、データベクトルが作るデータ空間の、「局所」の一般的な性質を考えることだ、と理論的には理解できる。そうすれば、データサービスとデータ経済も、自然に廻るようになるだろう。従来のビジネスに、データサービスを追加するためには、健康データが大いに役立つはずだ。個人の健康だけではなく、地域や社会サービスが健康であるように、データサービスを工夫する。町の駄菓子屋が、ひきこもりの改善に役立つデータサービスを工夫したら、その工夫は別の社会的課題にも応用できるし、知的財産権で保護されるはずだ。

都会の銀杏 2023年2月14日 筆者撮影 枯れ枝のベクトルは、局所で日光を微分して方向を定め、幹はベクトルの積分経路となる

 

『スモール ランダムパターンズ アー ビューティフル』

1   はじめに; 千個の難題と、千・千・千・千(ビリオン)個の可能性

1.1 個体差すなわち個体内変動と個体間変動が交絡した状態

1.2 組織の集合知は機械学習できるのか

1.3      私たちは機械から学習できるのか

2   データにとっての技術と自然

2.1 アートからテクノロジーヘ

2.2 テクノロジーからサイエンス・アンド・テクノロジーへ

2.3 データサイエンス・テクノロジー・アンド・アート(前稿)

2.4 データサイクル

生活に役立つデータサイエンスは、個体差に潜(ひそ)んだ意味を発掘する、経済データと健康データのデータサイエンス・テクノロジー・アンド・アートとなるだろう。小学校の高学年から、みんなで機械学習しながら、知的財産権を大切にして、巨大企業や覇権国家による生活破壊に抵抗する、もしくは抵抗しないで、生き延びるためのデータサイエンスだ。生態系の多様性は、生物種の数量的な増減ではなく、生活環(ライフサイクル)の、驚くべき多様性に支えられている。多様性は、生活環の表現であって、生き延びるための予測と、予測よりも能動的な、生活環の表現の多様性として理解できる。個体差を、個体差の表現の個体差として、個体差を増幅する仕組みが理解できるようになれば、多様性についても、その理解の手がかりが得られるだろう。そのような、ライフサイクルの多様性の評価方法を夢想しながら、データサイクルと名付けた中間技術について考えている。

データサイエンスが、20世紀のサイエンス・アンド・テクノロジーの延長になるのか、文字文化を獲得する以前の人類のライフサイクルまで遡(さかのぼ)って、洞窟の焚(た)き火として始まった文明とは決別する、新しいアート・アンド・テクノロジ―となるのか、文明の分岐点で思索を続けよう。単純にいえば、欧米の軍事力学的な意味での合理主義や論理主義から、わたしたちの未来が決別するためには、データサイエンスが、前世紀のサイエンス・アンド・テクノロジーのレベルではなく、本当の自然科学(サイエンス)となることが、直近のビッグチャンスとなる。AIビジネスでは、絵を描いたり、文章をまとめたりする生成AIが話題になっている。生成AIは、シェイクスピアやドストエフスキーの文章を、意味もなくまねすることしかできない。文豪の悩みは、AIには無縁だ。生成AIは、ビジネスとして評価されているのであって、ビジネスの構造が変化すれば、AI制作物の価値は消失するだろう。アートの価値は、ひとびとが生き延びているかぎり、消失することはない。生成AIはビジネスに直結したテクノロジーであって、アートではない。そのビジネスは、米国の特殊な資本市場のビジネスであって、ひとびとの生活の役に立つことをめざすものではない。ひとびとの生活が、社会や地球環境が、瀕死の問題を抱えているのに、生成AIは、それらの問題を解決することができないばかりか、経済的な格差の増大など、問題を無反省に増殖し続けている。生成AIには、反省能力はない。生成AIや現在の機械学習技術を批判しているのではなく、100歩前進する目標にとって、1歩の前進にもなっていないことを、反省しようとしている。軍事AIが暴走さえしなければ、ひとびとには、1000歩先の未来も存在することを言いたかっただけだ。

データサイクルは、個体差が無視できない、経済データや健康データのデータサイエンスの、基盤技術をめざしているけれども、単純で生活の役に立つ中間技術としても期待している。今日においては、先端技術の大半が軍事技術になってしまったので、生活の役に立つ技術は先端技術とは見なされず、ひとびとの生活の問題は、自己責任でしかなくなっている。政治的支配層や経済的富裕層においても、家庭生活は崩壊し、先端医療以外では、医療技術の進歩も止まってしまった。『マザーツリー 森に隠された「知性」をめぐる冒険』(スザンヌ・シマード、ダイヤモンド社、2023年)は、森林生態学において、土壌中の菌根菌ネットワークの役割を解明した、画期的なポピュラーサイエンス読本だ。私小説として読めば、今日の社会における生きづらさや、環境破壊を止められない、先進諸国の無能性を赤裸々に告発している。科学的な大発見を成し遂げたのちに、カナダ先住民の知恵から学ぼうとする、女性科学者である著者の誠実な態度は、現代の科学技術の限界を知りながら生きる物語として、多くのひとびとの共感を得ている。林業は典型的な中間技術であって、林業を最適化しようとする最先端のサイエンス・アンド・テクノロジーの議論では、先住民が森から学び続けたアート・アンド・テクノロジーの「知性」には及ばない。「データサイクル」は、言語以前のデータによるアート・アンド・テクノロジーであるため、先住民から学ぶことは出来ない。先住民から学ぶことで今日を生き延びながら、近未来には、環境ウイルスの一斉分析のデータから、生命に隠された「知性」について、学ぶ(機械学習する)ことができるのではないかと、未来への希望をつないでいるつもりだ。

もう少し身近なデータサイクルとして、サービス化する産業について考えてみたい。『サービス立国論-成熟経済を活性化するフロンティア』(森川正之、日本経済新聞出版社、2016年)は、経済学の観点から、サービス業と製造業の需要供給モデルの差異を研究して、政策提案をまとめている。サービス産業が、日本のGDPの7割に達していて、今後も多くの産業がサービス化すると予想されるので、日本の経済成長には、サービス産業の生産性の向上が不可欠であると指摘している。飲食や観光業など、中小規模のサービス業を第3次産業とすれば、機械学習やAI技術(データサイエンス)を活用した大規模なサービス業を、第4次産業として区別する場合もある。教育や医療などの社会サービス、そして行政サービスも含めて、すべての産業(生活以外の、ひとびとの経済活動)において、AI化した機械によるサービスが主役となる未来を想定することもありうる。第4次産業以降においては、経済学の基盤を、貨幣が機能する競争的市場から、データが機能する独占的社会組織(覇権国家やグローバル企業)へと移行して再考する必要がある。第4次産業の「市場」(データ)は、独占的に管理されているコンピューターネットワークの中にあり、その膨大なデータは、個人や組織の活動結果としてのデータであって、生活や社会活動が網羅的にデータ化される。産業構造全体が、本格的にサービス化する時代では、生産と消費の中間項として、データを使った高度な(ひとびとには理解不能な)サービスが、経済全体を円滑に循環させる役割を果たすだろう。貨幣しか制御できない中央銀行では、第4次産業以降のデータ経済を、監視することすら不可能かもしれない。サービスがデータ化されて、データを使ったサービスが、経済を円滑に循環させる近未来においては、人間の論理や言葉の限界が強く意識されて、政治家には事後的な説明責任のみが求められるようになるかもしれない。少なくとも、軍事産業以外の経済活動において、自由な市場における民主主義的な公共概念が生き残るために、第4次産業のような、AIを活用する大規模なサービス産業には多くを期待できない。みんなで機械学習する、中小企業や商店のビジネスが、経済データと健康データのデータサービスを展開し、「データサイクル」の知的財産権で保護される近未来であれば、第4次産業以降でも、ディストピア以外の物語が可能だろう。中間技術としてのデータサイクルは、ひとびとの生活に役つとともに、ひとびとの集合知で社会問題を解決するはずだ。

生産と消費の中間項として、古典論理の2項対立ではなく、データを使ったデータサービスが、経済全体を円滑に循環させる、エコシステムとしてのデータサイクルをイメージしている。しかし、生産のデータと消費のデータだけでは、廻るデータサービスとはならない。数年前までは、時間を含む、生産のデータと消費のデータの位相差などに注目して、廻る相関係数のような、データが直接廻る状況について考えていた。最近になって、データベクトルの座標系を一般化して、局所座標を考えれば、局所座標をつなぐ線形変換が自然に廻るということに気が付いた。局所座標としては、地理データのように、自然に2次元化されるデータもあるけれども、データベクトルの表現空間を漸近的に低次元化して、表現空間における予測問題として局所座標を構成することも可能だ。データが何を表現しているのか、データによって予測可能な個体差を精査して、個体集団のレベルで局所的な性質を推定するアルゴリズムとなる。中小企業や商店の、局所的なビジネスのデータを表現するデータベクトルの空間を考えて、その局所座標をつなぐ線形変換の一般的な性質を研究する、新しい経済分析の方法だ。統計学の、とても硬直化したユークリッド幾何学のデータ空間ではなく、ディープラーニングなどの機械学習においては、位相幾何学の柔軟なデータ空間において、強力な変換群を工夫している。現状の機械学習は、理論的な整合性よりも、実用的な意味で役に立つアルゴリズム(変換群の計算方法)を発見・発明したり、実験することで急速に進歩している段階だ。経済データの機械学習は、同時に健康データの機械学習に応用できる。中小企業や商店のビジネスに、データサービスをシュガーコート(上乗せ)するためには、健康データの機械学習が大いに役立つだろう。個人の生命や健康は、全ての経済活動において最重要課題であるだけではなく、地域や社会サービスが健康であることも、データサービスとして評価・改善できるはずだ。みんなで機械学習する筆者自身のゴールを、認知症の薬物療法としてスタートしたけれども、現在では、より若い世代の「ひきこもり」にも危機感を抱いている。データサイクルという技術思想を、より簡潔に伝えられるように、最大限に単純化して、みんなで機械学習する零細企業「株式会社ふぇの」において、仲間を増やしてゆきたい。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトOrangeでみんなと学習します。技術的な内容は、「ニュース屋台村」にはコメントしないでください。「株式会社ふぇの」で、Orangeにフェノラーニングを実装する試みを開始しました(yukiharu.yamaguchi$$$phenolearning.com)。

コメント

コメントを残す