山口行治(やまぐち・ゆきはる)
株式会社Aデコード研究所設立準備中。元ファイザージャパン・臨床開発部門バイオメトリクス部長(臨床試験データベースシステム管理、データマネジメント、統計解析)。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
自然科学系の理系頭脳では、量子力学の理解不可能な実験結果でも、理不尽とは感じないらしい。でも、人間による環境破壊を止められないと、理不尽だと思う。全ての集合の集合は集合ではないという「論理」は正しかったとしても、違和感が残る。集合演算で作ることができる全ての集合は、集合という圏(カテゴリー)として取り扱うことができることを見抜いた天才数学者グロタンディーク(1928-2014年)にとって、人間の世界は理不尽だったに違いない。『みんなで機械学習』の4回転半以降の話をしてしまった。世の中、理不尽なことばかりで、生活も困難になってきている。人間の世界だけでも厄介なのに、AI(人工知能)と共に生きるとなると、理不尽なことばかりだろう。だから、理(rationale)を変えてみることを提案したい。合理性にはランダムネスという本質的な限界がある。機械学習は確率的なサイコロを振り続けて、合理的な回答を見いだす。しかしAIでは、本質的なランダムネスが関与するような、環境や進化の問題などにおける「責任」を取ることはできない。困難な生活にあっても「希望」を捨てない人々だけが、未来への責任を取ることができる。これは哲学的なテーゼであって、文学や宗教だけではなく、科学や技術、政治、経済も含めた文明論的な反省、人間中心主義を批判した後に人間が引き受ける役割についての考察だ。だから『みんなで機械学習』したい。
前回は若い統計ソフトjamoviをインストールして、ネットで入手できる機械学習の教材データを紹介した。今回は実際にデータをダウンロードして、jamoviで解析してみよう(https://www.kaggle.com/blastchar/telco-customer-churn)。ダウンロードするとarchive.zipというファイルの中に、CSV形式のデータがある。CSV形式のデータはExcelで見ることができるし、jamoviのimportから取り込むこともできる(多少時間がかかる)。内容は7043行(顧客数)21列(19の説明変数と目的変数churn、顧客ID)で、過去に解約(churn)した顧客のパターンから、解約しそうな顧客を予測して営業活動に役立てることが目的だ。jamoviにデータを読み込んだら、データをチェックしてみよう。欠測値と外れ値のチェックから始める。教習用データなので、欠測値はない。ほとんどがYes/Noなどのカテゴリーデータなので、外れ値を探すことは難しい。次回の課題としよう。jamoviのDataタブでは、Setupという機能があり、データのチェックに役立つ。CSVファイルからデータを読み込むと、Yes/Noなどは文字型変数となっているが、自由記述ではないので、それぞれの頻度が表示され、数値データのコードも付与されている。コードが付与されている文字型変数の場合は、measure typeをNominalに、data typeをIntegerとしておこう。Setupで全ての変数をチェックすることをお勧めする。
これでデータ解析が始められる段階となった。データを集めてから、データ解析ができるようになるまでの作業をデータマネジメントという。実際は、データを集めるための計画や方法も含むので、データ解析実務の70%以上がデータマネジメントとなる。製薬企業で、データマネージャーの名刺を作ろうと思ったら、管理職ではないからという理由で人事部からクレームがついた時代がある。データを管理することの価値を認めない発言として、人事担当取締役に逆にクレームをつけた経験がある。製薬企業にとって、データは患者様のデータであり、命にもかかわるのだから、従業員の役職名の問題とは比べ物にならないくらい大切なのだ。今では笑い話だけれども、無料ソフトのjamoviでデータマネジメント作業の大半が(Setup機能で)自動的に行われるのには驚いた。
『みんなで機械学習』するのは、怖い時代になってきて、赤信号をみんなで渡るためではない。中小企業において、データサイエンスをもっと活用することで、生産性を向上し、経済力を底上げすることが目的だ。より正確に記載すると、中小企業における経済活動の「のりしろ」を発見して、多様性をはぐくみ、創造的な機械学習をめざしている。「のりしろ」を英語ではmarginという。理不尽な理は、近代の微分形式の理だ。「のりしろ」の理は、積分形式の理であって、未来のランダムネスの理を志向している。積分形式の理の場合は、発散してしまう特異点があっても対処できる。特異点が無ければ、面積分を境界(のりしろ)の線積分で計算できる。最近のベイズ統計も、積分計算のEMアルゴリズムで支えられている。周辺に向かう生き方、マージナリズム(筆者の哲学信念)、は過度な人間中心主義を反省し、データを非言語的/非人間的な世界との「のりしろ」と考えることから始まる。
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトjamoviでみんなと学習します。質問があっても、絶対にニュース屋台村にはコメントしないでください。株式会社Aデコード研究所(設立準備中)でjamoviと本稿の続き(4回転半の後)をサポートする予定です。
コメントを残す