п»ї 若い統計ソフトは学習しやすい 『みんなで機械学習』第2回 | ニュース屋台村

若い統計ソフトは学習しやすい
『みんなで機械学習』第2回

2月 22日 2021年 社会

LINEで送る
Pocket

山口行治(やまぐち・ゆきはる)

o株式会社Aデコード研究所設立準備中。元ファイザージャパン・臨床開発部門バイオメトリクス部長(臨床試験データベースシステム管理、データマネジメント、統計解析)。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。

統計ソフトというと、書店に並んでいる「R」が代表的だろう。筆者のように60年代オールディーズを楽しむ世代では、ATTベル研究所の「S」言語のほうがなじみ深い。「S」と「R」は親子のようなものだ。専門家が使う高価なソフトとしてはSASがトップレベルで、SASを思い出すと、SPSSとBMDPという初代統計ソフトの昔話になってしまう。SASは大型計算機センターでメインフレームという、本当に大型の計算機で動作していた。現在はパソコンでも動作していて、当時よりも数段に早い。計算機の大きさはおそらく1万分の1以下、SASの価格は当時の10分の1以下だ。SASのマニュアルは当時の10倍以上になった。統計ソフトも若者の感受性のようなもので、時代は統計ソフトに運命をもたらす。SASが若かったときに学んだので、薄いマニュアルにSASの気概を感じた。若い統計ソフトは、素直で学習しやすい。

「R」の時代になっても、「R」の学習は大変だ。統計ソフトとしては成熟した「S」であって、「R」のIT技術は、時代をリードするオープンソースソフトウェアとなっている。統計ソフトとしても時代に合わせるのなら、python(パイソン)という選択肢もあるけれども、pythonの学習は中小企業経営者にはお勧めできない。そこで、オランダ・アムステルダム大学が開発しているjaspを評価してみた。心理統計の研究者向けの統計ソフトで、「R」のエンジンをコンパクトに積み込んで、直感的できれいなユーザーインターフェースを実現している。しかし、「R」のコードがブラックボックスになってしまい、「R」言語の学習には向かない。しかも、データの前処理を行う機能や、データ可視化のためのグラフ機能がほとんど含まれていない。jaspもオープンソースソフトウェアで、jamoviという兄弟ソフトがある。jaspは日本語の解説本があるけれども、jamoviは国内でほとんど知られていない。ところが、jamoviは上記のjaspの欠点をほとんど克服している。若いjamoviと付き合ってみようと思った。

さっそく、jamoviをインストールしてみよう。Webサイトは英語で、簡潔で分かりやすい。https://www.jamovi.org/ 筆者が試したのはWindows版で、インストールはとても簡単だった。Mac版も相応に安定しているようだけれども、Linux版とChromeOS版は開発モードでしかない。Currentは最新のリリースで学習向け、Solidは実務向けで安定している。筆者は学習目的なので、最新リリース1.6.13をインストールしたけれども、多少動作がもたつくぐらいで、大きなバグは経験していない。jaspを使った統計学習の最大の利点は、サンプルデータが豊富にそろっていて、簡単にOpen>Data Libraryからアクセスできる。残念ながら、jamoviでは同じ操作であっても、サンプルデータが少なく解説もない。下図の画面は、インストール後に右のプラス(modules)を使って三つのモジュールを追加した状態になっている。統計教育用のモジュールが複数あり、サンプルデータがそろっているので、そのへんから使い始めるのがよさそうだ。

本稿は統計教育ではなく、データ解析の学習をめざしている。しかも、中小企業経営者の目線であるため、儲かりそうな題材が必要だ。データ解析の専門家はよく”garbage in, garbage out”というけれども、自然界にゴミデータは存在せず、データをゴミにしてしまうのは人間の問題だろう。しかし、どのような対象の、どのような属性に関するデータなのか、興味のないデータであればゴミ以下かもしれない。一方で、過度に興味のある「売上高」や「利益率」などの数値は、データというよりも経営指標であって、経済的な意味と価値があらかじめ明白なので、税務署や経済学者でもない限り、あらためて解析する必要はない。データは、解析してみないとその意味がよくわからない、意味はわかっていても価値までは確定していないような、不確実性をともなっている。儲かりそうもないのに、実は儲かるデータを見つけることができれば上出来だ。

そんなデータが無料で入手できる時代になった。Kaggleという機械学習のコンペサイトだ。企業が懸賞金付きでデータを公開している。Kagglerは懸賞金稼ぎではなく、コミュニティーで競いながら学習している世界中のデータサイエンス専門家たちだ。そんなKaggleのコンペから、jaspの機械学習に関するデータライブラリーにも含まれる、電話会社の顧客データを解析してみよう。次回の「We Plan」で準備をして、中小企業ビジネスにおける「のりしろ」の見つけ方について考えてみたい。

--------------------------------------

『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトjamoviでみんなと学習します。質問があっても、絶対にニュース屋台村にはコメントしないでください。株式会社Aデコード研究所(設立準備中)でjamoviと本稿の続き(4回転半の後)をサポートする予定です。

コメント

コメントを残す