山口行治(やまぐち・ゆきはる)
株式会社Aデコード研究所設立準備中。元ファイザージャパン・臨床開発部門バイオメトリクス部長(臨床試験データベースシステム管理、データマネジメント、統計解析)。ダイセル化学工業株式会社、呉羽化学工業株式会社の研究開発部門で勤務。ロンドン大学St.George’s Hospital Medical SchoolでPh.D取得(薬理学)。東京大学教養学部基礎科学科卒業。中学時代から西洋哲学と現代美術にはまり、テニス部の活動を楽しんだ。冒険的なエッジを好むけれども、居心地の良いニッチの発見もそれなりに得意とする。趣味は農作業。日本科学技術ジャーナリスト会議会員。
「機械学習を使ったビジネス関連特許」6042件のデータを、「小学生」程度に機械学習で分析(A)してみよう。初めてやってみたら、結構面白かったなら成功だ。こういう問題を本格的な人工知能(AI)技術で分析する場合、特許相互の関連性をネットワーク分析することになる。特許相互の関連性は、様々に定義できるけれども、多くの場合、請求事項に含まれる「トピック」(単語の集合)をテキストマイニングすることから始める。小学生は特許を読まないので、テキストマイニングは大学生以降の仕事だろう。小学生らしく、特許のビルディングブロック(国際特許分類コード)を適当に並べ直して、面白そうな形にすることを試みよう。本格的な人工知能研究者は、大企業が儲かるような話題を好むので、初等教育を飛び越えて難しい課題に取り組む傾向がある。小学生程度に楽しく学習できなければ、中小企業経営者は「みんなで機械学習」することができない。おそらく中小企業のビジネスの役にも立たないだろう。
特許データベースを(“machine learning”AND G06Q)で検索して、6042件のデータをダウンロードした。しかし、IPCコード(国際特許分類コード)にG06Qが含まれないケースが少数例あった。こういったデータのチェックがデータマネジメントの役割となる。G06QをIPCコードとして検索しなかったために、特許テキストのどこかに「G06Q」という文字が含まれていたのだろう。IPCコードは複数指定できる。IPCコードが1個だけの特許から、10個以上の特許まで様々だ。小学生程度なのだから、6042件のデータを25ピース程度のビルディングブロックにまとめてみよう。データのインスタンス(この場合は特許)をグループに分類することをクラスター分析という。明らかに、最初のIPCコードの最初の分類のクラス記号(G06などの3文字)が最重要で、G06Qなどのサブクラス記号、メイングループ記号、サブグループ記号と続いている。ビジネス関連特許は、ビジネスモデルを情報技術で実現する発明であるため、物理学のGセクションに分類されている。特許分類の詳細な知識は無視して、見かけだけで面白そうな特許を探してみよう。以下に、階層的クラスタリングの結果として、変数とインスタンスの関係を示すヒートマップを示した。この例題では、より定量的なk-meansによるクラスタリングは計算時間が10分以上かかり、しかも分類は2分類以上の場合うまく生成できなかった。階層的クラスタリングは2分類を繰り返して計算するので、計算が速く、大雑把に傾向がつかめる。
Heatmap
ヒートマップで、まず特徴的なのは、IPC_H、IPC_A、 IPC_B、IPC_C、 IPC_D、 IPC_Eという変数における分類だけれども、これらの変数はIPCコードG06Qに加えて、他産業分野、例えばA生活必需品、H電気、などのクラス記号がIPCコードとして含まれることを意味している。G06Q 20/、G06Q 30/、 G06Q 40/などのメイングループ記号もまとまりがよい。今回はIPCコードの意味をある程度吟味して13個の分類用変数を作成したため、クラスターを代表する変数が明確になっている。クラスター数を100程度にしても大きな構造は変わらないので、この方法で「機械学習を使ったビジネス関連特許」6042件のデータの細分類ができた。
インターネットから無料で大量の公的データが入手できるようになった。そのデータを無料の統計ソフトJamoviで解析してみた。機械学習でよく用いられるクラスター分析なのだけれども、パソコンの計算能力では複雑な計算は時間がかかることも分かった。本格的な機械学習では、パソコンで1時間程度の計算を1000回繰り返すとすると、やはり高速の専用計算機を使いたくなる。学習用途では、10分程度で終了する計算が、パソコンの計算能力を実感しやすい。おそらくヒトでは一生かかる計算をしている。パソコンも少し考えている気がするはずだ。
小学生程度の機械学習というのは、現在の機械学習にとっては10年後の課題かもしれない。小学生の学習能力は素晴らしい。自発的な好奇心に満ちている。しかし小学生にとって、機械のイメージは大丈夫だろうか。機械仕掛けの時計のイメージはすでに過去のものとなっている。幼稚園児に「太陽電池はどうやって電気を作るのか」と質問されて困ったことがある。太陽電池は機械だけれども、発電機のような機械仕掛けではない。分解しても何もわからないはずだ。機械仕掛けというのはニュートン力学の世界で、f=maすなわち力を目に見える加速度で計算している。太陽電池の光電効果は、光子のエネルギーを電子のエネルギーに変換しているだけで、e=mc2すなわちエネルギーを光速のスケールで計算している。小学生がエネルギー問題を自分の問題として考えられるようになるためには、大学で相対性理論や量子力学を勉強するまで待ってはいられない。ノーベル賞の朝永振一郎先生は、光のエネルギーは光の波長に依存することを、海岸での日焼けで説明した。最近のエステで使われるレーザー光のエネルギーはどのように説明するのだろうか。小学生よりも前に、大人たちが「機械」のイメージを未来形にする必要がある。政治家は古びた力(権力)しか理解できない。人びとは若々しいエネルギーで社会を再生し、生き延びよう。
--------------------------------------
『みんなで機械学習』は中小企業のビジネスに役立つデータ解析を、オープンソースの無料ソフトjamoviでみんなと学習します。質問があっても、絶対にニュース屋台村にはコメントしないでください。株式会社Aデコード研究所(設立準備中)でjamoviと本稿の続き(4回転半の後)をサポートする予定です。
コメントを残す