林知己夫先生
ずいぶん以前になるが、当時統計数理研究所の故・林知己夫先生の講義を聴いたことがある。統計数理研究所(統数研)はその当時有栖川公園のそばにあったように記憶している。
(現在は情報・システム研究機構・統計数理研究所として、立川にあるようだ。http://www.ism.ac.jp/access/index_j.html)
林先生は今でもそうだが統計学のレジェンドともいえる方で、林の数量化理論で有名だった。当時、独学で統計を学び始めた私にとって分かりづらい内容だったにもかかわらず、スーと入ってきた覚えがある。
林の数量化理論
林の数量化理論はⅠ類、Ⅱ類、Ⅲ類、Ⅳ類とあり、数値データではなく、調査などでよく使うカテゴリカル・データ(例えば、はい/いいえのような質的データや5段階尺度による評価データなども含む)による多変量解析メソッドだ。(実際はⅤ類以降もある。)
数値データの多変量解析との対応でいえば以下の通りだ。
林のⅠ類…回帰分析・重回帰分析
林のⅡ類…判別分析
林のⅢ類…因子分析・主成分分析
林のⅣ類…MDS(多次元尺度構成法)
Ⅰ類は回帰分析と同様に数値を予測するためのアプローチ、Ⅱ類はグループを予測するためのアプローチである。
Ⅲ類、Ⅳ類は構造を理解するためのアプローチとなる。
予測するアプローチ
予測するアプローチとは手元にあるデータ構造の延長線上に将来像を描くもので、Ⅰ類(数値予測)では売り上げ予測、来店客数予測、獲得シェア予測、新商品満足度予測など様々な活用目的がある。また、Ⅱ類(判別予測)では、支持政党予測、購入製品メーカー・ブランド予測、選択カラーリング予測、機能選択予測などの活用目的がある。
(数量化理論の中ではこれらは外的基準のあるケースとしてまとめられる。つまり、予測したい変数やカテゴリがあり、それを説明するためのデータがある)
予測というと未来を予測するように思われるが、これらのアプローチは説明するデータを変化させることで売上や来店客がどの程度増えるのかを計算することが目的となる。つまり、最終的に変化させたいもの(売上や客数など)を上げるために、どのデータをどの程度変化させればよいのかを構造的に理解することができ、データを変化させるために何をすればよいかを検討すればよい。
理解するアプローチ
構造を理解するアプローチとは、予測するアプローチには前提としてあったデータ構造、予測したいものとそれを説明するデータがない場合に用いる方法である。(数量化理論の中では外的基準のないケースとしてまとめられる。)
例えば、様々な価値観に関するデータがあって、それをベースにライフスタイル因子を抽出するケースなど。簡単にいえば、よりどころのないデータ群に2つの軸を直交させて引いて軸に意味を持たせることで全体を説明しようとするアプローチである。活用例としてはイメージ空間構成、ライフスタイル空間構成、ファッション空間構成などから、クラスター分析に進んでユーザ像のペルソナ開発を行い顧客理解を深めるケースなどがある。
林先生が数量化理論を提唱したのは半世紀以上も前だが、基本的なデータ分析、データへのアプローチは大きくはこの2つ、「予測」と「構造理解」だ。