月別アーカイブ: 2014年3月

「予測」する分析と「理解」する分析

林知己夫先生

ずいぶん以前になるが、当時統計数理研究所の故・林知己夫先生の講義を聴いたことがある。統計数理研究所(統数研)はその当時有栖川公園のそばにあったように記憶している。
(現在は情報・システム研究機構・統計数理研究所として、立川にあるようだ。http://www.ism.ac.jp/access/index_j.html)
林先生は今でもそうだが統計学のレジェンドともいえる方で、林の数量化理論で有名だった。当時、独学で統計を学び始めた私にとって分かりづらい内容だったにもかかわらず、スーと入ってきた覚えがある。

林の数量化理論

林の数量化理論はⅠ類、Ⅱ類、Ⅲ類、Ⅳ類とあり、数値データではなく、調査などでよく使うカテゴリカル・データ(例えば、はい/いいえのような質的データや5段階尺度による評価データなども含む)による多変量解析メソッドだ。(実際はⅤ類以降もある。)

数値データの多変量解析との対応でいえば以下の通りだ。
林のⅠ類…回帰分析・重回帰分析
林のⅡ類…判別分析
林のⅢ類…因子分析・主成分分析
林のⅣ類…MDS(多次元尺度構成法)

Ⅰ類は回帰分析と同様に数値を予測するためのアプローチ、Ⅱ類はグループを予測するためのアプローチである。
Ⅲ類、Ⅳ類は構造を理解するためのアプローチとなる。

予測するアプローチ

予測するアプローチとは手元にあるデータ構造の延長線上に将来像を描くもので、Ⅰ類(数値予測)では売り上げ予測、来店客数予測、獲得シェア予測、新商品満足度予測など様々な活用目的がある。また、Ⅱ類(判別予測)では、支持政党予測、購入製品メーカー・ブランド予測、選択カラーリング予測、機能選択予測などの活用目的がある。

(数量化理論の中ではこれらは外的基準のあるケースとしてまとめられる。つまり、予測したい変数やカテゴリがあり、それを説明するためのデータがある)

予測というと未来を予測するように思われるが、これらのアプローチは説明するデータを変化させることで売上や来店客がどの程度増えるのかを計算することが目的となる。つまり、最終的に変化させたいもの(売上や客数など)を上げるために、どのデータをどの程度変化させればよいのかを構造的に理解することができ、データを変化させるために何をすればよいかを検討すればよい。

理解するアプローチ

構造を理解するアプローチとは、予測するアプローチには前提としてあったデータ構造、予測したいものとそれを説明するデータがない場合に用いる方法である。(数量化理論の中では外的基準のないケースとしてまとめられる。)
例えば、様々な価値観に関するデータがあって、それをベースにライフスタイル因子を抽出するケースなど。簡単にいえば、よりどころのないデータ群に2つの軸を直交させて引いて軸に意味を持たせることで全体を説明しようとするアプローチである。活用例としてはイメージ空間構成、ライフスタイル空間構成、ファッション空間構成などから、クラスター分析に進んでユーザ像のペルソナ開発を行い顧客理解を深めるケースなどがある。

林先生が数量化理論を提唱したのは半世紀以上も前だが、基本的なデータ分析、データへのアプローチは大きくはこの2つ、「予測」と「構造理解」だ。

 

ビッグデータを扱うと“すみっこ”の重要性がわかる

データ分析を長年にわたって行っている立場からすると昨今の「ビッグデータ」は2つの意味を持っていると感じる。

1.ハードウエアとソフトウエアの進化により数多くのデータを一時で分析することができるようになった。
→ しかし、ビッグデータから得られる結論はほとんど変わらない。つまり、ビッグでなくともスモールで得られる結論はスモールのままで分析する方が効率的。ゆえに「ビッグデータ」はBUZZワードに過ぎない。

2.ビッグデータを扱うことの背景にあるのは、マスマーケティングから1to1マーケティングに転換だ。マスマーケティングではアクセスコストの視点からマスボリュームにフォーカスした方が効率的だったが、1to1ではアクセスコストは平均化される。
→ ボリュームゾーンにフォーカスする必要がなく、価値の高い顧客にアクセスすることが重要になる

大切なお客様は“すみっこ”にいる

中学生のお年玉調査の結果をみると、今年のお年玉は平均33,450円、昨年より8%ダウンなどとコメントされてくる。(数値はダミー)
これだけだと情報量が少ないので、回答の分布をみると平均値(33,450円)あたりをピークとした正規分布に近いグラフになる。(正規分布とは平均値を中心に左右にデータの標準偏差の2倍をとるとその中にほぼ95%のデータが含まれるという理論的分布)調査データなどの数千人単位のデータでは「平均値」を代表値とすることでほぼ全体を表現できるのでこの正規分布を前提に考えている。正規

 

しかし、ビッグデータといえるかどうかは別としても、10万人、100万人単位でのデータを分析すると、「お年玉=0円」の子供がちいさな塊としていることがわかる。全く、お年玉をもらえない子供たちだ。また、それとは逆にお年玉に200万円、300万円もらいました、という子供もわずかながらいるのだ。上の正規分布のグラフで言うと95%の範囲の外側の話である。

一般的なデータ分析はそのような「すみっこ」回答は異常値として除外して集計したり、全体のサンプル数が多い場合は集計には含めるがあえて注目しないことが多い。なぜならば、分析の目的は大多数の人たちの平均像や考えていることを明らかにすることが多いからだ。
一般的なマーケティングの視点からすると重要な指標はマスである集団を代表する平均値であり、多くの人は平均値を知ると集団のすべてを知ったような気分になっている。

しかし、顧客とのリレーションやLTV(ライフタイム・バリュー)を重視するマーケティング(CRM)の視点からはそのようなデータの見方はしない。
“すみっこ”から順番に重要な顧客が並んでいるからだ。先程の「中学生のお年玉調査」でいえば200万円、300万円のお年玉を貰っている子供はモノを売る標的顧客としては最も魅力的だなわけだ。

「パレートの法則」という商売の原則を表した考え方がある。これは「上位20%の顧客が80%の売上を作っている」「店内の商品の20%で売上の80%を占める」など一般には「20:80の法則」とも呼ばれている。

「パレートの法則」を念頭に考えれば、着目すべきデータは下のグラフにある20%の範囲になる。無題

こうやって具体的に並べてみると当たり前だが、マスマーケティングの視点でCRMをとらえ始めると誤解することが多いのはこのようにフレーミングが違うからだ。
そして、世の中が成熟化してくれば来るほど平均値から顧客をとらえるマスマーケティングの効果は限定的となり、既存顧客との関係論を育成していくアプローチが求められ、そのようなCRMアプローチは平均値ではなく、正規分布で言えば山なりの両端の裾野の部分にいる人や異常値を示している人にまず着目するのである。

そのキーワードは次の通り。

真ん中より“すみっこ”

平均値より異常値

想定内より予想外

マスマーケティングの発想では正規分布の中央から全体をとらえようとする。
顧客マーケティングの発想では正規分布の“すみっこ”から20%に注目する。

最高のセールスマンとはアラブのお金持ちに水を売る人といわれたように、実はセールスマンは端っこを狙う。 それに対して、これまでのマーケティングはコツコツ真ん中から繰り返し繰り返し、電話をかけ、ダイレクトメールを送っている。

マーケティングは徐々にセールスを包括した概念になっている。
認知形成からリスト獲得だけ、アフターセールスのフォローや顧客満足形成がマーケティングだった時代から成果としてのセールスを求めるようになって久しい。

商品はどのようにして選ばれるのか?

私たちが普段商品を選ぶ時はいくつかの商品を比較してその中のどれかを買うことが多い。

例えば、スーパーに行って「めんつゆ」を購入する時、「めんつゆ」の並んでいる棚の前に行って並んでいる商品を眺める。別に買うブランドが事前に決まっているわけではないのでいろいろと棚に並んでいる商品を遠目から見比べ、気になったものを手に取ってみる。ラベルにどんなことが書かれているかを主に見る。メーカー名、ブランド名、キャッチコピー、、、、また、全体的的に訴えてくるイメージも気になる。後は容量と価格、また、減塩タイプかどうかの機能性も大事だ。いろいろな要素の中で何を重視しているのかは人それぞれ違うが、実は買った本人でも何をどのくらい重視したかは説明できないことが多い。
2014-03-01 14.45.29

 

車を買うときはどうだろうか。

新車の場合なら、事前に気になる車種をいくつかピックアップしてWEBサイトでその特徴やスペックを見ながら、2つ、3つの試乗にディーラーに出かける。そして見積を見比べながら試乗の感想やカタログを眺めてどれにするかを決める。
メーカーにこだわりのある人なら、メーカーが先に決まっていて、その中で車種を選ぶだろうし、車種を重視する人なら各メーカーのSUVの中からピックアップが始まることになる。

めんつゆでも車でも、消費者は多くの評価軸に基づいて商品を評価している。しかし、それぞれその評価軸の重要度は異なり、評価自体も異なる。

このような市場において、自社の商品は競合品と比べてどのようなポジションにあって強みはどこで弱みはどこか、を知りたい時によく行われる調査アプローチは、商品評価の項目を尺度化して(例えば5段階や7段階)その項目別に商品評価を調査する。その場合結果は項目別に出てくるので各項目間の重みなどは反映されていない。重みの低い項目で高い評価を得ても商品選択に与える影響は小さい。

そこで、評価軸の重みと個々の商品の評価を同時に取得・分析できる調査アプローチが『コンジョイント分析」である。
コンジョイント分析では商品評価の項目を「属性」、その中で商品の評価を「効用値」として表す。調査では商品を「属性」の組み合わせで表しダミーの商品群を作る。その商品群について「買いたい」ランキングを付けたり、評価をしてもらう。
その結果を専門の解析プログラムに入力することで結果を算出する。

さて、その分析結果である効用値のグラフを見てみると(データはダミー)

めんつゆ

 

 

 

 

 

 

 

 

めんつゆの場合は
CMを放映しているかどうか
特売をしているかどうか
が大きく商品選択に影響している。
また、合わせてメーカーとしてはC社が強く支持されている。
つまり、C社がCMを放映して店舗で特売を仕掛けると爆発的に売れるわけだ。

車

車の場合は
排気量と価格が効用値が大きく、商品選択に強く寄与していることがわかる。
排気量は小さい方またはHVが支持されて、価格は安い方が支持されている。特に価格は300万円を超えると極端に効用値が下がる傾向がある。

コンジョイント分析で上記のように選好構造がわかる。
さらに、算出された効用値を既存の商品に当てはめていけば、商品ごとに効用値を合算することができる。これは商品それぞれの商品力の指標となるので新商品を投入した際のシェアの変化をシミュレーションしたり、シェアを予測したりすることができる。
また、商品の機能・スペックを改善することで他商品に対して優位に立てるかどうかをシミュレーションすることもできる。

商品開発において、商品評価を平面的にとらえるだけではなく、どこかの局面で市場環境に近い中での消費者による選好情報をとらえることでよりリアリティの高い意思決定ができるはずである。