セレンディビティ
先日とある会合で、「データ分析をしていてセレンディビティを見つけることはあまり期待できない」というような話を伺った。その話を起点に少し考えたことをまとめておきたい。
「セレンディビティはあまり見つからない」
確かにそうだと思う。セレンディビティとは簡単に言えば、「探していたものとは別の偶然発見された役に立つもの」である。偶然の産物であるセレンディビティがそう度々あっては、そもそもデータ分析者としての資質が問われることになる。その理由として、次のように考えている。
これもよく言われる話だが、データへのアプローチとしては大きくは2種類ある。1つは仮説検証型アプローチで、「このデータが表わしている世界にはきっとこんなルールがあるだろう」と見当を付けてデータ分析をする方法だ。アンケートデータであればデモグラフィック属性(性別・年齢など)別の集計をしたり、エリアデータであれば距離別や都市人口別に分析することだ。例えば、「高齢者は就寝時刻が早く、深夜24時以降営業してる店には高齢者は少ない」という仮説をもって、24時間営業している店舗(コンビニや飲食店)の客属性を調べて、昼夜で比較するデータ分析などが当てはまる。これらは過去の分析実績や他の知見から仮説を構築して分析するので「想定した(仮説どおりの)結果が出るか出ないか」がアウトプットであり、そこにセレンディビティはない。
もう一つのアプローチは課題発見型である。現状では知覚されている課題はないが、データをいろいろと組み合わせてブレイクダウンしていくことでこれまで気が付かなかった差異が見えてきたり、考えてもみなかったデータの変動の要因が見えてくることがある。このアプローチで発見されるファインディングスは、想定していない内容であればセレンディビティと言える。それでも用意された(あるいは用意した)データとその組み合わせの範囲内でしか発見は起こらない。つまり、このファインディングスも大きな意味では想定内の事象ととらえるべきであろう。
セレンディビティの話題でよく例に出されるのが、「おむつと缶ビール」の話だ。(以下、引用)
紙おむつはかさばるので、ママはパパに買い物をたのみ、スーパーで紙おむつを買ったパパは、ついでに缶ビールを購入していく傾向にある、というのだ。この相関関係が分かっていれば、紙おむつの近くにビールを並べておく、という応用は誰にでも思いつく。出典:TECHON
これは多分スーパーのPOSデータをID付き分析した結果の話である。このようなスーパーのバスケット分析をしていて、「おむつと缶ビール」の相関関係に気づくか、あるいはそれはあまたあるデータ誤差として意識の外に投げやるかは分析者次第である。
そして、多くの分析者はデータ活用者とは異なり、不完全で不安定なデータを見ても見ない振りをする。なぜならば、データ活用者から求められるのが、NEXT ACTIONに対する示唆・支援だからで、検討材料でないからだ。
このようにして、「ファインディングスのかけら」はデータ分析者だけの知見として個人の頭に埋め込まれる。しかし、そのようなファインディングスが繰り返し見られると気がつく分析者も少しは出てくる。データ分析者がデータ活用者の指示ではなく、その目的に合わせて分析結果を吟味・提案することができればもう少しセレンディビティは日の目を見る機会が増えるかもしれない。