「データ分析に使うデータは少ないより多いほうが良い」
分析の精度や偏りを避ける意味で、一般的に正しいと思います。
でも多くの人が見逃している致命的な落とし穴もあります。
例えば手元にあるデータを全て使って次のような分析結果が得られたとしましょう。
(1)運動施設利用者全員にアンケートを取った結果、ランニングマシーン
への評価が高かった。もっとスムーズに予約が取れて、待ち時間も短いと
更に良いという意見が多数得られた。
(2)展示会来場者の年齢は60代が最も多く、満足度スコアも全体平均で
92点と大変好評だった。
これを「結論」として、必要なアクションを取って良いでしょうか?
次のことを是非確認してみてください。
「このデータはどの範囲で集められたものか」
(1)は「運動施設を利用した人だけ」から集めたデータの結果です。
既利用者の満足度を更に高めるのが主目的であれば有効な情報です。
でももし稼働率を上げるために、新規利用者を呼び込むことが目的であれば
これらのデータが示すものは、新規利用者の声を代弁はしていません。
(2)も同様に、60代のスコアは高いかもしれませんが、メインターゲット
が40代だとすれば、この偏りを無視することで間違ったアクションを
取ることになります。
ポイントカード利用者のデータだけを使いながら、新規顧客を増やす手段
を考えようという場合も同じく注意が必要です。データの入手可否という課題
はありますが、まずは自分が見ている範囲と目的をよく照らし合わせること
から始めましょう。あまり意識されていないことが多いようですので。