クロス集計表と相関分析の関係

 「男vs女」、「値引の実施vs未実施」など、複数の“定性的”な違いを数値で確かめるクロス集計という方法があります(詳細は是非検索を)。

 

例えば、曜日(という定性情報)ごとに売上額をデータで比較し、結果の違いを確認するなどよく実務で行われますね。

 これは、”曜日“という軸と”売上額“という2つの軸の関係性に着目しています。

2軸に着目する他の分析方法として、私が研修でお伝えしている「相関分析」があります。

一般的には、この2つが全く別物として認識されがちです。

 

でももし、曜日を時間、分、秒・・・と更に細かく“連続的”なものに細分化していくと、”曜日“という定性情報が、”時間“という定量情報に変わります。]

こうなれば、“時間”という定量情報と、”売上額“という定量情報の関係性ということになります。

定性的な軸を細かくすることで、それは”定量的“な情報になっていきます。

その時に、「クロス集計」は「相関分析」となるのです。

 

今回はちょっとテクニカルな、でも本質的なお話でした。


相関分析がうまくできない原因

データとデータの間のつながり(関連性)の強さの度合示す分析が相関分析です。

使った広告宣伝費“と”集客数“のつながりが確認できれば、広告宣伝活動は集客という成果につながっている(=効果がある)ことが分かりますね。

 ところが実践で使おうとすると、この相関関係を見つけることは思ったほど簡単でないことに気づきます。

理由は様々ですが、例えば・・・

 

(1)  使うデータに複数の要素が混在している

「ある製品」ではなく「全製品」の売上データのほうが、ノイズが多いため相関が出にくい傾向があります。

より具体的に絞り込んだデータを使ってみましょう。

 

(2)  2つのデータに距離がある

できるだけ関係性が近いデータのほうが相関が出やすい傾向があります。

広告宣伝費と利益額の相関(この間には集客、売上、コストなど他の要素が介在してノイズとなります)よりも、広告宣伝費と来店者のほうが、両者間のノイズが少ないですね。

 

こういった実践的なコツや目の付け所は、データ分析の本には載っていません。

自ら実践した上での工夫点と言えるでしょうか。

うまく結果がでなくて困る場合には、是非思い出してみてください。


やり方や理論だけでは突破できない、データ分析実務応用の例(相関)



 



データ分析の手法は、その操作法や読み方、統計的理論を理解しただけでは、そのまますぐに実務の成果に直結しません。



恐らく、数回自分の仕事に応用しようと試したことがある人は誰でも気づくと思います。



 



「なんだか思ったように答えが出せない」 と。。。



 



それもそのはず、実際にやろうとすると、かなり泥臭い壁に何度もぶち当たるからです。



ケースによってその中身は多様ですが、相関分析について一例を挙げると次のようなものがあります。



こういった「壁の超え方」は、この相関分析だけに限ったものではありません。発想としては他の分析やデータ処理にも当てはまります。データ分析をがっつりと実務でやっている人は、長年のトライアンドエラーによって、これらの勘所が身についていますが、それを体系化、言語化して伝えるのは容易ではありません。そもそもその全てを表現しようとするのは、



「サッカーのPKでどのように蹴ればゴールできるのか」



の全てのパターンを言語化、表現しようとするのと同じで、現実的ではありません。



「キーパーの立ち位置とその日のコンディションによる」となってしまうからです。



 



とはいえ、”よくある”ケースというのは存在します。例として、次の2つを紹介致します:



 



(1)扱うデータの中にたくさんの要素が入っていて特徴がデータに現れにくい(故に、分析結果も明確なものが出にくい)



男女両方のデータ、全国全支店のデータなどを一括りにして分析に掛けると、いろいろな要素がお互いの特徴をかき消してしまい、分析結果が得られにくくなります。



 



(2)遠い関係のデータを扱う



相関分析とは、2つのデータ間の関係性の強さを調べるものです。TVコマーシャルの頻度と、イベント会場への入場者の関係を調べたとします。確かに、TVコマーシャルは入場者を増やすために打っているのですが、その2つの間には、例えば「認知されること」「ネットで検索されること」などのプロセスが入り、その結果として入場者が増えるのかもしれません。



このように、途中にいくつもの層(プロセスや項目、指標)が入る場合、それだけ両端のデータの関係性にはノイズが入りやすくなります。その結果、クリアな分析結果が出ないのです。





 



 



 



 



 



 



 



こういったことは、統計学のテキストにもデータ分析の本にも載っていません。ただし、これらをクリアーしないと実務での成果に活用するまでの道のりは長いものとなります。



私は、これを「分析デザイン」の一部だと考えています。



 



そして、データ分析を活用して、ビジネスや行政などで成果を出すには、分析手法云々よりも、この「分析デザイン」のスキルが8~9割を占めると確信しています(実務家として)。



私の研修やセミナーでは、データ分析のやり方はもちろんですが、この「分析デザイン」に比重をより置いて、”使える”ことを最重視しています。



 



是非ご体験ください。



『日経情報ストラテジー4月号』連載第13回「間違いだらけのデータ分析」は、そのタイトル通り、相関分析の間違い事例集です。



通常と違う内容で、更に楽しみながら読んで頂けると思います。



また3月24日実施の「課題解決のためのデータ分析」セミナーも、残席わずかとなりました。こちら満席になってしまいましたら次は5月に実施予定です。



CIMG5071 CIMG5072 CIMG5074



『間違いだらけのデータ分析 第11回』は、相関分析を実務で使うときの目の付け所(どういった課題のどこに着目すると、相関分析をうまく当てはめやすいのか)について、実際の応用事例と共に紹介しました。



併せて、相関分析の「4つのすごい!」と題して、次の4つを紹介しています。



(1)すぐに答えを出せる



(2)分かりやすく、相手にも理解されやすい



(3)単位が異なるデータ同士の分析が可能



(4)回帰分析など次の分析への橋渡しになる



 



また、今回は誌面では初めて、独立したことにも触れ、日産で「チェンジエージェント(社内コンサルタント)」として、いかにデータ分析が必須の武器であったかと同時に、組織の中で立ち回る難しさについても書きました。



是非、ご覧頂ければ幸いです。



CIMG4741 CIMG4742


PAGE TOP