実務データ分析虎の巻Vol.68(データの違いを山の形で見つける)


データの違いを山の形で見つける

男女、年齢、地域、曜日などデータにはたくさんの要素(属性)があります。

でも混在する要素が多いほど、データ全体からは、その本質(中身)が見えにくくなります。

 

では「異なる特徴を持つどんな要素が紛れ込んでいるのか」をどうやって見つければよいのでしょうか。

 

これを簡易に判別する方法の一つが、ヒストグラムです。

縦軸にデータの数、横軸にデータの値(の幅)を取り、データの分布の形を棒グラフで可視化します。

 

ヒストグラムでは、データの数が多いところに山ができます。

データ全体での山の数が複数ある場合、そのデータには異なる性質の要素が混在している可能性が高いことを示します。

 

例えば、男女の身長データの分布を可視化すると、最もデータ数の多い(恐らく平均に近い)値のデータ数が多く、そこを頂点に山ができるでしょう。

男女間で平均に差があるので、山が2つ見えてくるはずです。

これによって、このデータには男女両方のデータが混在していることが確認できます。後は目的によって、男女に分けて分析するか否かを考えれば良いわけです。

 

この方法は100%の厳密性はありませんが、「データを分解する必要がありますよ」というメッセージを、パッと視覚的に捉えるのに最適です。

 

試してみてください。


関連記事

  1. 翔泳社主催『「データ分析」×「ロジカルシンキング」基礎演習・講座』開催(4/23)

  2. 日経BP主催『「仮説立案」実践講座』(9/18)

  3. Udemy新講座『説得力を高め問題解決に導く!実務直結”データを活かした”戦略的ストーリーメイキング講座』

  4. 実務データ分析虎の巻Vol.77(「データを活かす」ための一番基本的なスキル)

  5. Bizzine連載「課題を特定するためのロジカルデータ分析の秘訣は「データの範囲」と「絞り込み比較」」

  6. 10/20 Zeal社主催イベント登壇『ゴールドリブンで全社データリテラシー育成』

PAGE TOP