統計とデータサイエンスを「データ活用」の中でどう捉えるか



 



このような、データ活用の全体図を作ってみました。





 



 



 



 



 



相手にメッセージを伝えるには、話の筋道(=ストーリー)が必要です。つまり、なぜその結論に至ったのかの根拠と流れです。



「統計」や「データサイエンス」は、その中の個々の仮説を客観的に検証するための「ツール」として使われます(データ分析も同じです)。



これらは、単独(単発)でいかにすごい分析結果を出しても、それだけではストーリーを語ることはできません。



やはり「統計学」も「データサイエンス」もパーツでありツールでしかないことが分かります。



 



「もっと高度な分析をやりたい」



という話が挙がったときには、図の中のどの部分をゴールとして置いているかを確認するようにしています。



個々の仮説検証(濃いオレンジの箱)をする、または何も目的なく、目の前のデータから何かしらの情報を取り出してみるというゴールであれば、「データ活用」とは違う世界の話となります。



 実務データ分析虎の巻Vol.49 (分析者を悩ます係数の数々)



 





 



 



分析結果の信頼度や精度を評価する係数が、分析手法によって存在します。



 



例えば、



 



相関係数、決定係数、R-2乗値、P-値・・・・・



 



実は名前だけ見ると似ているのがかえって厄介です。



名前を見聞きしたり、何となくその意味を知っている人はいるのですが、これらの理解が中途半端であると、それぞれの意味するところをごちゃまぜに捉えていて、結果として正しくない結論を出してしまっている人に出会います。



 



  「相関係数」 は相関(2つのデータの比例関係)度合を示します。



  「決定係数(R-2乗値)」 は回帰分析で得られる式の当てはまり度合を示します。



回帰式の中の”傾き“と意味を混同している人も少なくありませんが、それは解釈が間違っています。



  「P-値」 は統計検定の結論を評価するときの指標です。



 



ここでは更に詳細な説明は割愛しますが、是非これらを使う際には、再度書籍やネットでその意味するところを調べてみて下さい。



 



特に、名前が似ている他の係数との違いを対比しながら理解すると間違いが減ります。(もちろん、私の研修ではしっかりこれらを押さえます)



 



日常的に使い続けるものではないので、一度覚えても忘れてしまいがちだと思います。



尚更、使うときの再チェック(再理解)は重要ですね。



翔泳社および日経BPでのレギュラープログラムを開催します



 



 夏休みを挟んで、2つのデータ分析活用をテーマに、定番のセミナーが予定されています。



7月6日予定の『課題解決のためのデータ分析入門』は既に満席となってしましましたので、是非下記のプログラムにてお会いできることを楽しみにしています。



業務上の課題と知りたいポイントを意識しながらご参加頂けると、その突破口やヒントが得られるかもしれません。



 



翔泳社主催『「データ分析」×「ロジカルシンキング」基礎演習・講座』(7/17)



https://event.shoeisha.jp/bizgenews/20180717/



 定番の「データ分析活用」標準セミナーです。



初歩的なデータリテラシーから、成果に繋げるまでに必要となるプロセスや視点まで幅広く日々の業務に必要なスキルをご提供します。こちらももうすぐ5年目を迎える人気講座です。



夏休み前にガッチリと実践力を磨くのはいかがでしょうか。



お早目の申し込みをお待ちしております



 



 



■日経BP主催『仮説立案実践講座』(8/31)
http://www.nikkeibp.co.jp/seminar/atcl/cn/nc180831/
問題解決でもデータ分析でも「仮説に基づいた取り組み」が必要です。
でも一体良い仮説とは何で、どうすればそこに近づけるのでしょうか。
データ分析を実務で使う際に必ず通らなくてはいけないこの課題に理論とテクニックで挑みます。
他では受けられない人気講座です。



 



研修でお伝えしている”データ分析の流れ”がこちら



 



私の全てのプログラムは、「データやデータ分析を実務で活用する」ことをゴールとして置いています。



その達成のために必要なことは決して、統計学の理論や分析の手法(操作法)、計算方法を知ったり覚えたりすることではありません。



敢えて一例を挙げれば、



大事なのは「標準偏差は何を示すのか」や「標準偏差はどう計算するのか」ではなく「標準偏差は仕事にどう使い、どういうメリットを出せるのか」であるはず



ということが言えます。



にも拘わらず、標準偏差の計算方法や「標準偏差によってデータのバラつきが示せる」といったことを知ったり覚えたりして終わり、というケースが後を絶ちません。これではいつまで経っても「データで仕事の成果を上げる」ことにはつながりません。



 



かなりラフに表現してはいますが、以下のステップを紹介し、そこで必要となる思考法や視点、考え方、そして最低限の手法をお伝えするのが私のプログラムの流れです。(禁無断転用)





 



 



 



 



 



 



 



 



 



ご興味が課題がある方、是非ご相談ください。



既に多くのクライアント企業で実践されています。



研修効果を最大化するために考えておきたいポイント



 



データサイエンスの一部として話題になるAI(人工知能)や機械学習、そしてIoTといった最新技術の言葉があります。



 



企業のビジネスに応用して使うとどうなるのだろうか?



と考える人は少なくありません。



 



さすがに最近では少なくなってきた感じがあるものの、これら最新の「データサイエンス」技術を導入することと、実務の現場で「データ分析を活用する」こととの区別がしっかりできていないまま、中途半端な状態でいる組織も少なくありません。



 



これは、こんなにも目的や内容が異なるものを「データ分析」や「データ活用」といった一般語で一緒くたに論じてしまうことの弊害の一部とも言えます。



 



そこで、私なりに、これらを整理してみました。





 



 



 



 



 



 



 



 



この図の通り、データ分析の専門家(専門部署)として、最新技術をビジネスに導入することと、実務担当者が自分の戦略を描いたり、問題解決をしたりすることとは全く別ものであることがお分かりいただけると思います。



 



よく「基礎的なデータ分析スキルを身に付けたら、次のレベルを・・・・」と期待される方がいますが、基礎的なデータ分析スキルの次のレベルは、データサイエンスではありません。



次のレベル(段階・ステップ)とは、基礎的なスキルを自業務に応用して、トライアンドエラーから、場数と経験値を積むことなのです。それは、あくまで「データ分析の実務活用」の範囲であって、決してデータサイエンスのカテゴリーではありません。



 



組織内でのデータ活用スキルを向上、定着させたいとお考えの方は、一体どちらの話をしているのか、どこを目指したいのかを明確にされると良いと思います。



その際に、上記の図をご参考にして頂ければ幸いです。



 



データサイエンスは、技術とサイエンスの話です。個人のスキルとは別ものです。



敢えて個人のスキルと組み合わせれば、最新技術の理論の習得と高度なプログラミング技術の習得ということになります。それは、従業員全員が必要とするスキルではありません。



 



もちろん、私自身はこの図の中の下2段のサポートに特化しています。



 



 


PAGE TOP