統計でビジネスの推測の精度を上げる(推測統計)

前回の基本統計量の話は、実生活でも馴染みやすいものでした。今回は推測の精度を上げる推測統計を扱います。推測統計は少々難易度が上がります。とはいえ、統計が面白くなってくる概念ですし、ビジネス上でも役に立つものなので紹介していきます。まず推測統計とはなんなのか。定義を確認してみましょう。

母集団全体の特性を直接観察することができない場合に、抽出した部分集団(標本)から母集団の性質や傾向を推定するための確率論の技法。

難解な定義なので事例を用いて噛み砕いてみます。

例えば企業のマーケ部門の方でダイレクトメール(DM)を顧客に打つとします。DMを打つと顧客の売上単価アップの効果があるのか無いのか、を知りたいとします。DMを打つ客は1万人を越えるので、全員の結果を知ることは難しい状況です。(=母集団全体を観察できない)その場合、数百件程度を無作為に抽出して分析することで全体に効果があるのか無いのかを知ることはできないのだろうか、と考えます。(=部分集団から母集団全体を推定する)

まず、DMを打って売上アップの効果があるのか無いのか、を数百件抽出して全体を推定することは可能です。但し、「推定」と書いているのは、100%証明はできないが、95%の確率でDMに効果がある、と言える、ということです。(=確率論の技法)全件を見たわけではないので、推定にならざるを得ないのは理解できそうです。(ただ厳密に言うと、95%の確率でDMに効果が無い、とはいえない、になります)

ここで少し反論がありそうです。数百件を抽出して効果を見るのはいいけど、DM打った顧客と打たなかった顧客で売上単価アップしたかどうかを測るだけならエクセルで集計してグラフ書いて終わりでは?というもの。DM打った顧客の売上単価が平均1,000円、DM打たない顧客の売上単価が平均800円でした。これならDM打った方が200円高い効果がある、で終わりと判断できるように見えます。(DM費用は単純化のため今回は除きます)

この考え方だと、分散(データのバラつき)を考慮していないので、一律に200円上がったのか?が言えないのです。平均1000円であっても最大と最小が10,000円と10円、一方で平均800円で最大が1,300円で最小が600円の場合、どう判断するのか。この場合だと、前者はバラつきが大きいのでたまたま後者より大きかっただけかもしれない、となるのです。偶然/誤差なのか意味のある差なのかが判然としない、ということです。

そこで統計的な確率論の技法を用いてDM打つ/打たないに差があるのか、を適切に判断するために推測統計を用いる、ということです。エクセルでグラフ化した結果を見るのも分析を行っていることにはなりますが、本当に意味のある差が出ているのか、を判断する際には推測統計を用いるべきです。具体的なやり方は次回以降に譲るとして、まずは推測統計を簡単に捉えてみました。