Head First Statistics ―頭とからだで覚える統計の基本 / 黒川利明,木下哲也,黒川洋,黒川めぐみ / Dawn Griffiths (asin:4873114209)

会社の本。出たときに買うかどうか迷ったんだよね。

幾何分布は以下のような場面で使います。
- 1. 独立の試行を連続して行うとき
- 2. それぞれの試行が成功するか失敗するかのどちらかであり、成功する確率がすべての試行で等しい
- 3. 初めて成功するまでどのくらいの試行が必要であるかを求めたいとき
決まった試行回数のうち、ある回数成功する確率を求めたいならば、二項分布を使ってください。ここから、n回の試行のうち成功する回数も予測できます。
初めて成功するまで何回の試行が必要であるか求めたいならば、幾何分布を使ってください。
ポアソン分布は以下のようなときに使えます。
- 1.決まった範囲内で、ある事象がランダムに、かつ独立して起こるとき。この範囲は時間的なものでも空間的なものでも構いません。たとえば、1週間、1マイルあたり、などです。
- 2. その範囲内で事象が起きる平均回数もしくは頻度を知っていて、かつそれが有限であることが分かっているとき。事象が起きる平均回数は通常ギリシャ文字λ（ラムダ）で表されます。
大きな違いはポアソン分布が連続した試行を扱わないことです。その代わり、ある範囲内で事象が起こる回数を扱います。
nが十分に大きくpが十分小さいとき、X〜B(n,p)はX〜Po(np)に近似できます。一般的に、nが50より大きいとき、pが0.1より小さいとき近似値はとても近い値です。
二項分布は次の特別な場合に正規分布で近似できます。
- X〜B(n,p)かつnp>5かつnq>5
- このとき、
- X〜N(np,npq)
- を使ってXを正規分布で近似できます。
- 二項分布を正規分布で近似するとき、不連続補正をして正確な近似値にしましょう。
X〜B(n,p)のとき、np>5かつnq>5ならば、正規分布を使って二項分布を近似できます>n>50かつp<0.1ならば、ポアソン分布を使って二項分布を近似できます。ただし、気をつけてください。正規分布を使って二項分布を近似するとき、不連続補正を使う必要があります。
X〜Po(λ)かつλ>15のとき、X〜N(λ,λ)を使ってXを近似できます。
標本を使って母分散を推定している場合には、n-1である必要があります。nで割る必要があるのは、そのデータ集合そのものの分散を算出したい場合だけです。
中心極限定理とは、正規分布ではない母集団Xから標本を取り出し、標本の大きさが大きい場合には、Xの分布はほぼ正規分布になるというものです。
正規分布に従うデータには経験則が当てはまります。これは、ほとんど全ての値は算術平均の標準偏差の3倍以内に入るというものです。具体的には以下のようになります。
- 値の68%が算術平均の標準偏差内に入ります。
- 値の95%が算術平均の標準偏差の2倍以内に入ります。
- 値の99.7%が算術平均の標準偏差の3倍以内に入ります。
すべてのデータに対してチェビシェフの定理（またはチェビシェフの不等式）と呼ばれる経験則と似たような規則が当てはまります。チェビシェフの定理は全ての分布において以下のようになるというものです。
- 値の少なくとも75%が算術平均の標準偏差の2倍以内に入ります。
- 値の少なくとも89%が算術平均の標準偏差の3倍以内に入ります。
- 値の少なくとも94%が算術平均の標準偏差の4倍以内に入ります。