会社の本。
本屋では気になってたんだけど、買うほどではないかと思っていたので。
数学ガールよりは物語要素のほうが大きいけど、ちゃんと統計処理の基本は押さえられている。しかも、入門時に気になる部分もあとがきでフォローされてた。
続編も読んでみたい。
- つまりはデータサイエンティストの仕事には、過去のデータを分析するだけでなく、問題を発見して解決し、さらさには将来の予測を導くことまで含まれるわけです。
- 2つの分散には使い分けがあります。たとえば、母数団全体を調査した結果であれば、データ数で割る分散を使えばいいのです。ただ通常は母集団全体を調べることはできず、その標本から母集団の平均値や分散を推測することになります。特に標本平均値から母集団の平均値の範囲を推測する場合、理論的には母集団の分散を使う必要がありますが、実際上は標本から求めた分散で代用します。この際には「不偏分散」使うほうが適切です。標本の分散は、母集団の分散より小さくなることが知られているからです。それを補正して、母集団の分散に近づけるために、データ数からわざわざ1を引いた数で割るのです。
- 「標本分散」と「不偏分散」の使い分け方は書いてあっても、何で1を引くのかという理由まで書いててくれる本は少ない。