投稿元:
レビューを見る
すごい面白かった。これから確率・統計学を勉強する人にお勧めしたい一冊。予習に最適だと思います。
推定・検定の考え方から多変量解析にかけて、だんだんと内容が難しくなります。後半で扱っている内容に関しては、公式の導出などがなく「え、なんでそうなるの?」となるところがいくつかありました。ですが、本書を統計学の予習のために読む分にはむしろ、それはいいことだと思いました。なぜなら、このなんでだろうという気持ちが、知りたいという気持ちに変わり勉強する意欲につながると考えたからです。
そういうわけで、本書はこれから確率・統計学の勉強を始める人にお勧めだと思います。
投稿元:
レビューを見る
一度きちんと知りたいと思っていた誕生日問題(誕生日が同一の二人がいる確率が50%を越えるのは23人)など、始めの方はわかりやすくて楽しめた。でもやっぱりだんだん数式についていけなくなった。
高校で文系を選択し数?・Cを習っていないことが響いているんだろうか。
投稿元:
レビューを見る
具体例で説明してくれていて、とても分かりやすい。高校のときに、ちゃんと統計学を勉強しなかった人にもお勧めできると思います。
クラスタ分析まで、簡単ですが、解説があります。
投稿元:
レビューを見る
読み終わったのでレビュー。バランスよいレビューにはなっていない。
良い本。ブルーバックスだから読みやすいかというと、しっかり読みとおすには時間がかかる。不確実な状況での意思決定に際し、不確実性をいかに計算可能なものにするかといった観点から統計学の必要性が説かれてあり、具体的な統計学の使用場面から個々の技法を解説していくというやり方。
19世紀の統計学としての記述統計学から始まり(Ⅱ)、20世紀の推測統計学(Ⅳ)へと至るのに必要な確率分布に関する知識を介して(Ⅲ)、最後に多変量解析へ(ⅴ)至る、という流れは鮮やかだと思う。
Ⅰは統計学を貫く考え方について。
・視聴率調査をきちんと説明するためには、正規分布、標本特性値(とその対としての母集団特性値)、区間推定、悉皆(全数)調査と標本調査の違いといったことを説明しなければならないわけで、そういったことがきちんと話の中に盛り込まれているのが(1)。
・質問文にある国語的な要素が回答の歪みをみたらすよという例が(2)で、国立教育政策研究所のテストが事例として用いられている。
Ⅱは、記述統計学とデータ解析
・代表値について。平均値だけではだめで、なぜ中央値が必要か、それから箱ひげ図の作り方について(四分位数と四分位範囲からひげまでの計算の仕方)。これが(3)で、使用されている事例は、金融資産保有額の度数分布。
・なぜバラツキの指標が必要であるのか(基本的には標準偏差だけど、ついでに範囲と分散の説明)と、それから変動係数(あまり見ない)にも触れているのが(4)。バラツキについては政治家への好感度で、歴史上の政治家への好感度の方がバラツキが少ない。また、変動係数は、標準偏差を平均で除したものだが、身長と体重では体重の方がバラツキが大きいことが示されている。
・(4)を発展させて、幹葉図(これもあまり見ない)から、偏差値と標準化の説明をしたのが(5)で、おそらく架空の試験結果が参照されている。
・相関係数(それから共分散)が出てきた後に、それが2変量の余弦(cosine)であることにベクトルを経由しつつ言及して、2値データの相関係数(点相関係数)へと進むのが(6)で、26人の政治家・歴史上の人物への好感度が用いられており、ここが因子分析への布石ともなっている。
・層化の必要性、いわゆる「シンプソンのパラドックス」と、相関係数におけるはずれ値の影響、さらに2次元的はずれ値(マハラビノスの距離)までが(7)である。シンプソンのバラドックスはUCバークレーの例が有名であるが、ここでは国語と数学の学力の間の相関が男女合わせてみると消えるけれども、層化すると出てくるという例。それから二次元的はずれ値については、最高血圧と最低血圧との相関を出して解説してある。
Ⅲは確率・確率分布の話で、正規分布が2項分布、ポアソン分布の後に登場するあたりがやはり通常の教科書と違う。
・(8)は「事象」「確率事象」「相反事象」「背反事象」「余事象」が定義され、重要であるのがある事象とその余事象の和は1であるという性質。そこで出されている例は、50人のパーティで同じ誕生日のペアが誕生する確率で、これ���要するに、そういったことがまったく起こらないものの余事象として考えられるわけである。
・(9)は乱数についてで、これを使うと、ある問題が解けることが示されるのだけど、シュミレーションやモンテカルロ法と呼ばれる。実際、四分円の面積について、2組の乱数を発生させることでΠ/4に近づくことが示されている。
・(10)はベイズの定理について。こういう場合、たいてい条件付き確率というのが登場する。それから、事前確率と事後確率についても。実際の例では、ガンの集団検診で、要精検と診断された人で、実際にガンである確率とはいかほどか、といった問題が扱われている。これは事象B(要精検)が起こった条件での事象A(ガン)が起こる確率である。この場合、ある人がガンである確率P(A)、そしてガンである人が要精検と診断される確率P(B|A)、さらにガンでない人が要精検であると診断される確率P(B|A^)がそれぞれわかっていることが仮定されている。そして、これらがわかっているとベイズの定理からP(A|B)がわかるというのがポイントである。
・(11)コイン投げのように「表か裏か」といったような事象をn回行うとき、それを2項試行という。n回のうち、表が出る回数をXとした場合、このXは、2項分布という確率分布にしたがうといえる。また、確率変数Xの平均は、Xの期待値と呼ばれ、標本平均とは区別される。例えば、表が出る回数が1回なのか、2回なのか、3回なのかといったことは確率を出力させることができるが、この出力された確率とその値をかけあわせて足し合わせたものが期待値である。ついでに、2項分布の分散も定義してあり、試験問題をランダムに回答した場合の正答率が例として持ち出されている。
・(12)はポアソン分布だが、まず二項分布から出発するが、nが大きく、そしてpが小さく、そしてnp=λが極端に大きくも小さくもない場合は、二項分布ではなく、それとは別のeを使った分布の式で表すことができ、それはポアソン分布と呼ばれる。ポアソン分布がよくあてはまるのは、1日にかかってくる間違い電話の数とか、製品のなかの不良品の数とかそういう場合。
・(13)は正規分布で、ついでに標準正規分布についても解説がなされている。
・(14)は中心極限定理。
Ⅳは推測統計学、推定や検定についてである。
・(15)であるが、麻薬経験者のような正直な回答が得られにくい回答において、いかにして正直な回答を得るのかについてのランダム回答法
・(16)は、最尤法について。通常、ロジスティック回帰分析における係数の計算方法として最尤法というのは登場するが、要するに、手元にある標本がある母集団の確率に従う場合に、そのような標本が得られる確率を最大になるような値を推定するやり方だと言えるのではないか。
・(17)は区間推定についてで、選挙の出口調査の例を用いて解説されている。
・(18)は仮説検定の基本的な考え方が、例えば、帰無仮説と対立仮説といった点が説明してあり、(19)では、新薬の有効性について平均の検定として、t分布を使って説明がしてある。
・(20)では、メンデルの有名な実験を通して適合度検定が、(21)ではサリドマイド服用と奇形発祥との関連についての独立性の検定が、双方ともカイ二乗検定だが、解説してある。
ⅴは多変量解析。多変量解��について、「多くの個体について、2つ以上の変数についての測定値が与えられた分析法」とし、「変数を個々に独立させずに、各変数の相関関係を分析する。さらに、変数間の相関関係を利用して、個々の変数だけの分析では得られない新たな情報を得ることを目指す」というのはわかりやすい。
・(22)は相関・回帰で、両親の身長と子どもの身長を例に、ゴールトンのいう「平均への回帰」といった現象が指摘されている
・(23)は重回帰で、重相関係数のイメージなど、なかなかつかみやすかった。
・(24)は主成分分析と因子分析である。これら2つはなかなかイメージがつかみにくいのだけど、主成分分析とは、当該変数の分散を大きくする軸を通すというイメージが近い。そして、その軸上の得点が主成分得点となる。当然、軸は1つとはならず、それに直交させた形で、分散を最大化する軸を通すといったやり方になる。因子分析は、いわゆる複数の変数を少数に縮約するような特質があると考えられる。因子得点とは、要するに、発見された潜在構造と関連が深いものの得点であり、因子負荷量と関連するはずである。
・(25)(26)は判別分析とクラスター分析。
以上。
投稿元:
レビューを見る
正規分布や確率論など基礎的な所から解説してあって,入門書として非常に良かった.
正直,後半の数学的な部分は完全には理解できなかったが,題材はテレビ番組の視聴率や共通一次試験の結果など日常的なものだったので面白い.
統計学がデータの取り方,解釈,予想,予想の妥当性を数学的に記述する学問であることが分かった.
投稿元:
レビューを見る
仕事で簡単な統計作業が必要になったので、統計関係の本を続けて読みました。
この本は、統計の基本をしっかりと書いてくれています。
この度読んだ複数冊の中では、一番理解しやすい者でした。
ただし、エクセルで”すぐに実用的”に使いたいのであれば、他の本が良いです。
投稿元:
レビューを見る
事例が豊富で比較的わかりやすく解説されている良書。
記述統計から多変量解析まで広く浅くと言ったところ。
ただ「わかりやすい」と言えども数学からは逃れられないことを思い知らされる。
投稿元:
レビューを見る
標準誤差は、95%の確率で 1.96×√(P×(1-P)/n になる。
分散=(観測値ー平均値)の二乗の総和/データ数
その平方根が標準偏差=SD
相関係数
xとyの共分散=(xの測定値ーxの平均値)×
(yの測定値ーyの平均値)の総和/データ数
相関係数は、共分散/xの標準偏差×yの標準偏差
xとyの測定値から平均値を引いた平均偏差を各成分として持つベクトルを考えると、
共分散は、xとyの内積/データ数
標準偏差は、xの長さ/データ数の平方根、yの長さ/データ数の平方根
内積と長さの公式(x、y)=xの長さ×yの長さ×cosΘから
相関係数は、cosΘになる。
50人のクラスに同じ誕生日がいる確率は、みんながバラバラになる確率の余事象として求める。
365/365×364/365×363/365・・・(365-49)/365
=0.029、その余事象だから0.971.
乱数を用いて、1/4円の中に入る点の数を数えると円周率が求められる。
乱数を用いて窓口で待つ客数のシュミレーションができる。
標準化と偏差値
標準化はデータから平均値を引いて標準偏差で割る。
平均は0、標準偏差は1、になる。
偏差値は、平均を50、1標準偏差離れるとを10点を加減算して表す。
変動係数=標準偏差/平均値 バラツキの指標。平均が大きくなると標準偏差が大きくなるため、それを均す。
事後確率を求めるためのベイズの定理=検診でガンの疑いがある場合の実際にガンである確率。
標本から計算される量と確率変数によって定義される量との相違を理解すること。
P97
投稿元:
レビューを見る
やさしくない。
数式が中途半端に出てくるので、これならむしろベクトルの内積とかからガッツリ解説してもらったほうが理解しやすい。
末尾に「統計学の広がり」として、統計学のコンセプトみたいなことが書かれているが、わりと貴重に感じた。ただ計算・検定の手順を知るだけでは、実際に使いこなせないと思うからだ。