2022.11.20
書籍『統計学が最強の学問である』を読みました。「統計ってどういうものなんだろう?」という好奇心から、まずは知ってみたいと思うきっかけになりました。具体例のエピソードがイメージしやすく書いてあり、いろんな見方や考え方があるのだと発見があります。統計学の基礎知識やデータの活かし方を学ぶための本だと思いました。
その一方で情報量が多く後半に向けて概念が複雑になってくるため、統計学というものを初めて学ぶ段階では1度で理解するのは難しい印象を受けました。まずはどんなことに注意してデータを捉えたら良いかの参考として活用したいです。
「データをどのような視点で捉えるか、扱うか」という観点で、ユーザーインターフェイス設計やアプリケーションの改善にも応用できそうです。
統計学は概念が複雑で理解するのが難しいと感じたので、まずは気になった単語の意味を調べてみました。自分用の振り返りメモです。
調査対象となる母集団から調査をおこなうサンプルを抽出して、母集団全体の性質や傾向を予測すること。全数調査では手間と労力がかかりすぎるが、サンプリング調査ならそれらを減らせるメリットがある。
統計対象の元となる全ての集合のこと。データを抽出する元の集団のこと。
サンプリングをおこなう際に、1度抽出したサンプルが再度抽出の対象となる抽出方法のこと。例えばくじで当たりくじを引いたら、その当たりくじを箱に戻してから次のくじを引く方法。
サンプリングをおこなう際に、1度抽出したサンプルは次からは抽出の対象としない抽出方法のこと。例えばくじで当たりくじを引いたら、その当たりくじを箱に戻さずに次のくじを引く方法。
サンプルとして抽出したデータが、母集団の真の値からどの程度ばらついているのかを表した指標。サンプルから得られた割合に対して、標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている可能性が95%ある値。
例:正解率が25%で標準誤差が0.5%のとき、真の正解率は24〜26%であることについて、95%の信頼性がある。
データが平均値の付近に集まる分布。平均値と 最頻値と中央値が一致する。平均値を中心として左右対称の山なりな曲線のような形を表す。
どんな確率分布から抽出したデータであっても、数を増やしていくと正規分符に近付くこと。
要因比較のための集計方法。2つ以上の質問に対する回答をかけ合わせて、対象の属性ごとの傾向を見るために用いる。
クロス集計において、「意味のある偏り」なのか「誤差でもこれぐらいの差が出るのか」を確かめるための解析手法。
実際には特に差がないにも関わらず、誤差や偶然によってデータのような差が生まれる確率のこと。慣習的にp値が5%以下なら偶然起きたことではないと判断する。
対象データを2つ以上のグループにランダム(無作為)に分けて検証すること。科学的根拠(エビデンス)の強さはメタ分析の次に強いとされている。因果関係を分析できる点が優れている。年齢、性別、心理的特性にも対応できる。
回帰により分析すること。データ間の関係性を記述する場合や一方のデータから他方のデータを予測する数式を推定する分析のこと。回帰で使われる使われる基本的なモデルは、y = ax + bの形式の線形回帰。
元の位置や状態に戻ること。もしくはその動きや運動を繰り返すこと。
無制限にデータを集めれば判明するはずの、真に知りたい値。
いくつかの要因(説明変数)から2値の結果(目的変数)が起こる確率を予測する統計手法。回帰係数をオッズ比(約何倍そうなりやすいか)で表す。
得られるべきデータが得られなかったこと。
2種類のデータ間の相関関係の強さを示す指標のこと。相関係数は-1から+1までの値を用いる。関係性がまったく見られない場合は0となる。相関とは傾向を示しているだけで因果関係とは別物。
原因を探るための分析手法。結果の背後に潜んでいる要因(因子 / Factor)を明らかにすること。原因と結果を比較することで、原因となっている共通要素が何なのかを探る。
集団の中から似た属性の要素を集めてクラスター(集団)をつくり、分析する方法。マーケティング文脈ではセグメンテーションと呼ばれる。大きく分けて、階層構造を用いて樹形図的に分析する方法と階層構造を用いずに分析する方法の2種類がある。
脳神経系のニューロンのネットワーク構造(神経構造網)を元にした数理モデルのこと。
生物の脳を構成する神経細胞のこと。情報処理と情報伝達に特化している。機械学習の文脈ではノード(Node)と呼ばれることもある。
時間によって変化する現象を、計測しやすいように微分方程式などで記述したもの。物理法則を数式で簡略化して表現する際に用いる。
解が数値ではなく、関数である方程式のこと。
脳から直接出ている末梢神経の総称。
体の各部に存在する神経繊維。
機械学習モデルのことで、教師あり学習を用いるパターン認識モデルの1つ。2つのクラス(1のクラス、-1のクラス)のどちらに属するかを決める。
文章(文字列)を対象として単語や文節を抽出し、使われている頻度や使われ方の傾向を解析することで有用な情報を得ること。
個別の事象を集めて一般的な法則を見つける方法。
ある事象や仮定に基づいて、論理的推論によって結論を出す方法。
複数の研究結果を統合して、より高い見地から分析すること。解析された統計結果を複数集めて、さらに解析してまとめあげること。科学的根拠(エビデンス)のヒエラルキーで上位に位置していて、信頼性が高いものだと考えられている。
西内啓『統計学が最強の学問である』