YAN48

確率と統計学のまとめ「１」：基礎知識

要約

統計検定を受ける機会で、確率論と統計学を勉強しました。勉強のときの要点と経験をまとめます。内容が多いため、複数の分けて書きます。

内容はこの久保川さんのこの本に従って、メモしました（超分かりやすくて、おすすめです）：

現代数理統計学の基礎（共立講座数学の魅力　11）久保川達也（楽天ブックス）

統計学のための数学入門30講（科学のことばとしての数学）永田靖（楽天ブックス）

本記事の内容概要

本文は確率論の基礎概念をまとめます。

確率論の基礎概念の用語集や常用記号、以下で紹介します。この基礎概念は、確率の言葉として、後ほどの記事で繰り返し使ってるから、非常に重要かなと思います。

確率論と統計学は、本文で紹介した概念から発展した理論なので、言葉をきちんと覚えたら、後の勉強に対して非常に役に立つと思います。

記事のスタイル

基本的に、以下のフレームワークに従って紹介します：

概念（What）　→　背景（Why）　→　応用（How）

定義と基本の公式は、概念部分で紹介します。
その定義と公式の説明は、背景部分で紹介します。
定義の用途と関連は応用部分で紹介します。

そして、常に　結論　→　説明　というフローに従っています。

基礎概念

試行：不確からしさを伴う実験。

全事象、標本空間、 $\Omega$ ：試行によって起こりうるすべての結果。集合として捉える。例えば、1回サイコロを投げることの点数なら、 $\Omega={1,2,3,4,5,6}$

事象：起こりうる結果の集まり。事象も集合として捉える。例えば、1回サイコロを投げることの点数なら、点は奇数の事象は ${1,3,5}$ 。

集合族：事項の集合、すなわち $\Omega$ の部分集合からなる集合を集合族という。

（事項は集合だから、集合族は集合の集合）

可測集合族：次の三つの性質を満たす集合族は可測集合族といい：

(1) $\emptyset \in \beta, \Omega \in \beta$
(2) $A \in \beta ならば A^{\mathrm{c}} \in \beta$
(3) $A_k \in \beta ならば \bigcup A^{\mathrm{c}} \in \beta$

説明：集合の概念と記号の説明は略。集合

確率:　試行の確からしさを数学的に記述したもの。

可測集合族 $\beta$ の元を可測集合といい。可測集合Aに対して、実数を対応させる関数 $P(.)$ で、次の三つの性質を満たすものを確率という：

(1)すべての $A \in \beta$ に対して $P(A) \ge 0$
(2) $P(\Omega)=1$
(3) $A_k \in B$ が互いに排反であるとき、 $P(\bigcup^\infty_{k=1}A_k)=\sum_{n=1}^\infty P(A_k)$ が成り立つ

確率変数：事項を実数値で表示すること。 $x$ と表す。

例：3回振ったサイコロの目の和

確率（累積）分布関数：確率変数 $X$ が $x$ 以下の値となる確率を $x$ の関数とみたものを分布関数といい。

$F_X(x)=P(X \le x)$

確率（累積）分布関数になるための必要十分条件:

(1) $\lim_{-\infty}F(x)=0, \lim_{\infty}F(x)=1$
(2) $F(x)$ はxの非減少関数である
(3) $F(x)$ は右連続関数である

確率（密度）関数：離散変数のとる各値に対し、その確率を確率関数といい連続変数の場合に分布関数の微分を確率密度関数といい。

$f_X(x)=P(X=x)$

確率密度関数と確率分布関数の関係： $F_X(t)=\int_{-\infty}^{t}f_X(x)dx$

関数g(X)の期待値： $E[g(X)]=\int_{-\infty}^{\infty}g(x)f_X(x)dx$

平均値：関数 $g(X)=X$ の期待値はXの平均値といい。

Xの平均値： $\mu=E[X]=\int_{-\infty}^{\infty} x f_X(x)dx$

分散：関数 $(X-\mu)^{2}$ の期待値は分散といい。 $V=E[(X-\mu)^{2}]$

以下の計算式はよく使ってる、なぜなら、確率母関数と積率母関数から簡単に計算できるから。

$Var(X)=E[X^{2}]-{E[X]}^{2}=E[X(X-1)]+E[X]-{E[X]}^{2}$

標準偏差：分散の平方根。 $\sigma=\sqrt{Var(X)}$ , i.e. $Var(x)=\sigma^{2}$

確率関数のモーメント（積率）：確率変数のべき乗に対する期待値で与えられる特性値。

$E[X^{k}]$ は確率のk次モーメントといい。

$E[(X-\alpha)^{k}]$ は $\alpha$ に関するのk次モーメントといい。

$E[X^{k}]$ は確率のk次モーメントといい。

階乗モーメント

確率母関数：確率変数Xの確率母関数は　 $G_X(s)=E[s^{X}]=\sum_{k=0}^{\infty} s^{k} p(k)$

$G_X(s)=\int s^{x}f(x)dx$

積率（モーメント）母関数：　確率変数 $X$ の積率母関数は　 $M_X(t)=E[e^{tX}$ ]

$M_X(t)=\int{e^{tx}}f(x)dx$

$M_X(t)=G_X(e^{t})$

特性関数: 確率変数 $X$ の特性関数は　 $\varphi_X(t)=E[e^{itX}$ ]

$\varphi_X(t)=\int{e^{itx}}f(x)dx$

$\varphi_X(t)=M_X(it)=G_X(e^{it})$

確率変数の変換：確率変数XをY=g(X)に変換した時Yの分布をXの分布から導くことを考えます。

$f_Y(y)=f_X(g^{-1}(y))\frac{1}{g'(g^{-1}(y))}$

定義の補充説明

確率母関数、積率母関数と特性関数の説明

いきなりこの３つの概念が出てきて、驚いた可能性がある。自分の認識に基づいて、この３つの概念を説明します。

まず、名前を説明します。この理解は、数学の言語から考えると、覚えやすいかなと思います。

数学において、母関数 は、数列に関する情報を内包した係数を持つ、形式的冪級数である。なので：

確率母関数 という名前は、その関数 $G_X(s)$ から確率 $p(k)$ を生成することができるから。
積率母関数 から、その関数 $M_X(e^{t})$ から確率分布関数 $F_X(x)$ の積率を生成することができる。

特性関数 という名前は、この関数を分かれば、確率分布を確定できる、というニュアンスがあります。

確率母関数から確率を求める

$G_X(s)=E[s^{X}]=\sum_{k=0}^{\infty}s^{k}p(k)$

$G_X(s)$ はsに関する関数がわかる。

なので：

$p(k)=\frac{1}{k!}G_X^{(k)}(0), k=0,1,2,\cdots$

確率母関数から確率を生成できることがわかる。

確率母関数から階乗モーメントを求める

$G_X^{(k)}(s)=E[X(X-1)...(X-k+1)s^{X-k}$ ]

なので

$G_X^{(k)}(1)=E[X(X-1)...(X-k+1)$ ]

k次階乗モーメントは $G_X^{(k)}(1)$ で与えられることがわかる

積率母関数から積率を求める

積率母関数という名前は、 $M_X(t)$ から積率を生成することができるから。

$E[X^{k}]=M_X^{(k)}(0)$

$E[X^{k}]=\frac{1}{i^{k}}\varphi_X^{(k)}(0)$

用途

母関数、積率母関数と特性関数から確率、平均、積率を求める

詳細は後の常用確率関数に参照。

特性関数から確率分布の一致と収束を判別する

定理：特性関数と確率分布が１対１に対応すること： $F_X(x)$ の連続点 a,b(a<b)に対して、

$P(a\lt X\lt b)=\lim_{T\rightarrow\infty} \frac{1}{2\pi}\int_{-T}^T \frac{e^{-ita}-e^{-itb}}{it}\phi_X(t)dt$

が成り立つ。

つまり、二つの確率変数XとYの特性関数 $\varphi_X(t)$ と $\varphi_Y(t)$ に対して, $\varphi_X(t)=\varphi_Y(t)$ がすべてのtで成り立つとき、すべての uに対して、 $F_X(u)=F_Y(u)$ 　が成り立つ。

特に $\int_{-\infty}^{\infty} \varphi_{X}(t) dt \lt \infty$ のときには $f_X(x)=\frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt$ が成り立つ。

$X_k$ の分布は $X_k$ の特性関数の極限に対応する

定理：確率変数の列 $X_k$ の特性関数 $\varphi_{X_k}(t)$

$\lim_{k\rightarrow\infty}\varphi_{X_k}(t)=\varphi_X(t)$ 　となる特性関数 $\varphi_X(t)$ 　に収束すると仮定する。この時 $\varphi_X(t)$ に対応する分布関数を $F_X(x)$ とすると、 $F_X(x)$ のすべての連続点xで、

$\lim_{k\rightarrow\infty}F_{X_k}(x)=F_X(x)$ が成り立つ。

レファレンス

現代数理統計学の基礎（共立講座数学の魅力　11）久保川達也（楽天ブックス）

統計学のための数学入門30講（科学のことばとしての数学）永田靖（楽天ブックス）

積率母関数とは？モーメントの求め方も解説

母関数　ウィキペディア