绪论

随机变量及其分布是概率论的重点,本章主要讨论一维随机变量及其分布。

1. 随机变量及其分布函数

随机变量:定义在样本空间上的实值函数,常用大写字母表示,取值常用小写字母表示。

分布函数:对于一个随机变量,定义\(F(x)=P(X\leq x)\)为分布函数,称X服从\(F(x)\).满足下列三种基本性质: - 单调性 - 有界性 - 右连续性

离散随机变量:分布列(非负性,正则性)

连续随机变量:密度函数(非负性,正则性)

2. 随机变量的数学期望

根据分布计算随机变量的特征数(均值,方差,分位数),侧面反映分布的特征。下介绍最重要的特征数:数学期望。

起源:分赌本问题 均值:算术平均,加权平均(根据频率) 离散表达式:\(E(x)=\sum x_{i}p(x_{i})\) (当且仅当绝对收敛的时候,此时唯一) 连续表达式:\(E(s)=\int xp(x) \, dx\) 物理解释:重心 统计学作用:消除随机性的重要手段

数学期望的性质: \(E(c)=c\) \(E(aX)=aE(x)\) \(E(g_{1}+g_{2})=E(g_{1})+E(g_{2})\)

3. 随机变量的方差与标准差

方差: 对于随机变量\(X\)的均值a,定义新的随机变量\((x-a)^2\),其均值称作方差。 \(Var(X)=E(x-E(x))^2\)

标准差: 定义方差的平方根:\(\sqrt{ Var(x) }=\sigma(X)\)

作用:都刻画\(X\)的波动程度(集中与分散程度)。方差/标准差越小,取值愈集中。

注:由于标准差的量纲与数学期望一致,标准差的使用倾向更大。期望存在,方差不一定存在。但方差存在,期望一定存在。

性质*: 1.\(Var(X)=E(X^2)-[E(x)]^2\) 2.常数的方差为0 3.\(Var(aX+b)=a^2Var(X)\) 4.切比雪夫不等式(chebyshev): $$ P(\mid X-E(x)|\geq \sigma) \leq \frac{Var(X)}{\sigma^2} $$ 对于切比雪夫不等式,描述了这样一个现实: 大偏差(\(X-E(x)\))的概率,称作偏差发生概率,其上界与方差成正比,方差愈大,其上界愈大。

4. 常用的几种分布(离散)

二项分布 定义:描述在 \( n \) 次独立重复的伯努利试验中,成功次数 \( X \) 的概率分布。 概率质量函数$\(P(X=k) = C_n^k p^k (1-p)^{n-k}, \quad k=0,1,\dots,n\)$期望与方差: $\(E(X)=np,\quad Var(X)=np(1-p)\)$应用:适用于结果只有两种(成功/失败)的重复独立试验。


泊松分布 定义:描述在单位时间(或空间)内,随机事件发生次数的概率分布。 概率质量函数: $$ P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,\dots$\(**期望与方差**:\)\(E(X)=\lambda,\quad Var(X)=\lambda\)$应用:稀有事在一定时间或区间内发生次数的建模。

关系:泊松分布可以作为二项分布的近似(泊松定理:当 \(n\) 很大、\(p\) 很小,且 \(np\) 适中时,泊松分布可作为二项分布的近似 \(\lambda = np\)


超几何分布 定义:描述在不放回抽样中,从包含 \( M \) 个成功个体和 \( N-M \) 个失败个体的总体中抽取 \( n \) 个个体,其中成功个体数 \( X \) 的分布。 概率质量函数: $$ P(X=k)=\frac{CM^k C{n-k}}{C_Nn}$$期望与方差: $$ E(X)=n\cdot\frac{M}{N},\quad Var(X)=n\cdot\frac{M}{N}\cdot\left(1-\frac{M}{N}\right)\cdot\frac{N-n}{N-1}$$应用:适用于不放回抽样的质量控制或抽样调查。


几何分布 定义:描述在多次独立伯努利试验中,首次成功所需试验次数 \( X \) 的概率分布。 概率质量函数: $\(P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\dots\)$期望与方差: $$ E(X)=\frac{1}{p},\quad Var(X)=\frac{1-p}{p^2}$$应用:用于建模在多次尝试中首次获得成功所需的次数。


负二项分布 定义:描述在独立重复试验中,获得第 \( r \) 次成功所需试验次数 \( X \) 的概率分布。 概率质量函数: $\(P(X=k)=C_{k-1}^{r-1}p^r(1-p)^{k-r},\quad k=r,r+1,\dots\)\(**期望与方差**:\)\(E(X)=\frac{r}{p},\quad Var(X)=\frac{r(1-p)}{p^2}\)$应用:适用于需要多次成功的情境,如多次试验直到达成特定目标。


5. 常用的几种分布(连续)

正态分布 定义:又称高斯分布,是连续型概率分布中最重要的一种,由均值 \(\mu\) 和方差 \(\sigma^2\)决定。 概率密度函数: $\(f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty<x<\infty\)$期望与方差: $\(E(X)=\mu,\quad Var(X)=\sigma^2\)$ 应用:广泛应用于自然科学和社会科学中的数据建模。

均匀分布 定义:在区间 \([a,b]\) 内,每个点出现的概率相等的分布。 概率密度函数: $$f(x)=\begin{cases} \frac{1}{b-a}, & a\le x\le b \ 0, & \text{otherwise} \end{cases} $$期望与方差: $$ E(X)=\frac{a+b}{2},\quad Var(X)=\frac{(b-a)^2}{12}$$应用:适用于在某个区间内等可能取值的随机现象。


指数分布 定义:描述泊松过程中事件发生时间间隔的概率分布。 概率密度函数: $\(f(x)=\lambda e^{-\lambda x},\quad x\ge0\)$期望与方差: $\(E(X)=\frac{1}{\lambda},\quad Var(X)=\frac{1}{\lambda^2}\)$应用:常用于可靠性分析和排队论,描述无记忆性的随机时间间隔。

伽马分布 定义:指数分布的推广,描述多个独立指数分布随机变量之和的分布。 概率密度函数: $$ f(x)=\frac{\beta\alpha}{\Gamma(\alpha)}x,\quad x>0$$}e^{-\beta x期望与方差: $$ E(X)=\frac{\alpha}{\beta},\quad Var(X)=\frac{\alpha}{\beta^2} $$应用:适用于对连续正随机变量建模,如等待时间的总和。


贝塔分布 定义:定义在区间 \([0,1]\) 上的连续概率分布,由两个正参数 \(\alpha\)\(\beta\) 决定。 概率密度函数: $\(f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)},\quad 0\le x\le1\)$期望与方差: $\(E(X)=\frac{\alpha}{\alpha+\beta},\quad Var(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\)$应用:常用于表示概率的概率分布,适用于比例或百分比的建模。


卡方分布 定义:是 k 个独立标准正态随机变量的平方和所服从的分布,其中k为自由度。 概率密度函数: $\(f(x)=\frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2},\quad x>0\)$期望与方差: $$ E(X)=k,\quad Var(X)=2k$$应用:主要用于假设检验和置信区间的构建,特别是方差分析和拟合优度检验。

6. 分布的其他特征数

\(k\)阶原点矩 - \(\mu_{k}= E(X^k)\) - 一阶原点矩:数学期望

\(k\)阶中心矩 - \(\nu_{k}= E(X-E(X))^k\) - 二阶中心矩:方差

二者存在对应关系

变异系数:标准差比期望(消除量纲的影响)

分位数:分为两块(下侧,上侧)

中位数:均分的分位数

偏度系数:描述分布偏离对称性的程度(三阶中心矩/二阶中心矩的3/2次方)

峰度系数:描述分布尖峭程度或尾部粗细(四阶中心矩/二阶中心矩的2次方 -3)