离散型随机变量的分布

二项分布

定义

二项分布是一种离散概率分布，常用于描述在固定次数的独立实验中，成功次数的概率分布。假设每次实验只有两种可能的结果：成功或失败，且每次实验成功的概率是相同的。如果进行 $n$ 次独立的伯努利试验，每次试验成功的概率为 $p$ ，那么在这些试验中成功 $k$ 次的概率可以用二项分布来描述。

公式表示

二项分布的概率质量函数（PMF）为：

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$

其中：

$n$ 是试验次数。
$k$ 是成功次数。
$p$ 是每次试验成功的概率。
推导

二项分布的推导可以从伯努利试验的性质开始。假设每次试验成功的概率为 $p$，失败的概率为 $1-p$。通过组合这些试验的结果，我们可以计算出在 $n$ 次试验中恰好有 $k$ 次成功的概率。

单次试验：在单次试验中，成功的概率为$p$，失败的概率为$1-p$。
多次试验：将$n$ 次试验看作是$n$ 个独立的伯努利试验。每次试验的结果可以是成功或失败。
组合计数：在$n$ 次试验中恰好有$k$ 次成功，意味着有$k$ 次试验的结果为成功，剩下的$n-k$ 次试验的结果为失败。这种组合方式有$\binom{n}{k}$ 种。
概率乘积：每次成功的试验对应一个$p$，每次失败的试验对应一个$1-p$。因此，成功$k$ 次的概率是： $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$

二项分布的性质

期望值

二项分布的期望值（均值）是：

$E(X) = np$

方差

二项分布的方差是：

$\text{Var}(X) = np(1-p)$

正态分布近似

当$n$ 很大且$p$ 不是接近 0 或 1 时，二项分布可以用正态分布近似。这种近似称为德摩弗-拉普拉斯定理。正态分布的参数为：

均值：$\mu = np$
方差：$\sigma^2 = np(1-p)$

应用

二项分布在许多领域都有应用，包括医学试验、质量管理、社会科学等。通过二项分布，我们可以预测在一定条件下成功的概率，从而做出更合理的决策。

泊松分布

定义

泊松分布是一种离散概率分布，常用于描述在固定时间或空间内，某事件随机发生的次数的概率分布。假设事件的发生是相互独立的，并且每个时间或空间单位内事件发生的概率是相同的。如果在一个时间或空间单位内事件的发生次数为 $k$，那么这个概率可以用泊松分布来描述。

公式表示

泊松分布的概率质量函数（PMF）为：

$P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}$

其中：

$\lambda$ 是单位时间或空间内事件发生的平均次数。
$k$ 是事件的发生次数。
$e$ 是自然对数的底数，约等于 2.71828。

推导

不妨设一个观测区间 $[0,1)$ ，在观测区间中我们观测到某个事件 $A$ 发生的次数可以记作随机变量 $X$ ，事件$A$ 是瞬时发生的，且在观测区间中的发生彼此独立。事件 $A$ 的发生概率是恒定的，那么就和我们观测时间的长短划分。我们把观测区间微分，在极小的区间中我们可以认为事件只可能发生一次，并且不同的微分区间彼此独立。这个微分段可以如下定义：$l~i~: [\frac{i-1}{n}\,\frac{i}{n})$

不妨设在这个微分区间中事件 $A$ 发生的概率为 $\frac{\lambda}{n}$ 根据上述假设，有 $X\sim B(n, \frac{\lambda}{n})$。于是有：

$P(X = i) = \binom{n}{i} (\frac{\lambda}{n})^i (1-\frac{\lambda}{n})^{n-i}$

又根据常见极限：

$lim_{n \to \infty} \binom{n}{i} (\frac{\lambda}{n})^i = \frac{\lambda^i}{i!}$ $lim_{n \to \infty} (1-\frac{\lambda}{n})^{n-i} = e^{-\lambda}$

所以：

$P(X = i) = \frac {e^{-\lambda}\lambda^i}{i!}$

泊松分布的性质

期望值

泊松分布的期望值（均值）是：

$E(X) = \lambda$

方差

泊松分布的方差是：

$\text{Var}(X) = \lambda$

应用

泊松分布在许多领域都有应用，包括通信、交通流量分析、保险业等。通过泊松分布，我们可以预测在一定条件下事件发生的次数，从而做出更合理的决策。

例如：

在通信系统中，泊松分布可以用来预测在一定时间内接收到的信号数量。
在交通流量分析中，泊松分布可以用来预测在一定时间内通过某个路口的车辆数量。
在保险业中，泊松分布可以用来预测在一定时间内发生的索赔次数。

超几何分布

定义

超几何分布是一种离散概率分布，常用于描述从有限总体中抽取样本时，特定类型元素出现的次数的概率分布。假设总体中有 $N$个元素，其中 $K$个是成功元素（即我们感兴趣的类型）。如果我们从这个总体中随机抽取 $n$个元素，那么抽取到 $k$个成功元素的概率可以用超几何分布来描述。

公式表示

超几何分布的概率质量函数（PMF）为：

$P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$

其中：

$N$是总体元素的总数。
$K$是总体中成功元素的数量。
$n$是抽取的样本大小。
$k$是抽取到的成功元素的数量。
$\binom{a}{b}$ 表示从 $a$个不同元素中选择 $b$个元素的组合数。

推导

假设我们从总体中抽取 $n$个元素，抽取到 $k$个成功元素的组合数可以通过以下方式计算：

从 $K$个成功元素中选择 $k$个元素的组合数为 $\binom{K}{k}$。
从 $N-K$个非成功元素中选择 $n-k$个元素的组合数为 $\binom{N-K}{n-k}$。

总的抽取 $n$个元素的组合数为 $\binom{N}{n}$。

因此，抽取到 $k$个成功元素的概率为：

$P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$

超几何分布的性质

期望值

超几何分布的期望值（均值）是：

$E(X) = \frac{Kn}{N}$

方差

超几何分布的方差是：

$\text{Var}(X) = \frac{K(N-K)n(N-n)}{N^2(N-1)}$

应用

超几何分布在许多领域都有应用，包括统计学、生物统计学、质量控制等。通过超几何分布，我们可以预测在特定条件下抽取到特定类型元素的概率，从而做出更合理的决策。需要注意的是，如果$\frac {n}{N}$ 非常小，也就是说每一次放不放回影响不大，这个时候超几何分布可以近似用二次分布表示。

例如：

在质量控制中，超几何分布可以用来预测从一批产品中抽取的样本中不合格产品的数量。
在生物统计学中，超几何分布可以用来预测从某个种群中抽取的样本中具有某种特征的个体数量。
在市场研究中，超几何分布可以用来预测从消费者群体中抽取的样本中具有某种偏好的消费者数量。

负二项分布

定义

负二项分布（也称为伽玛-泊松分布或Pascal分布）是一种离散概率分布，常用于描述在固定数量的事件中，某个特定事件首次发生之前其他事件随机发生的次数的概率分布。与泊松分布类似，负二项分布在描述事件的随机发生次数方面也有广泛的应用，但它更侧重于在达到某个特定事件之前发生的事件次数。

公式表示

负二项分布的概率质量函数（PMF）为：

$P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}$

其中：

$r$ 是达到特定事件所需的次数。
$p$ 是每次试验中特定事件发生的概率。
$k$ 是在首次达到特定事件之前发生的事件总数。
$\binom{n}{k}$ 是组合数，表示从 $n$ 个不同元素中取出 $k$ 个元素的组合方式数。

推导

假设我们有一个试验序列，每次试验中特定事件的发生概率为 $p$，不发生的概率为 $1-p$。我们感兴趣的是在首次达到 $r$ 次特定事件之前，不发生事件的次数。假设这个次数为 $k-r$。

根据二项分布的性质，我们知道在 $k-1$ 次试验中恰好有 $r-1$ 次特定事件发生的概率为：

$P(X = k-1) = \binom{k-1}{r-1} p^{r-1} (1-p)^{k-r}$

由于在第 $k$ 次试验中发生了特定事件，我们可以将上述概率乘以 $p$ 来得到负二项分布的 PMF：

$P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}$

负二项分布的性质

期望值

负二项分布的期望值（均值）是：

$E(X) = \frac{r(1-p)}{p}$

方差

负二项分布的方差是：

$\text{Var}(X) = \frac{r(1-p)}{p^2}$

应用

负二项分布在许多领域都有应用，尤其是在需要预测在达到某个特定事件之前发生的事件次数的场景中。以下是一些具体应用实例：

体育比赛：在篮球比赛中，负二项分布可以用来预测在首次投中三分球之前，球员投篮不中的次数。
医学研究：在药物试验中，负二项分布可以用来预测在首次观察到治疗效果之前，需要进行多少次试验。
工业生产：在产品质量控制中，负二项分布可以用来预测在首次生产出合格产品之前，需要进行多少次生产尝试。

通过这些应用，负二项分布帮助我们更好地理解和预测在特定条件下事件的发生次数，从而做出更合理的决策和规划。
负二项分布是二项分布的“反其道而行之”，二项分布是定下总抽样个数 $n$，把事件个数 $X$ 作为变量；儿负二项分布则恰恰相反，它顶下事件个数 $r$ ，把总抽样次数减去 $r$ 作为变量。

我们可以推演一个十分重要的例子，当 $r=1$ 时，可以得到几何分布：

$P(X = k) = p (1-p)^{k-1}$

连续型随机变量的分布

正态分布

定义

正态分布，也称为高斯分布，是一种在自然和社会科学领域中极为常见的连续概率分布。它描述了大量独立随机变量的平均值接近其总体均值的概率分布。正态分布的图形呈钟形曲线，左右对称，中间高，两端低。

公式表示

正态分布的概率密度函数（PDF）为：

$f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

其中：

$mu$是分布的均值。
$sigma$是分布的标准差。
$sigma^2$是方差。

推导

正态分布的推导可以从中心极限定理开始，该定理指出，大量独立随机变量的平均值，无论这些变量本身是什么分布，当样本量足够大时，其分布都会接近正态分布。正态分布的数学形式可以通过以下方式推导：

假设随机变量 $X$ 服从正态分布 $N(\mu, \sigma^2)$。
正态分布的概率密度函数可以通过最大化熵的方式得到，即在给定均值和方差的情况下，使得分布的熵最大。

正态分布的性质

期望值

正态分布的期望值（均值）是：

$E(X) = \mu$

方差

正态分布的方差是：

$\text{Var}(X) = \sigma^2$

标准差

正态分布的标准差是方差的平方根：

$\sigma = \sqrt{\text{Var}(X)}$

68-95-99.7 规则

正态分布的一个重要性质是其数据分布的集中趋势。根据正态分布的68-95-99.7规则：

大约68%的数据值落在 $mu \pm \sigma$范围内。
大约95%的数据值落在 $mu \pm 2\sigma$范围内。
大约99.7%的数据值落在 $mu \pm 3\sigma$范围内。

应用

正态分布在许多领域都有应用，包括统计学、物理学、经济学、工程学等。通过正态分布，我们可以预测在特定条件下数据的分布情况，从而做出更合理的决策。以下是一些具体应用示例：

统计学：在统计学中，正态分布被用来估计总体参数，如均值和方差。
物理学：在物理学中，正态分布可以用来描述粒子的位置和速度分布。
经济学：在经济学中，正态分布可以用来预测股票价格的变化。
工程学：在工程学中，正态分布可以用来预测机械部件的尺寸分布。

正态分布的广泛应用使其成为统计学和数据分析中不可或缺的工具。

指数分布

定义

指数分布是一种连续概率分布，常用于描述独立随机事件发生的时间间隔。这种分布广泛应用于描述设备故障时间、电话呼叫到达时间、放射性原子的衰变时间等。指数分布的图形呈单峰曲线，随着值的增加而逐渐减小。

公式表示

指数分布的概率密度函数（PDF）为：

$f(x) = \lambda e^{-\lambda x}$

其中：

$x \geq 0$
$\lambda > 0$ 是分布的率参数，表示单位时间内事件发生的平均次数。

推导

指数分布的推导可以从泊松过程开始，泊松过程是一种描述单位时间内随机事件发生次数的模型。当事件的平均发生次数为 $\lambda$ 时，事件之间的时间间隔服从指数分布。具体推导如下：

假设事件在单位时间内平均发生 $\lambda$ 次。
事件之间的时间间隔 $X$ 服从指数分布，其概率密度函数可以通过泊松过程的性质推导得出。

不妨考虑这样一个实例。设想一种大批生产的电子元件，其寿命 $X$ 是随机变量，以 $F(x)$ 记为 $X$ 的分布函数。我们认为电子元件的失效率为一个常数 $\lambda$ ，那么有：

$lim_{h \to 0} \frac{P(x\leq X \leq x+h \mid X>x)}{h} = \lambda$

又有：

$P(X>x) = 1-F(x)$

那么：

$\frac{P(x\leq X \leq x+h \mid X>x)}{h} = \frac{P(x\leq X \leq x+h )}{h(1-F(x))} = \frac{F((x+h)-F(x))}{h(1-F(x))}$

所以：

$\frac{F^{`}(x)}{1-F(x)} = \lambda$

解这个微分方程即可。

指数分布的性质

期望值

指数分布的期望值是：

$E(X) = \frac{1}{\lambda}$

方差

指数分布的方差是：

$\text{Var}(X) = \frac{1}{\lambda^2}$

标准差

指数分布的标准差是方差的平方根：

$\sigma = \sqrt{\text{Var}(X)} = \frac{1}{\lambda}$

无记忆性

指数分布的一个重要性质是其无记忆性（memoryless property），即：

$P(X > s + t | X > s) = P(X > t)$

这意味着，给定一个随机事件已经等待了 $s$ 单位时间，未来再等待 $ t$ 单位时间的概率与初始等待 $t$ 单位时间的概率相同。

应用

指数分布在许多领域都有应用，包括可靠性工程、通信系统、金融数学等。以下是一些具体应用示例：

可靠性工程：在可靠性工程中，指数分布被用来预测设备故障的时间。
通信系统：在通信系统中，指数分布可以用来描述电话呼叫到达的时间间隔。
金融数学：在金融数学中，指数分布可以用来模拟金融资产价格的变动时间。
物理学：在物理学中，指数分布可以用来描述放射性衰变的时间。

指数分布的广泛应用使其成为描述随机事件发生时间间隔的重要工具。

威布尔分布

定义

在前面的推导中，我们定义事件发生概率是 $x$ 的函数就可以得到威布尔分布（Weibull Distribution），这是一种连续概率分布，常用于描述某些具有寿命特征的设备或组件的失效时间。这种分布广泛应用于可靠性工程、生物学、经济学等领域。威布尔分布的图形可以是单峰或双峰，具体形状取决于其参数。事实上，指数分布是威布尔分布的退化。

公式表示

威布尔分布的概率密度函数（PDF）为：

$f(x) = \frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k-1} e^{-(x/\lambda)^k}$

其中：

$x \geq 0$
$\lambda > 0$ 是分布的尺度参数，表示事件的典型寿命。
$k > 0$ 是分布的形状参数，影响分布的形状和峰值位置。

推导

威布尔分布的推导可以从其定义出发。假设设备或组件的失效时间 ( X ) 服从威布尔分布，其概率密度函数可以通过以下方式推导得出：

设备或组件的失效时间 ( X ) 服从威布尔分布，其概率密度函数可以表示为：
$f(x) = \frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k-1} e^{-(x/\lambda)^k}$
威布尔分布的累积分布函数（CDF）为：
$F(x) = 1 - e^{-(x/\lambda)^k}$

威布尔分布的性质

期望值

威布尔分布的期望值是：

$E(X) = \lambda \Gamma \left(1 + \frac{1}{k}\right)$

其中 $\Gamma$ 是伽玛函数。

方差

威布尔分布的方差是：

$\text{Var}(X) = \lambda^2 \left[ \Gamma \left(1 + \frac{2}{k}\right) - \left(\Gamma \left(1 + \frac{1}{k}\right)\right)^2 \right]$

标准差

威布尔分布的标准差是方差的平方根：

$\sigma = \sqrt{\text{Var}(X)}$

应用

威布尔分布在许多领域都有应用，以下是一些具体应用示例：

可靠性工程：在可靠性工程中，威布尔分布被用来预测设备或组件的失效时间。
生物学：在生物学中，威布尔分布可以用来描述生物体的寿命。
经济学：在经济学中，威布尔分布可以用来分析经济活动的持续时间。
物理学：在物理学中，威布尔分布可以用来描述某些物理过程的持续时间。

威布尔分布的广泛应用使其成为描述随机事件发生时间间隔的重要工具之一。

生物数据中数据分布的应用

二项分布 (Binomial Distribution)

描述：用于描述在固定次数的独立实验中，成功次数的概率分布。
公式：$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$
应用示例：
- 基因测序中，某个特定突变在样本中的出现次数。
- 药物筛选中，药物对细胞的杀伤效果的实验结果。

泊松分布 (Poisson Distribution)

描述：用于描述在固定时间或空间内，某事件发生次数的概率分布。
公式：$P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}$
应用示例：
- 基因组中某基因的突变频率。
- 蛋白质组学中，特定蛋白质的表达量。

超几何分布 (Hypergeometric Distribution)

描述：用于描述从有限总体中抽取样本时，成功次数的概率分布。
公式：$P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$
应用示例：
- 从特定群体中抽取样本，计算样本中某种基因型的比例。
- 从特定组织中抽取细胞，分析细胞类型的比例。

负二项分布 (Negative Binomial Distribution)

描述：用于描述在一系列独立实验中，达到固定成功次数所需的实验次数的概率分布。
公式：$P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}$
应用示例：
- 基因测序中，达到一定覆盖度所需的测序深度。
- 药物筛选中，达到一定效果所需的药物浓度。

正态分布 (Normal Distribution)

描述：用于描述连续变量的概率分布，假设数据呈对称分布。
公式：$P(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
应用示例：
- 蛋白质表达量的分布。
- 基因表达量的标准化值。

指数分布 (Exponential Distribution)

描述：用于描述连续变量的概率分布，假设事件发生的时间间隔是独立且同分布的。
公式：$P(x) = \lambda e^{-\lambda x}$
应用示例：
- DNA测序中，读取的序列长度分布。
- 蛋白质降解的时间分布。

威布尔分布 (Weibull Distribution)

描述：用于描述连续变量的概率分布，常用于描述寿命数据。
公式：$P(x) = \frac{k}{\lambda} (\frac{x}{\lambda})^{k-1} e^{-(\frac{x}{\lambda})^k}$
应用示例：
- 细胞的存活时间。
- 蛋白质的降解时间。