统计学重要知识点

 数学
 

统计学重要知识点

1. 概念

  • 概率:概率是一个事件发生、一种情况出现的可能性大小的数量指标,介于0与1之间。
  • 分布:分布包括离散分布和连续分布,用来表述随机变量取值的概率规律。
  • 概率密度函数(probability density function,PDF): 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。当概率密度函数存在时,累计分布函数式概率密度函数的积分。
  • 累积分布函数(cumulative distribution function,CDF):又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布,一般以大写“CDF”标记。
  • 伯努利分布(零一分布、两点分布、0-1分布)伯努利试验成功的次数服从伯努利分布
  • 二项分布: 重复n次独立的伯努利试验
  • 泊松分布: 在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积$\lambda=np$比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看做泊松分布在离散时间上的对应物。同样的,泊松分布也可看为二项分布在特殊情况下的极限。
  • 大数定律: 在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望值。大数定律很重要,因为它“说明”了一些随机事件的均值的长期稳定性。
  • 正态分布: 正态分布又名高斯分布,是一个非常常见的连续概率分布。正态分布是自然科学与行为科学的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布,尽管这些现象的根本原因经常是未知的,理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布。
  • 中心极限定理: 中心极限定理是指概率论中讨论随机变量序列部分和分布渐进于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
  • 离散分布:离散分布描述离散随机变量的每个值的发生概率,如伯努利分布、二项分布、泊松分布。离散随机变量是指具有可计数的值的随机变量,例如非负整数的列表。在离散概率分布中,离散随机变量的每个可能值可与一个非零概率想关联。因此,离散概率分布通常具有表格形式。
  • 连续分布:连续分布描述连续随机变量的可能值的概率,例如正太分布。连续随机变量是一组无限且不可计数的可能值(称为范围)的随机变量。连续随机变量(X)的概率被定义为其PDF曲线下的面积。因此,只有值范围才能具有非零的概率。连续随机变量等于某个值的概率始终为零。

2. 相关

1. 概率分布的种类

概率分布要么是连续概率分布,要么是离散概率分布,这取决于它们是定理连续变量还是离散变量的概率。

2. 大数定理和中心极限定理的联系和区别

大数定律(LLN)和中心极限定理(CLT)的联系与区别在于:

  • 共同点:都是用来描述独立同分布(i.i.d)的随机变量的和的渐近表现(asymptotic behavior)
  • 区别:它们描述的是在不同的收敛速度(convergence rate)之下的表现,其次LLN前提条件弱一点:$E(|X|) < \infty$,CLT条件强一点:$E(X^2) < \infty$。
  • 假设有n个i.i.d的随机变量,令它们的和为$S_p = \sum^{n}_{i=1}X_i$.大数定律(以其中弱大数定律为例)说的是$\frac{1}{n}S_n - E(X) \underrightarrow{P} 0$.中心极限定理说的是$\sqrt{n}(\frac{1}{n}S_n - E(X)) \underrightarrow{D} N(0,E)$.
    作者:Detian Deng;来源:知乎;原文链接

大数定律讨论的是依概率收敛,中心极限定理涉及按分布收敛(按分布收敛比点点收敛弱很多啊)。私以为搞清楚随机变量序列的收敛性就是为了方便在样本量很大情况下计算概率。。。

  • 大数定律是说随机变量序列的算术平均以概率收敛到其均值的算术平均。比较经典的运用就是用频率确定概率,比如估计不合格品率,抽样的不合格品比例就是可以作为总体的不合格品率估计值。
  • 中心极限定理说的是给出随机变量和的分布函数在什么条件下收敛到正太分布。比较熟悉的比如用来估计误差,误差基本上都是由这样那样大大小小微小因素叠加的,这些个因素相加就是总的误差,这个时候就要用到参数估计和假设检验了,在认为误差近似正太分布情况下,给出误差上限下限,置信度,判断质量是否达到要求等等工作就可以做了。
    作者:yyylll;来源:知乎;原文链接

大数定律揭示了大量随机变量的平均结果,但没有涉及到随即变量的分布的问题。而中心极限定理说明的是在一定条件下,大量随机独立变量的平均数是以正态分布为极限的。

3. 泊松分布的现实意义

马同学的讲解:泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布?

先说结论:泊松分布是二项分布n很大而p很小时的一种极限形式二项分布是说,已知某件事情发生的概率是p,那么做n次试验,事情发生的次数就服从于二项分布。泊松分布是指某段连续的时间内某件事情发生的次数,而且“某件事情”发生所用的时间是可以忽略的。例如,在五分钟内,电子元件遭受脉冲的次数,就服从于泊松分布。假如你把“连续的时间”分割成无数小份,那么每个小份之间都是相互独立的。在每个很小的时间区间内,电子元件都有可能“遭受到脉冲”或者“没有遭受到脉冲”,这就可以被认为是一个p很小的二项分布。而因为“连续的时间”被分割成无穷多份,因此n(试验次数)很大。所以,泊松分布可以认为是二项分布的一种极限形式。因为二项分布其实就是一个最最简单的“发生”与“不发生”的分布,它可以描述非常多的随机的自然界现象,因此其极限形式泊松分布自然也是非常有用的。作者:ctian;来源:知乎;原文链接

4. 理解概率分布函数和概率密度函数

产品经理马忠信的讲解: 应该如何理解概率分布函数和概率密度函数?

3. 参考