第二部分的内容也很基础。还是那句话,如果您佬不清楚类似定义,请准备小卡片,如同记单词一样去记住定义和公式。
这一次,基础I中我们给出了定义,现在让我们看些例子。我们可以看看历史上的统计数据,比如说从1945年5月23日哥本哈根白天的温度统计数据,这一天是一个典型的温暖的春日。
采样:从概率分布函数中随机选择某些值。
举例:我们从1945年5月23日在哥本哈根记录到的所有温度的随机进行选择,比如,18°C。注意,这样的温度数据更容易被抽样到,因为它出现的频率更高一些,在分布上也更接近20°C的均值。
接下来,将会介绍一些分布函数,未必有例子,但依然需要记忆它。
伯努利分布:又称二项分布,描述真值(1)与假值(0)出现概率的函数,Bernoulli(p)表示值为1出现的概率。
图1. 真值概率为0.4的伯努利分布
类别分布:描述离散随机变量的概率分布。可以把它看作是伯努利分布的推广。在伯努利分布中,随机变量只有两个可能的值,但类别分布中,概率取值更多一点。我们可以使用它来确定属于某个类或权值的输入的概率,如图2所示。
图2. 类别分布实例
均匀分布:所有的取值都相同的概率分布。通过边界a和b来定义,概率和为1,概率密度为1/(b-a)换句话说,“积分空间”取值是1。
图3. 均匀分布实例
高斯分布:“钟形分布”,是经常用于描述现实世界随机变量的分布函数,又称“正态分布”。
图4. 高斯分布实例
联合分布:在多个变量上的概率分布,它描述了随机变量联合使用下取特定值的概率。例如,p(X,Y)是随机变量X和Y上的一个联合分布。
图5. 两个满足高斯分布的随机变量X和Y的联合分布
条件概率:一个随机变量在另一个随机变量值确定情况下的概率。在下面的公式里,我们可以这样说“条件概率是指在事件Y发生情况下,事件X发生的概率”。
如果这样说不容易理解,我们可以画一棵概率树,来获得直观的解释。举例:5月23日温度为T1,但我们并不清楚5月24日的温度T2。当我们考虑到下图中的左分支时,我们计算条件概率变成了“当今天只有4°C时,明天会有多温度?”T2在25°C的可能性较低,为0.2,而9°C的可能性比较较高,为0.8。右边的分支则表示今天为22°C的时候温度分别为20°C的概率较高——0.6,温度为15°C的概率较低——0.4。
图6. 条件概率分布示例
概率的链式规则:它只不过是重写了我们从条件概率中已经知道的内容。变量X和Y的联合概率等于变量X对变量Y的条件概率乘以变量Y的概率。
贝叶斯定理:这个定理并不复杂,但却对之后的研究至关重要。p(X|Y)是变量X在给定数据Y情况下的后验概率,p(Y|X)是模型的似然,p(X)是以先验概率形式给定的置信度,p(Y)是数据分布。
概率的加法律:变量X的概率分布可以看作是在所有Y可能取值对变量X和变量Y联合概率分布的求和。
边缘分布:指在多维随机变量中,只包含其中部分变量的概率分布。联合概率分布求和的过程,我们称之为“边缘化”,它可以得到边缘分布。有两个随机变量X和Y,他们的联合分布p(X, Y)是已知的,所谓X的边缘分布即使对所有基于Y可能取值的联合分布求平均,它是假设随便变量Y未知情况下的随机变量X的概率分布。通常它是通过对离散随机变量Y的联合概率分布求和或对连续随机变量Y的联合概率分布求积分而获取的。
独立性:如果随机变量X的取值与Y无关,则称X相对于Y独立,当且仅当下式情况成立。

条件独立:给定随机变量Z情况下,随机变量X对随机变量Y是独立的。
可以看一下图模型,这个更直观。一旦我们了解了Z,我们不需要了解Y就可以求出随机变量X,同样,不需要知道X就可以求出随机变量Y。
独立同分布:从一个数据集中提取两个或多个样本,后续提取其他样本也不受影响,当样本的均值和方差相同时,它们的分布是相同的,我们称之为独立同分布样本,缩写为I.I.D。由于我们永远不能完全确定两个或更多的样本是完全独立和相同分布的,所以当您说“我们假设样本是I.I.D”时,您是在谨慎行事。
举例:我们从温度数据集中提取两个样本,分别为22°C 和 15°,这是历史上哥本哈根5月23日的温度数据。抽样是独立的吗?我们并不确定,然而考虑到一年有365天,或许这两个抽样是独立的。反过来,我们可以说,当我们增加抽样大小,比如我们获取更多的历史上的温度数据,我们可以说样本之间是独立同分布的,他们的确起源于同一个概率分布。
似然函数:一种关于统计模型中的参数的函数,原来衡量概率分布。之后,我们在概率模型里会大量与之交往,我们会遇到一种以对数似然函数的损失函数,求解其最大似然。
推断:通常在观察完模型的其他变量是值之后,我们需要对于某一特定随机变量,计算其概率值。
协方差矩阵:两个随机变量联合方差的度量。
相关性矩阵:相关性是一种特殊的数据标准化后的协方差求解。标准化是指观察变量减去均值除以标准差,因此,他们的值在[-1,1]之间,它的值可以直观地表达“好”和“差”。所以,在您要计算随机变量相关性之间,请记得归一化哦,么么哒。
因果关系:如果其中一个变量的变化是另一个变量变化的原因,两个随机变量之间存在因果关系。图模型里两个随机变量之间的边的连接关系暗示了这一点,我们可以称之为因果关系。这是一个非常重要但经常被忽视的想法,当然,您可能会经常听到此类老生常谈“关联并不意味着因果关系”。
举例:假设今天是5月23日,平均温度22°C,您走在哥本哈根街头,看到很多行人吃冰淇淋,您会发文,是今天天气热呢还是丹麦人喜欢吃冰淇淋,然后您再多呆了几天,发现温度在10°C 到 25°C之间变动,您会猜测多半是因为温度有点高。然后建立起“温度高”和“吃冰淇淋”之间的因果联系。然后您看到哥本哈根市民在暖和的天气会比在寒冷的天气购物多。这是否构成了一种因果关系呢?您可能并不确定,因为可能寒冷的季节有更多国定假日,大部分商店都关门了,老百姓也就不去购物了。(概率论与统计学基础部分介绍完结)




















