Felix Laumann：贝叶斯深度学习统计学与概率论基础II（NeoYan翻译）

第二部分的内容也很基础。还是那句话，如果您佬不清楚类似定义，请准备小卡片，如同记单词一样去记住定义和公式。

这一次，基础I中我们给出了定义，现在让我们看些例子。我们可以看看历史上的统计数据，比如说从1945年5月23日哥本哈根白天的温度统计数据，这一天是一个典型的温暖的春日。

采样：从概率分布函数中随机选择某些值。

举例：我们从1945年5月23日在哥本哈根记录到的所有温度的随机进行选择，比如，18°C。注意，这样的温度数据更容易被抽样到，因为它出现的频率更高一些，在分布上也更接近20°C的均值。

接下来，将会介绍一些分布函数，未必有例子，但依然需要记忆它。

伯努利分布：又称二项分布，描述真值（1）与假值（0）出现概率的函数，Bernoulli(p)表示值为1出现的概率。

图1. 真值概率为0.4的伯努利分布

类别分布：描述离散随机变量的概率分布。可以把它看作是伯努利分布的推广。在伯努利分布中，随机变量只有两个可能的值，但类别分布中，概率取值更多一点。我们可以使用它来确定属于某个类或权值的输入的概率，如图2所示。

图2. 类别分布实例

均匀分布：所有的取值都相同的概率分布。通过边界a和b来定义，概率和为1，概率密度为1/(b-a)换句话说，“积分空间”取值是1。

图3. 均匀分布实例

高斯分布：“钟形分布”，是经常用于描述现实世界随机变量的分布函数，又称“正态分布”。

图4. 高斯分布实例

联合分布：在多个变量上的概率分布，它描述了随机变量联合使用下取特定值的概率。例如，p(X，Y)是随机变量X和Y上的一个联合分布。

图5. 两个满足高斯分布的随机变量X和Y的联合分布

条件概率：一个随机变量在另一个随机变量值确定情况下的概率。在下面的公式里，我们可以这样说“条件概率是指在事件Y发生情况下，事件X发生的概率”。

如果这样说不容易理解，我们可以画一棵概率树，来获得直观的解释。举例：5月23日温度为T1，但我们并不清楚5月24日的温度T2。当我们考虑到下图中的左分支时，我们计算条件概率变成了“当今天只有4°C时，明天会有多温度？”T2在25°C的可能性较低，为0.2，而9°C的可能性比较较高，为0.8。右边的分支则表示今天为22°C的时候温度分别为20°C的概率较高——0.6，温度为15°C的概率较低——0.4。

图6. 条件概率分布示例

概率的链式规则：它只不过是重写了我们从条件概率中已经知道的内容。变量X和Y的联合概率等于变量X对变量Y的条件概率乘以变量Y的概率。

贝叶斯定理：这个定理并不复杂，但却对之后的研究至关重要。p(X|Y)是变量X在给定数据Y情况下的后验概率，p(Y|X)是模型的似然，p(X)是以先验概率形式给定的置信度，p（Y)是数据分布。

概率的加法律：变量X的概率分布可以看作是在所有Y可能取值对变量X和变量Y联合概率分布的求和。

边缘分布：指在多维随机变量中，只包含其中部分变量的概率分布。联合概率分布求和的过程，我们称之为“边缘化”，它可以得到边缘分布。有两个随机变量X和Y，他们的联合分布p(X, Y)是已知的，所谓X的边缘分布即使对所有基于Y可能取值的联合分布求平均，它是假设随便变量Y未知情况下的随机变量X的概率分布。通常它是通过对离散随机变量Y的联合概率分布求和或对连续随机变量Y的联合概率分布求积分而获取的。

独立性：如果随机变量X的取值与Y无关，则称X相对于Y独立，当且仅当下式情况成立。

条件独立：给定随机变量Z情况下，随机变量X对随机变量Y是独立的。

可以看一下图模型，这个更直观。一旦我们了解了Z，我们不需要了解Y就可以求出随机变量X，同样，不需要知道X就可以求出随机变量Y。

独立同分布：从一个数据集中提取两个或多个样本，后续提取其他样本也不受影响，当样本的均值和方差相同时，它们的分布是相同的，我们称之为独立同分布样本，缩写为I.I.D。由于我们永远不能完全确定两个或更多的样本是完全独立和相同分布的，所以当您说“我们假设样本是I.I.D”时，您是在谨慎行事。

举例：我们从温度数据集中提取两个样本，分别为22°C 和 15°，这是历史上哥本哈根5月23日的温度数据。抽样是独立的吗？我们并不确定，然而考虑到一年有365天，或许这两个抽样是独立的。反过来，我们可以说，当我们增加抽样大小，比如我们获取更多的历史上的温度数据，我们可以说样本之间是独立同分布的，他们的确起源于同一个概率分布。

似然函数：一种关于统计模型中的参数的函数，原来衡量概率分布。之后，我们在概率模型里会大量与之交往，我们会遇到一种以对数似然函数的损失函数，求解其最大似然。

推断：通常在观察完模型的其他变量是值之后，我们需要对于某一特定随机变量，计算其概率值。

协方差矩阵：两个随机变量联合方差的度量。

相关性矩阵：相关性是一种特殊的数据标准化后的协方差求解。标准化是指观察变量减去均值除以标准差，因此，他们的值在[-1,1]之间，它的值可以直观地表达“好”和“差”。所以，在您要计算随机变量相关性之间，请记得归一化哦，么么哒。

因果关系：如果其中一个变量的变化是另一个变量变化的原因，两个随机变量之间存在因果关系。图模型里两个随机变量之间的边的连接关系暗示了这一点，我们可以称之为因果关系。这是一个非常重要但经常被忽视的想法，当然，您可能会经常听到此类老生常谈“关联并不意味着因果关系”。

举例：假设今天是5月23日，平均温度22°C，您走在哥本哈根街头，看到很多行人吃冰淇淋，您会发文，是今天天气热呢还是丹麦人喜欢吃冰淇淋，然后您再多呆了几天，发现温度在10°C 到 25°C之间变动，您会猜测多半是因为温度有点高。然后建立起“温度高”和“吃冰淇淋”之间的因果联系。然后您看到哥本哈根市民在暖和的天气会比在寒冷的天气购物多。这是否构成了一种因果关系呢？您可能并不确定，因为可能寒冷的季节有更多国定假日，大部分商店都关门了，老百姓也就不去购物了。（概率论与统计学基础部分介绍完结）

Felix Laumann：贝叶斯深度学习统计学与概率论基础I（NeoYan翻译）

在开始概率深度学习的旅程前，我们首先应该回顾一些概率论与统计学的基础知识。大部分定义来自于《基于模型的机器学习》这本书，在这篇文章中将根据一些示例加以展示。如果您佬还不知道其中的一些定义，请将它们写在小卡片上，并像记单词一样记这些定义和公式。

让我们来看这样一个例子：您佬每周和您奶奶吃一次早餐，但她有点疯狂，从来没有在同一天出现过；另外，她总是做一个美味的蛋糕，而您佬的技术不够，在这一周的其他时间里，您佬没办法自己去做这样一个蛋糕的。

概率：衡量您的决定有多确定。它介于0到1之间，0表示不可能，1表示确定。概率缩写为P，通常以百分比（如0%、50%和100%）或分数（如1/5、3/7和7/8）表示。每天早上您都会问自己：早餐吃蛋糕的机会有多大？则P(早餐=老祖母的蛋糕)=1/7。

随机变量：值不确定的变量。因此，我们只能给出这个量等于某个常数的概率。假设随机变量是早餐，它的值是奶奶的蛋糕。早餐是奶奶的蛋糕的可能性是1/7。

归一化约束：概率论的定律，任何给定随机变量的所有概率值和为1。如果您奶奶不来，您佬的早餐会吃谷类食品。P(早餐=谷物)=6/7 ，P(早餐=老祖母的蛋糕)+P(早餐=谷物)=1。

概率分布：对于每个随机变量，都能给出概率值的函数。

图1. 左边是离散的概率分布，右边是连续的概率分布

概率质量函数：对离散随机变量的描述函数，在给定的某一区间里，数轴上每一个大于零的概率的和。每个可能的价值都需要去定义它，概率质量函数缩写为PMF。例：f(老祖母的蛋糕)=P(早餐=老祖母的蛋糕)=1/7 ；f(谷物)=P(早餐=谷物)=6/7。

概率密度函数：对连续随机变量的描述函数，在某个确定的取值点附近的可能性的函数，概率密度函数在一定区间内的积分为这个随机变量的取值。缩写为PDF。

**例子：我们之前的例子是离散变量，因此只有PMF，而没有PDF。不过每天的温度倒是一个连续的变量，假设满足正态（高斯）分布：**

期望：观测变量x与其出现概率p的乘积总和，代表了长期重复实验的平均值。

如果你不知道每个观测值的概率，可以用如下的公式计算平均值，这就是期望，缩写为m。

举例：您可以把对早餐的期望写成：吃老祖母蛋糕事件发生的次数P（早餐=老祖母的蛋糕）+吃谷物事件发生P（早餐=谷物），不过它通常对离散变量描述缺乏意义，一般用来描述连续变量，比如我们可以大概算出一天内温度的平均值接近20度。

中位数：将某个序列从低到高排序，中间的那个数，或者某个概率分布里切割开两边的值。

众数：更多出现的变量。比如在早餐食谱的选择中，您更多吃谷物而非蛋糕。

方差：衡量数值与平均值之间的变化程度。它不是计算说每个值相对于平均值的平均绝对偏差，而是如公式所示，先是计算每个值与均值的差值平方，再除以观察变量数N，缩写为σ²。

**平均绝对偏差（MAE）：相对均值的偏移绝对值的平均。**

标准差：对方差开平方根。

创刊词

万物皆数，是古典希腊时代哲学家毕达哥拉斯曾说过的一句话。人类从来没有放弃过用数学的方法去描述我们所处的世界，并尝试改造这个世界。沿着这个基础，它衍生出了现代物理学，并在此基础上催生了化学、生物等一系列基础学科的发展。二战前后，从数学科学的母体里，又分化出了现代通信学科、计算机科学和控制理论。

本站点致力于数学和计算机科学英语或德语文章在中文世界的翻译推广，目前主要专注翻译人工智能方面的技术博客。

通过 WordPress.com 设计一个这样的站点

从这里开始