| 选课类别:计划内与自由选修 | 教学类型:理论课 |
| 课程类别:本科计划内课程 | 开课单位:数学科学学院 |
| 课程层次:专业核心 | 学分:3.0 |
22秋、23春、23秋课程主页
http://home.ustc.edu.cn/~zyx240014/USTCProbability/index.html
刘党政老师的《概率论》课程内容深入,涵盖了概率论的基本定义与高等内容。在2020春季学期,由于疫情影响授课内容增加,涉及概率论外篇如信息熵、Lindeberg替换术、矩方法、随机矩阵等。课堂活跃,注重引导学生理解概率理论的深刻背景和应用。这门课不仅涉及概率论的基础定义和模型,还强调了与实分析内容的结合,如\sigma-代数、期望、条件期望和组合计数等。刘老师被认为对课程内容掌握从容,课程节奏舒适,讲解细致,但部分学生认为授课效果与个人基础关系较大,建议熟悉实分析基础。
作业量适中,但难度较高,需花费相当时间思考并理解。教材使用Grimmett/Stirzaker的《Probability and Random Processes》,并配有《概率论题解1000例》。此外,刘老师经常提供额外资料,如相关讲义,来辅助学生理解课程内容和准备考试。
考试难度大,尤其是期末考试,需要全面复习老师的授课内容和作业题。考试题目通常会包含定理证明与运用,部分涉及到未详细教授的高等内容如随机矩阵课题。评分被评价为相对友好,给予了努力学习并积极复习学生较高的最终成绩。刘老师通常使用合理的分数比例和必要的调分措施,保证学生的努力得到公正的回报。
总体而言,学生对刘老师的概率论课评价较高,认为课程内容有挑战性但极具收获。对于计划深入学习概率方向的学生,特别是大二或计划提前修读的学生,此课程提供了坚实的基础。课程虽有一定难度,但教师授课水平与给分方式保证了学生的努力能够得到充分的回报。此外,刘老师授课风格亲民,课堂气氛轻松,能够激发学生的学习热情。
通过总结,可以看出刘党政老师的概率论课程适合有志于深入了解概率论及其应用的学生,但需对实分析有一定了解或提前自学相关内容。
update 2025.6.22:
老师的自编讲义《简明概率论》的电子版已在24秋及25春进行试用,预计不久之后就会打算出版。关于讲义使用,一些同学认为讲义内容过于简略以及有些部分略带跳跃。个人认为:也许部分细节上确有瑕疵,但整体上作为“讲义”,顾名思义应当注重简洁明了,如果要兼顾内容的完整性和连贯性,作为”教材“更为合适。里面的一些细节也许第一次阅读没那么直接,但相信通过自己的补充应该会对所学内容更为深刻。另外,学习本门课程不宜以突击学习方式进行,或许罪魁祸首归因于春学期整体的课程量大且时间密集(期中连期末连期中连期末)
20秋修读本课,22秋、23春、23秋担任本课程助教,课程信息和各类资料都在本课程主页:USTC 概率论课程主页,对概率论方向有兴趣者可参考本修课指南的“课程之外”及课程主页的“阅读材料”部分,也欢迎和我交流。以下是本课程修课指南:
先简要分析两个学期的情况:
秋学期相对选课人数偏少,且选课的学生基数平均水平要较高于春学期的平均水平,外加充分不必要条件:提前自学/现学现用实分析。硬件方面难度较高。但另一方面,相比春季学期来说,课时安排和节奏都比较合理,整个课时是一共15周+每周4学时。更重要的是,对想提前了解接触概率、统计、机器学习(AI)等方向的课程/研究且学有余力的话,在秋学期提前选修概率论是非常鼓励的,概率论算是这些方向中最基础且最重要的课程之一,且在之后的学期可以提前进行相关方向的课程学习及科研。
春学期修读概率论算是按照正常培养计划进行,但是课时安排和节奏都不大合理,整个课时是一共12周+每周5学时,期中、期末考分别放在第7、13周,当老师讲后半学期内容时大家都在a.e.准备各种期中考(经典期中连期末),以至于多数学生没有较充分的时间消化课堂内容,而实际上刘老师讲授的概率论内容和考试风格导致这门课并不容易突击速成就拿到绝对高分。整体上讲,春学期的学习效果来说远不如秋学期。
尽管秋学期选课水平一般来说会好一些,与之对应的是秋学期给分情况整体来说一般略好于春学期。不过仔细想想,一个3学分的课程,按3学年绩点算算,成绩差一档也就最多差出0.01的g。适可而止是一种明智的生活态度。
综上大体给个建议:对想提前了解接触概率、统计、机器学习(AI)等方向的课程/研究,同时已修的数学课总评大部分都在85+或者不太在意绩点的同学,更建议秋学期选修概率论;对在意成绩且未打算选择概率、统计、机器学习(AI)等方向,或者学习上本身非常吃力的同学更建议春学期选修概率论。其他人就投硬币吧(×
对应教材内容:Grimmett, Stirzaker: Probability and Random Process, Chapter 1-3, 4.1-4.10, 5.1, 5.6-5.10, 7.1-7.6.
这本教材的特点是门槛低但不失深度,主次把握比较好,组合(≠摸球)味道较浓,习题特多不过不少题目都能学到东西,适合恰饭。
课程目标:在指标集为N下引入概率公理化并探讨随机现象,终极目标是得到随机变量列独立同分布情形下的中心极限定理(CLT)和大数律(LLN)以及独立不同分布情形下的中心极限定理。
结构上看,``概率论=实分析+独立性和相关性" 。首先,整门课程从一开始就引入概率公理化,然后建立随机变量并探讨其各种性质。因此,概率论中有一部分成分是“测度为1的实分析”。但同时我们必须声明,概率和实分析相比最独特的地方在于,概率论独有的“独立性和相关性”的属性在实分析中并不具备。换句话说,概率测度是在样本空间“\Omega"上定义的测度(输出值为实数),随机变量的定义是Borel实值可测函数,从样本空间“\Omega"映射到实数域上。在概率论中,我们当然关心输出值的信息,这和”有限测度的实分析“没有本质区别,但同时我们也关心输入值“\Omega"的信息,这里面就具备丰富的”独立性和相关性"属性。而在实分析中我们并不太关心输入值的信息,这应该是概率论真正区别于实分析之处。
Probability Theory is Measure Theory with a Soul. —— Mark Kac
内容上看, 我们先给出本课程讲义每章节的outline:
本章内容一开始就正式引入概率公理化,给出概率空间(包括概率测度)、随机变量和分布函数的定义并探讨其各种性质,以及古典概型和高级版本的摸球:在实际问题中通过条件概率及其衍生的方法来构造概率模型并解决问题,例如通过条件概率得到递推关系时,从而转化成递推数列问题。这章没有比较困难的知识点,但同时注意,一定要深刻理解上述概念。请思考:随机变量相同与随机变量同分布是否等价?
一方面,我们探讨了常见离散型的各种性质以及期望方差的相关计算;另一方面我们仔细观察,整章内容都在围绕"计数"问题做文章,而不只是单纯的“摸球”。解决问题的工具比如有:
1)概率方法:常适用于存在性问题,在确定性场合下对实际问题引入随机性,从而转化成概率问题;
2)示性函数/随机变量的分解:常用于求矩,当然也可以用于求分布列(P(A)=E[I_A])。在这个方法中,期望的线性性得以施展拳脚,从而大大简化计算;
3)条件期望:首先必须注意,条件期望是随机变量而不是数值。类似条件概率,我们可利用条件期望得到递推关系转化成递推数列问题。当然,条件期望也有很多性质类似于期望,方法处理不唯一,这里不做过多叙述;
4)母函数方法:作为一类幂级数, 有许多好的性质以便于处理, 比如用于对较复杂的递推关系(例如多重卷积)求解,也常用于求随机变量的矩等等。但是该方法有很大局限性,只适用于非负整值随机变量。
另外,随机游走中也有一些有趣的结论,以及协方差的双线性性,同时协方差可看成给定空间的一个内积,把两个随机变量看成两个“向量”,相关系数就是两者的夹角。因此随机变量二阶矩估计下投影点即为条件期望(学过泛函就更好理解),通过已知的信息做到最好的估计(参考习题课讲义例1.18)。
常见连续型随机变量各种性质及概率对象的计算务必做到熟练掌握,学会利用密度变换公式等进行计算。另外,一定要熟练掌握多元正态分布的性质:
1)多元正态分布可以通过均值向量和协方差矩阵唯一确定;
2) 多元正态分布做任何线性变换后仍是多元正态分布.
3) 随机向量服从多维正态分布,那么这个随机向量的某一部分所满足的多维正态分布可以直接由均值向量和协方差矩阵中的对应部分决定(打洞);
4)多元正态分布独立性与不相关性等价;
由此可见,多元正态分布具备非常好的结构,以此还可以衍生出多元正态分布下Wick公式等性质。
我们重新对一般随机变量定义期望,这本质等同于实分析中Lebesgue积分的建立。三种收敛定理及Fatou引理这些工具常用于随机变量的收敛性证明中。之后我们引入四种收敛的定义,并探究四种收敛的区别与联系,再借助各种矩不等式还有强大的Borel-Cantelli引理等工具,结合截尾术和子序列方法等技巧来得到本节课最终目标之一——强大数定律。强大数定律描述了相互独立的随机变量在满足一阶矩存在下, 随机变量和的平均几乎处处收敛到其均值. 从哲学角度看,确定性与随机性是辩证法中矛盾的对立统一,并在一定条件下向着对方转化。
从这章开始难度大幅上升,一定要消化反刍这部分内容。复习的时候结合学过的实例要能够做独立总结各种收敛性的可行方法。尤其是强大数律的证明,务必做到复习时能够独立推导一遍。强大数律的证明方法众多,这门课讲的证明是由Etemadi于1981年才给出的,用到的知识仅仅是简单的数学分析和概率论,而且证明过程非常短,但是涉及到的内容非常深刻,结合了各种工具和技巧才加以完成。由此可见,大二就能学到40年前才得到的知识,可见概率论是多么现代和丰富啊。
我们把中心极限定理放在本课程最后一章讲,是因为这里用的工具——特征函数最为现代。从本质上看,对于连续型随机变量而言,特征函数和反转公式就是“测度为1的Fourier变换和逆变换”(当然测度为1的Fourier变换和逆变换我们处理比一般情况下方便很多,更容易通过满足交换积分次序条件得到相关性质)。这部分涉及到的计算只要掌握最基本的即可,没必要去特别计算一些神秘特征函数的分布函数。事实上,我们引入这个工具是得到唯一性和连续型定理,但是对应物的具体形式我们常常不能确切所知。这也是特征函数使用的局限性所在。这部分最重要的是深刻理解唯一性定理和连续型定理,有时要结合特征函数的性质。
同样,我们引入特征函数,是为了得到另一个终极目标——中心极限定理。中心极限定理刻画了在二阶矩存在的条件下随机变量和减去大数律项再做合适scaling后会依分布收敛到标准正态分布(波动程度fluctuation项),时间:波动程度的exponent比值是2:1。这门课的中心极限定理包括独立同分布和独立不同分布的情形,对独立不同分布,如果当n充分大时随机变量与期望的间距与(随机变量和的方差)^1/2差不多是o(1),间距大的部分其二阶矩可以任意小(n充分大时),即满足Linderberg条件时,中心极限定理亦成立。这从直观上看也是符合的。durrett3.4节中给出了特征函数逐点收敛结合其紧性的方法以及矩方法两种办法给出,进阶课上会用linderberg替换这一工具给出证明(暴力美学)。对于本门课而言,学会选取合适的大数律项和fluctuation项验证Linderberg条件即可。
相信大家在学完这门课之后能够证明如下命题:
整体上从内容看,概率论做了这样一件事:除去引入概率公理化,建立随机变量并探讨其各种性质,探讨了很多具体的model及其性质外,在前半学期,我们主要围绕"计数"问题(离散型随机变量)做文章。这里的"计数"当然包括组合意义上的“摸球”,但最重要的地方在于引入一些精妙的工具和方法来解决"计数”意义下的概率问题(比如组合方法、还有示性函数/随机变量的分解,条件期望,母函数方法等)。在后半学期,我们开始探讨连续型随机变量直至更一般的随机变量。除了可以用“微积分”的工具对一些特定随机变量进行计算,衍生出很多具体的model及其性质以及引入一些工具外,最重要的是开始在实质上探讨了随机现象, 得到了一些短小精悍的收敛性结果和随机现象的规律。在CLT中,主要的工具是特征函数;而在SLLN中,主要的工具是Borel-Cantelli引理(当然也包括了重要的技术手段:截尾+子序列方法)。同时,整门课里出现的概念和技巧也或多或少出现“信息变化”的影子:条件期望(这里以转化成递推关系的初等方式为主)、截尾和子序列、矩的阶数估计等等。总之,对这门课所呈现丰富的内容和观点来说,概率论可以认为是比较现代的数学。
最后从时间角度讲,说概率论是大二修读的数学课里最现代的数学再不为过了,毕竟离Kolmogorov的专著pub后都不到100年,Etemadi的强大数律证明方法1981年才得到,,,
刘老师在教学是费了心思的,其他评课也备述至极了。老师在保证做到强调概率直观的基础上,对技术细节和证明详略的平衡把握得也很到位,他上课把概率论中最核心最重要的部分基本上都抓牢了,并且各内容衔接很完美。而且老师上课给你一种举重若轻的感觉,有一种潜在的大师气质。每次课就写满一整个黑板再多出一点,笔记内容并不多,但是这些上课讲授的内容好好消化并不容易,而且几乎必须要通过消化才能产生进一步理解。值得一提的是,老师特别喜欢上课和学生互动以活跃氛围,这在科大的课堂上是非常罕见且珍贵的。老师节奏把握也非常到位,给人一种上课感觉很轻松的氛围,不过有一点就是老师前半学期上课还是偏慢了,因为很多知识大家在中学阶段学习都有所接触或初步了解,感觉加快前半学期的进度说不定就可以把之前所说删去的除外篇部分的内容补上去。
概率论本身内容比较杂(包括概率前沿方向研究也是如此,其一直扮演着一个“中转站”的角色), 很多概念初学起来并不容易理解, 以及大部分同学初学概率论都会有``琐碎"之感, 尤其体现在处理概率问题中运用的各种技巧和技术上, 或者没有任何概率直观。如何尽可能解决?
一方面, 请务必做到:
rmk:个人认为培养概率直观的一个方法:能够利用学过的知识去多角度地解释一个现象,不必特意追求严谨性。
另一方面,最基本要求是把刘老师上课讲的笔记搞透,有时间也可以通过一定量的习题或找一些参考资料或参考本人习题课讲义辅助以深刻概念和定理的理解,以及熟练掌握分析(包括数学分析、实分析)中最常见最基本的technique,最基本的测度论知识,记忆典型的实例及理解老师提及过的idea,逐步积累消化直至融会贯通,这部分最好能够自行总结搭建框架。我担任助教期间从不少同学的作业和考试中也体现出概念使用混乱, 概率语言不会表述或表述不当等问题,说明不少同学对已学过内容还需要较好地理解。
中文参考书可参考李贤平的《概率论基础》,实例选取及内容丰富度都不错,另外随机变量列的收敛性讲得浅了些,想了解这部分可能还需要看其他参考书。苏淳的《概率论》最多看看例题就行了,其他内容(包括习题)还是别看了,过于杂糅。。
关于英文参考书,可以参考 Knowing the Odds — An introduction to Probability前六章,跟米特教材风格类似,可读性和连贯度也不错。另外有一定实分析和测度论基础的也可以直接上手durrett的Probability: Theory and Examples前三章(可跳过部分带*内容),以及在学完米特的基础上再想深入了解随机变量列收敛、强弱大数律及中心极限定理也推荐参考这本。尤其二、三两章把随机变量的收敛性,大数律和中心极限定理讲得非常全面且清楚。另外T大吴昊老师编写的《概率论1》课程讲义也不错,这里扔个链接:
钟开莱那本没怎么参考过,不作评价,不过风评来看应该还是不错的。
对于做题,刘老师第一节课就讲过,学好概率论的一个条件是:"干掉教材是的所有习题"然后在其上开了根号,这里开根号值得回味。至少对这门课来说如果要掌握得非常到位,尤其是已确定学概统的同学来说,一定量的习题训练是需要的,但是跟其他课程一样,投入的做题过程需要留意其目的: 要么能够额外收获一些实实在在的知识,要么能对已学的内容通过习题而产生更深的理解。对大二及之后的课程上述两点比“训练纯粹计算上的熟练度和解题速度”更为重要。米特上的精选题以及其他个别也不错的题目值得一刷,但个人认为完全没必要刷完整本米特,因为米特在一些经典的example中也夹杂着不少“次产品“甚至”次次产品“。所以,学习和做题过程中不是什么题目无论美丑都要刷,更重要的是把学到最精华的干货让自己产生更深刻的理解,学完之后哪怕这门课的知识不用也应该还留有一些印象。同时注意学习和做题过程中锻炼自己的taste非常重要,这也是终生受益的。
老师出题也是极具功夫的。不同于管院概率论“摸球”式计算大赛,老师完全不会在考试中特意考察“计算熟练度”(当然自己要具备一定的计算能力),除了简单题及相当量的原题及精选题外,刘老师考试出的新题一般来说都有相当难度,课内内容的深刻理解和技术使用融会贯通是必要条件,剩下就看造化了。同时老师常常会特意选一些非常综合的题目,会用到其他数学学科知识(很喜欢代数、数论与组合),甚至还有一些题目具有物理背景,老师也希望让大家了解概率论在其他数学分支及其他领域上的`渗透"现象。从考试角度讲这点其实是具有争议性的,但是目前来看现代概率论发展和其他数学分支甚至其他领域交叉渗透现象广。所以个人认为出这样的题目总体利大于弊,当然如果在题目设计上做得更到位一些就更好了。
这里我们以2023final为例(个人认为达到样卷标准),之前试题其他人已经流出来了,这里我也放一手:
当然这份卷具有相当的难度,但抛开难度看,不仅试题重难点考察得非常清晰,而且题目具有相当的灵活度,非常考察对已学内容的理解深度,很多题目方法还不唯一,开放性很强。同时,很多题目的背景都来自其他数学分支和其他学科(如1.数论、3. 统计、4. 高维统计/机器学习、6.随机(偏)微分方程),直击前沿。比如本次期末最后一题的背景来自于随机热方程(stochastic heat equation)的整点离散版本形式,通过此题也可以看出转化后的随机增长函数是independent随机变量结合随机游走系数的线性组合。如果方程再加上non-linear的一阶(局部高度势差)项就是1986年提出的Karder-Parisi-Zhang(KPZ)equation,直到目前这也是现代概率论里非常前沿且open的一个topic。
总的来说这次考得相当不错,均分和中位分均在60上下(虽然改卷放了些水不过还是略高于预期)。最后总评总体也算是对得起这门课的付出,看来22壬有望后浪推前浪。
主要以“专题选讲” 的形式呈现。特此说明一下,因为4学分变成3学分而删去的大部分内容都是概率和统计甚至和其相关方向中比较重要的内容及idea, 因此这些删去的内容也补充至讲义中。讲义的编排上主要分为 “基本内容”、“进阶内容”两部分:
基础内容主要侧重于课堂内容的整理或补充, 包括课堂内容的整合加工, 以及对已学过的概念进行适度延伸等, 有助于对课堂内容进一步理解以及知识框架的建立; 除此之外, 还补充了一些基本的工具及从所学内容延伸出的一些方法、technique 或 idea, 这也是我认为大家需要了解的部分.
进阶内容主要侧重于课堂内容的拓展. 一部分是一些既与课内相关度较大, 又和其他领域有一定关联的 “趣味” 问题, 这部分所涉及到的知识点和证明的技术使用往往会比较综合, 旨在让大家了解概率论在其他领域上的一些 “渗透” 现象. 还有一部分是从课内内容出发拓展一些实实在在的知识或方法, 不仅对这些内容有助于更深刻的理解, 同时也跟概统的后续课程起到了过渡和衔接的作用.
习题课讲义可在点评最上方的课程主页里自取。
先科普一下两个比较重要的idea, 希望能对后人概率论学习与方向选择有所帮助:
比如\sigma-代数 F, 可以理解为“所有可以通过随机变量观测到的信息”构成的好的信息类,而一个很自然的情况就是某个随机变量只能观测到一部分信息,为了描述于是就出现了条件期望的概念(习题课讲过条件期望的”投影“,也和此有关),而把概率放在测度的框架下最大的原因就是为了保证条件期望的存在性。本课讲授的通过条件概率或条件期望得到的递推也是一个最基本也是最初等的刻画“信息”变化的方式,以及在讲到运用markov不等式估计概率偏差大小时,对于随机变量来说, 其矩的阶数越高带来的“信息”也越多 (高阶矩存在直接推出低阶矩存在),更便于选择合适的矩以方便做概率尾估计,这部分可以结合“矩方法和组合计数”一节一同食用。另外,概率中运用的很多技巧也是概率学家对“信息”变化的深刻理解(像已讲过的截尾术,几乎处处收敛的子序列方法、独立复制与对称化 多少也有”信息“变化的影子)。“信息”在后续随机过程等课程中还会进一步体现出来,具体可以参考
做数学不同方向的人各有什么特点? - 知乎 (zhihu.com)
看下概率论的定义:研究随机现象并揭示随机现象中的结构和规律的数学分支。跟其他数学分支类似,寻找更好的“结构”或规律可以说是几乎所有数学家的一生追求。但是,概率论寻找的普适性相对于其他学科而言,更能通过自然与社会现象而引发出的motivation(或者说驱动力)。我们已学过的大数定律与中心极限定理(已学i.i.d和L-F形式)就是最经典也是最为重要的普适性,中心极限定理+独立增量对应于Gaussian class,呈现比例关系是2:1。另外还有诸如:
……
可参考 众里寻一:从复杂性中探索普适规律 (qq.com)。由此可见Universality也是一种Universality(笑)。想了解概率论与统计物理与共形不变性推荐了解一下这个专栏:近代概率学习笔记 - 知乎 (zhihu.com)
另外,概率论在其他数学分支及其他领域上的`渗透"现象非常广,这不仅仅从这门课学习以及考试题体现,而是学科特点所决定。引用数学家丁剑教授曾说的话:
概率与其他研究方向有一个很大的不同。许多方向都有一个人人都想解决的大问题或者核心问题,但概率的魅力不在于此。它的生命力在于,很多地方都能看到它的踪影,包括纯数、物理、计算机科学的一些分支,甚至是统计以及很多应用问题。
参考 对话丁剑之二|理想固然丰满 现实常常骨感 (qq.com)。
另外讲点题外话,在概率论学习及其前沿领域研究中,一些具体model的计算及其性质非常之重要。一方面,很多model的性质非常之好,简单的如对带有可加性的model,其母函数或矩母函数计算上方便,这样以便于精确求解或者便于做一个好的bound。还有像geo,exp(另一个角度也可转化成poisson)这类有无记忆性,可以一定程度上减少“束缚”,相对来说更便于精确计算某一概率对象。当然还有非常好的model就是高斯分布,对于多元高斯分布,出现正交变换等诸多好的性质,当然也易于精确的计算。比如在随机矩阵中,矩阵元为高斯情形时我们甚至可以通过对矩阵的正交变换和换元将 N 阶矩阵的联合分布密度写出,运用分析的工具去研究他们的渐近行为。同样对单个高斯随机变量,可以认为是具备某种意义上的"光滑性",其性质上的体现就比如矩的性质好、容易做好的bound和Large Deviation、甚至可以以此衍生出好的工具(如具有某种意义正交性的Hermite多项式,stein 方法)等等。
同时更为重要的是,对于概率论学科的研究中,我们的目标就是从本原上就是为了在自然和社会现象寻找探究更好的"结构”或规律(所以概率论作为先验学科更偏向数学),而通过研究好的特例的一些性质还可以诞生出一般意义(一般指general iid或其类似的形式)的conjecture(当然实际上这些conjecture不保证正确),或者说是motivation。比如我们看概率论课程中CLT的发展进程,对于Bernoulli CLT,主要通过Stirling对n!的转化加上比较analysis的估计而得以证明,在1733年通过demoivre得到,到1901年 Lyapunov,最后到1920年的Lindeberg,经过近两百年,对任何general iid的CLT才算大功告成,现在对general iid的CLT,其证明方法是通过特征函数比较analysis的观点解决。参考:中心极限定理:从1733到1937,一场跨越两百年的传奇 (qq.com)。当然,在高等概率论这门课,还会继续探究这件事情:随机变量指标集为N独立但不同分布,再加一些限制条件后的情形,CLT是否成立。对于LLN也类似,参考:概率论中“强大数定律的四种证法” 【转】 (qq.com) ,不再赘述。
再如现代概率前沿非常火的KPZ Universality conjecture以及和其关联紧密的 integrable probability,在2000年前后可以说是一个重大的breakthrough,因为对geo,exp,poisson等特例的情形都能得到精确可解的渐近分布形式,但是直到现在,general iid还是一个比较open 的 topic,目前还没有合适的工具去研究一般情形,只能做些边角料工作(一些bound estimate 以及 Large Deviation之类等等),希望9902年之前有真正这方面的breakthrough。
最后再补充一些有意思的内容吧(就当彩蛋):
1. 耦合(coupling)是概率中一个简洁有趣且重要的技巧。我们知道两个随机变量的分布相同并不代表随机变量相同, 也即不代表他们的样本空间相同。而耦合正是借助这个idea, 通过匹配合适的样本空间来达到我们的目标。全变差距离(total variance distance)可以看成刻画耦合程度的一种度量,借助相关性质可进一步探索。以上可参考教材4.12节及耦合(Coupling).pdf.同时强烈安利一下你科网络课堂课程:王冠扬学长讲授的“马尔科夫链里的耦合方法”。其中讲了耦合及其相关的证明方法,mixing time,以及一些模型的栗子及耦合在其他学科(如统计MLTCS等)中作为算法的应用。耦合的具体实现往往也通过构造某种“算法”/regime来完成,里面的idea私以为是很概率的,比较适合作为本课程的衍生内容。
另外在探究概率模型的极限定理(包括大数律和中心极限定理)research中也常常会用到耦合的idea。一种情况是在一些复杂模型中我们考察的随机变量通常是不独立的,但是相互又有“一定独立性”(离独立的情形非常接近,比如假设 |随机变量-均值| 的矩为O(n),对m个不同的(随机变量-均值)的矩是o(n^m)),这时我们或许可用耦合技巧或者矩方法等工具解决。
2. 二阶矩方法常用于概率research中进行estimate,亦是组合中常用的概率方法,我们考察一个对象是非负整值随机变量大于0的概率大小,容易知道它不能直接被一阶矩决定,换句话说,非负整值随机变量的期望非常大无法推出其等于0的概率非常小。但如果我们同时还知道二阶矩的信息,则随机变量大于0的概率就有了下界。其概率值主要取决于模型中各随机变量间的相关程度。
参考:https://en.wikipedia.org/wiki/Second_moment_method,mit18_226f20_lec7-9.pdf。
其他一些概率、统计及机器学习中常用的concentration inequality可参考概率论和机器学习中的不等式 - 知乎 (zhihu.com)
虽然我们之前提到过,高阶矩存在则信息越多(推出低阶矩存在),但是实际上一些(强调是一些!)概率问题求解关键往往归结于二阶矩的情形。比如中心极限定理我们做到二阶矩就够了,且对任意δ>0,S_n/n^{1/2+δ}都是几乎处处收敛到0(假设期望为0). 还有诸如Ito公式的推导也是保留到二阶矩项(二阶导对应二阶矩),以及BKG inequality等等。
3. Berry-essen不等式刻画了中心极限定理的收敛速度。假设均值为0的随机变量3阶矩存在,记标准正态分布函数为F(x), 则
sup_{x∈R}|P(S_n/n^{1/2} ≤ x) - F(x)|≤C/n^{1/2}.
如果我们利用Linderberg替换,直观上看是n^{-1/2}这个阶,但是这个替换精度太粗糙,因此我们必须寻找更加精细的工具加以解决。
一种办法是通过特征函数,利用Polya’s distribution的结论,把原来比较的两个分布函数对其做卷积(含参数L),利用Polya’s distribution中超过L两侧特征函数为0这一性质来简化估计(紧支撑在[-L,L]中),同时卷积后的两分布函数差的最大值能被卷积前的两分布函数差的最大值控制,由此得到目标结论。具体证明可参考durrett3.4节内容。
另一种办法是通过stein方法,可以看成一种高级的Linderberg替换,但是要求的条件更高,然而正态分布正好match这个条件。具体过程可参考 Fundamentals of Stein’s method.pdf,不再赘述。
Berry-essen不等式的上述两种证明方法在特仑苏的随机矩阵专著中也有所提及,可参见这本书的第2.1节部分,这本书在讲随机矩阵之前也综述了现代概率论中用到的很多证明技术technique。
参考:陶哲轩,Topics in Random Matrix Theory, 美国数学会,2012.
4. 有关正态分布的诞生历程及发展可参考 正态分布的前世今生(上) (qq.com),正态分布的前世今生(下) (qq.com) 。对于正态分布/density function,我们可以从不同的角度解释它。例如Fourier变换的不动点,热方程的解,最大熵分布等等,甚至还可以从重整化群(本人完全不懂)的角度出发,说明正态分布是分布在不断粗粒化演化过程中的不动点(可参考(1 封私信 / 24 条消息) 如何理解中心极限定理? - 知乎 (zhihu.com))。由此可见从不同视角观察,正态分布具有很多奇妙的性质。
首先在此衷心感谢刘党政老师和宗语轩助教这一个学期的教导。 本来想写个长评,结果一看宗师写的评课实在太太太详细了,一时间不知道该写些啥了) 总之这门课感觉是你科数学最优质的一档。
24春更新 很荣幸成为这门课的助教,以新的身份再体验一次刘率论👍
ldz yyds 我决定做概率的影响最大的老师 Grimmitt教材可读性很强,就是题目难了点 给分非常奶,期中88期末70总评3.7 据说今年没有大一的选这门课,我个人是比较建议大一选的,毕竟感觉还是挺友好的