大数据算法(彭攀) 2023春 2022春  课程号:01118601
2023春 2022春  课程号:01118601
8.3(6人评价)
8.3(6人评价)
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
选课类别:计划 教学类型:理论课
课程类别:本科计划内课程 开课单位:计算机科学与技术学院
课程层次:专业选修   学分:3.0
课程主页:暂无(如果你知道,劳烦告诉我们!)
简介 最后更新:

简介

算法与理论是计算机科学的核心领域之一。随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能、物联网、工业制造等领域所遇到的实际问题。本门课程主要介绍基于大数据的新型算法技术,如随机采样、数据降维、数据压缩、分布式计算、流数据计算、聚类、分类、随机优化等,以及相关的理论和数学技巧,如概率计算方法、vc维、通信复杂度、机器学习学习理论等。作为一门理论方向课程,帮助学生掌握解决大数据问题所需的理论和算法工具,为相关领域的工程实践打好基础。

课程大纲(暂定)

Dimension Reduction

  1. Singular Value Decomposition and Principal Component Analysis
  2. Johonson-Linenstrauss Lemma
  3. Nearest Neighbor Search
  4. Locality Sensitive Hashing

Streaming and Sketching Algorithms

  1. Probabilistic Counting, Reservoir Sampling
  2. Estimating the Number of Distinct Elements
  3. Frequent Items: Misra-Gries Algorithm, Count-Min Sketch, Count Sketch
  4. Matrix Sketches

Machine Learning Theory

  1. VC-dimension, PAC learning
  2. The Perceptron Algorithm
  3. Support Vector Machine

Clustering

  1. \(k\)-means/median/center
  2. Coreset for Clustering
  3. Hierarchical Clustering

Graph-Structured Data

  1. Random Walks and Markov Chains
  2. Sublinear-Time Algorithms for Graphs

先修课程 Prerequisites

  • 必须:数据结构,线性代数(B1)
  • 推荐:概率论与数理统计B

成绩

  • 课程成绩:本课程将会有若干次作业(其中3次作业记录成绩),一次期中考试和一次期末考试。最终成绩将由出勤率(10%),平时作业成绩(30%),期中考试成绩(30%),期末考试成绩(30%)综合得出。
  • 作业迟交:每次作业迟交一天将扣除该次作业成绩的20%;超过3天未交,该次作业记0分。

作业

每2个星期有一次作业,在www.bb.ustc.edu.cn上发布。其中需要提交并记录成绩的作业共有三次。提交作业时,请直接将电子版上传到www.bb.ustc.edu.cn。我们强烈推荐使用Latex作答(关于Latex的使用,可参考资料)。

学术诚信

学术诚信是所有从事学术活动的学生和学者最基本的职业道德底线,本课程将不遗余力的维护学术诚信规范,违反这一底线的行为将不会被容忍。作业完成的原则:署你名字的工作必须是你个人的贡献。在完成作业的过程中,允许讨论,前提是讨论的所有参与者均处于同等完成度。但关键想法的执行、以及作业文本的写作必须独立完成,并在作业中致谢(acknowledge)所有参与讨论的人。不允许其他任何形式的合作——尤其是与已经完成作业的同学“讨论”。本课程将对剽窃行为采取零容忍的态度。如果发现互相抄袭行为,抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。

教材和参考书

  • Foundations of Data Science. Avrim Blum, John Hopcroft, and Ravindran Kannan. Cambridge University Press, 2009. Online version
  • Sketching Algorithms. Jelani Nelson. Online version
  • Mathematical foundation for data analysis. Jeff Phillips. Online version
  • Introduction to Data Mining. Pang-Ning Tan, Michael Steinbach, Vipin Kumar.
排序 学期

评分 评分 6条点评

匿名用户 2023春
  • 课程难度:困难
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:困难
  • 作业:很少
  • 给分:超好
  • 收获:很多

彭老师是肥科计院为数不多的偏数学的老师,这门课是计院为数不多的偏数学的老师,要好好珍惜呀🤭~~

助教也很给力的,作业都有工整的答案,第一次体验到讲义区提供卷子的服务,体验非常好


前半个学期的一点总结

1. SVD的几何意义、2种表示(\(UDV^T/\sum_{i=1}^r \sigma_i u_i v_i^T\)+||A-A_k||的含义

PS1:\(VV^T=\sum v_iv_i^T\)

PS2:\(||A||_2=\underset{||v||_2=1}{max}||Av||\)(用来证||A-Ak||_2 minimal)

PS3:变换I=VV^T=UU^T,可以利用A=UDV^T与U,V的关系

\(\begin{align*} &v_1=\underset{|v_1|=1}{max} ||Av_1||_2^2=\underset{|v_1|=1}{min}||A-Av_1||_2^2=\underset{|v_1|=1}{min}\sum_{i=1}^n|a_i-a_iv_1|^2\\ &v_2=\underset{|v_2|=1,v2\perp v_1}{min}\sum_{i=1}^n|a_j-a_iv_2|^2\\ &...\\ &{v1,...,vk}=\underset{v_1,...,v_k}{min}\sum_{j=1}^k\sum_{i=1}^n|a_i-a_iv_jv_j^T|^2\\ &=\underset{v_1,...,v_k}{min}\sum_{i=1}^n\sum_{j=1}^k|a_i-a_iv_jv_j^T|^2\\ &=\underset{v_1,...,v_k}{min}\sum_{i=1}^n dist(a_i,V_k)^2\\ &\therefore A_k=\sum_{i=1}^k \sigma_iu_iv_i^T=\sum_{i=1}^kAv_iv_i^T\\ &=A\sum_{i=1}^k v_iv_i^T=\sum_{j=1}^n a_j\sum_{i=1}^k v_iv_i^T \end{align*}\\\)

2. JL引理用ajU实现降维,同时保持大部分特征

3. mean方法用来线性放缩,median用来指数放缩;

4. 先算出E[X],Var[X],再用markov,chebyshev,chernoff bound放缩→指示变量法证明中位数的性质

5. Matrix Sketches中的Abel变换

PS:均值的另一种表示(展开成二重积分交换次序),\(E[Y]=\int_{-\inf}^{\inf} P(Y\geq \lambda)d\lambda\)


期中的教训

1. 考试的时候要求判断Matrix Sketch算法是否存在在i到来时,存在全为0的行,

因为想到\(||Ax||^2-||Bx||^2=\sum_{i=1}^n[||a_ix||^2+||B^{i-1}x|| ^2-||B^ix||^2]=\sum_{i=1}^n[||C^ix||^2-||B^ix||^2]\),如果存在一个时刻没有全为0的行,C^i=|B^{i-1}|,Bi为SVD再删除<=σ(k/2)的行,那么这个ai行就被扔掉了,于推导不符,因此选了不存在没有时刻全为0的行,(即使有也先作SVD再插入ai),一开始以为错了,反转~

2.LSH是说,将n个值a1,...,anhash到L个2k容器的容器中,

1)在L个2^k的容器中,E[Y]\le L,由markov不等式,P(Y>=4L)<1/4

2)如果有一个a*满足d(a*,x)<=r,那么它在L个容器中的投影和x的hash值都不等的概率<1/7,

那么查询4L个满足h(x)=h(a)的a,计算d(x,a)是否\leqcr,
以0.6的P,其中至少一个a有d(x,a)\leq cr(超过4L个y,d(y,x)\leq cr且h(y)=h(x)已被排除,至少有一个h(x)=h(a*)的a*,d(x,a)\leq cr),
如果没有这样的d(x,a)\leqcr,返回FAIL(卒),

PS:后来发现判断题和选择题出得挺好的,可以检验菜鸡有没有理解~~

3.\(P(Y-td>\sqrt d \epsilon)\leq e^{-\frac {\epsilon^2} {5}}\)(怀疑是不是\(e^{-\frac \epsilon 5}\)),群里有说log的用了得到E[Y]>=td(写反了),转成\(P(Y-E[Y]>\sqrt d \epsilon)\),用chernoff到\(e^{-2\epsilon^2}\),以为记不清的Gaussian Annulus可以,卒,

4. 最后一问,是不能同理的,大于和小于的情况并不完全一样,被我跳过去了,卒,好吧,我果然菜鸡,

我是小丑,菜鸡读书一定要静下心来呀,对我这样的fw,果然没有什么所谓的速度,只有一点点积累

(最后修改于 4 1 复制链接
红领巾“果然没有什么所谓的速度,不过是熟练度的累积”,说得非常好
立即登录,说说你的看法
wakuwaku 2022春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:很多

给分:

  • 出勤率(10%,无点名白给)+ 3次作业(3 * 10%)+ 期中考试(30%)+ 期末考试(30%)
  • 调分给满优秀率

课程内容:

  1. Singular Value Decomposition and Principal Component Analysis
  2. Johonson-Linenstrauss Lemma. Nearest Neighbor Search
  3. Locality Sensitive Hashing
  4. Probabilistic Counting, Reservoir Sampling
  5. Estimating the Number of Distinct Elements
  6. Frequent Items: Misra-Gries Algorithm, Count-Min Sketch, Count Sketch
  7. Matrix Sketches
  8. VC-dimension, PAC learning
  9. The Perceptron Algorithm
  10. Support Vector Machine
  11. k-means/median/center
  12. Coreset for Clustering
  13. Hierarchical Clustering

参考教材(和丁虎老师的参考教材差不多):

作业:

  • 6次作业,只有3次需要提交;
  • 需要提交的3次中,第一次难度一般,后两次难度较大;

期中/期末考试:

  • 不难,比平时作业还要简单一些;
  • 题量正常;
  • 题型包含选择、判断和若干大题,大题分值10分或20分;

教学:

  • 老师提供详细的手写讲义,可读性很好(注:指内容的可读性很好,字儿还是算了吧doge),和上课板书完全一致,与丁虎老师之前的讲义相比,感觉彭攀老师的课程广度和深度要大一些;
  • 大部分内容提供完整数学推导的课堂演示;
  • 讲课清晰明了,内容循序渐进,听课十分享受,收获很多;
  • 提供Classin直播,早课可以寝室在线听课(是好事!);

总结:

上课舒适有收获,作业加深课程内容,考试大放水送福利,这样的课程哪里找!

另外,彭攀老师的学术水平也比较高,在SODA、COLT、STOC上都发表过文章,大家不要都去找陈雪老师呀,你看看我呀!你看看我呀!

(最后修改于 3 7 复制链接
红领巾数学不好的欢迎吗(
wakuwaku回复 @………: 用到的数学知识大部分在线性代数和概率论的课上讲过,没有讲过的部分会在讲课的时候有单独的补充讲解,所以对于计科同学的数学水平还是比较友好的😀
红领巾回复 @wakuwaku: 哈哈,其实我是针对最后一段问的/滑稽
红领巾请问课程回放的链接方便分享吗?谢谢~
wakuwaku回复 @………: 完整的讲义和回放可能找老师要要好一些,有最后一节课老师讲自己研究方向的视频应该放在网上没有问题 https://live.eeo.cn/pc.html?lessonKey=1a164174f5e6bf7c
红领巾回复 @wakuwaku: 谢谢~
wakuwaku回复 @………: waku waku!
立即登录,说说你的看法
Alfheim 2023春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:一般

给个平均分。连着两年旁听了几次彭老师的这门课后,还是建议这门课的讲义、板书等都能汉化一遍,提高效率且降低学习难度,否则很难体现上课比自学的优势。

2 0 复制链接

彭攀

教师主页: 戳这里

其他老师的「大数据算法」课

丁虎 8.3 (7) 2021春 2020春
未知 3.0 (1) 2022春

彭攀老师的其他课

算法设计与分析 9.4 (5) 2022秋