大数据算法(彭攀) 2023春 2022春  课程号:01118601
2023春 2022春  课程号:01118601
9.3(17人评价)
9.3(17人评价)
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:很多
选课类别:计划内与自由选修 教学类型:理论课
课程类别:本科计划内课程 开课单位:计算机科学与技术学院
课程层次:专业选修   学分:3.0
课程主页:暂无(如果你知道,劳烦告诉我们!)
简介 最后更新:

简介

算法与理论是计算机科学的核心领域之一。随着大数据时代的来临,传统的算法理论已经不能很好地解决人工智能、物联网、工业制造等领域所遇到的实际问题。本门课程主要介绍基于大数据的新型算法技术,如随机采样、数据降维、数据压缩、分布式计算、流数据计算、聚类、分类、随机优化等,以及相关的理论和数学技巧,如概率计算方法、vc维、通信复杂度、机器学习学习理论等。作为一门理论方向课程,帮助学生掌握解决大数据问题所需的理论和算法工具,为相关领域的工程实践打好基础。

课程大纲(暂定)

Dimension Reduction

  1. Singular Value Decomposition and Principal Component Analysis
  2. Johonson-Linenstrauss Lemma
  3. Nearest Neighbor Search
  4. Locality Sensitive Hashing

Streaming and Sketching Algorithms

  1. Probabilistic Counting, Reservoir Sampling
  2. Estimating the Number of Distinct Elements
  3. Frequent Items: Misra-Gries Algorithm, Count-Min Sketch, Count Sketch
  4. Matrix Sketches

Machine Learning Theory

  1. VC-dimension, PAC learning
  2. The Perceptron Algorithm
  3. Support Vector Machine

Clustering

  1. \(k\)-means/median/center
  2. Coreset for Clustering
  3. Hierarchical Clustering

Graph-Structured Data

  1. Random Walks and Markov Chains
  2. Sublinear-Time Algorithms for Graphs

先修课程 Prerequisites

  • 必须:数据结构,线性代数(B1)
  • 推荐:概率论与数理统计B

成绩

  • 课程成绩:本课程将会有若干次作业(其中3次作业记录成绩),一次期中考试和一次期末考试。最终成绩将由出勤率(10%),平时作业成绩(30%),期中考试成绩(30%),期末考试成绩(30%)综合得出。
  • 作业迟交:每次作业迟交一天将扣除该次作业成绩的20%;超过3天未交,该次作业记0分。

作业

每2个星期有一次作业,在www.bb.ustc.edu.cn上发布。其中需要提交并记录成绩的作业共有三次。提交作业时,请直接将电子版上传到www.bb.ustc.edu.cn。我们强烈推荐使用Latex作答(关于Latex的使用,可参考资料)。

学术诚信

学术诚信是所有从事学术活动的学生和学者最基本的职业道德底线,本课程将不遗余力的维护学术诚信规范,违反这一底线的行为将不会被容忍。作业完成的原则:署你名字的工作必须是你个人的贡献。在完成作业的过程中,允许讨论,前提是讨论的所有参与者均处于同等完成度。但关键想法的执行、以及作业文本的写作必须独立完成,并在作业中致谢(acknowledge)所有参与讨论的人。不允许其他任何形式的合作——尤其是与已经完成作业的同学“讨论”。本课程将对剽窃行为采取零容忍的态度。如果发现互相抄袭行为,抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。

教材和参考书

  • Foundations of Data Science. Avrim Blum, John Hopcroft, and Ravindran Kannan. Cambridge University Press, 2009. Online version
  • Sketching Algorithms. Jelani Nelson. Online version
  • Mathematical foundation for data analysis. Jeff Phillips. Online version
  • Introduction to Data Mining. Pang-Ning Tan, Michael Steinbach, Vipin Kumar.
AI 总结 AI 总结为根据点评内容自动生成,仅供参考

彭攀老师的《大数据算法》

考试与给分

彭攀老师的《大数据算法》考试相对简单,多数学生认为期中期末考试比平时作业还简单,题型包括选择、判断和若干大题。给分机制透明,出勤率(10%)、3次作业(各10%)、期中考试(30%)和期末考试(30%);结果是“调分给满优秀率”,也就是说多数学生得分很高。一位同学总评即为95,另有不少评语表示总评九十分以上。

作业

课程安排了6次作业,实际上只需提交3次。部分同学反映作业难度较大,但量不多。有学生指出作业题目基本是“照葫芦画瓢”,只要理解了课程内容就能顺利完成。另外,助教会在习题课上详细讲解作业题,有助于理解和复习。

教学水平

彭老师的讲解思路清晰,课程内容结构合理且循序渐进,同学们普遍觉得老师讲课“清楚明了”,并在课上提供了详细的数学推导。板书和讲义英文是一个常见问题,不过有同学建议只要“耐住性子”去看,便能发现讲义内容非常好。而且,助教也提供了部分中文笔记,虽然有些小错误,但无疑帮助了不少同学。此外,教师不强制到课,但还是希望同学们到课积极互动。

课程内容

课程前半部分讲授数据降维和数据流算法,后半部分覆盖机器学习和聚类。具体涉及到奇异值分解与主成分分析(SVD和PCA)、Johnson-Lindenstrauss 引理、本地敏感哈希(LSH)、概率计数、保留抽样、频繁项及其算法等前沿内容。部分同学认为内容更像是数学课,强调算法的理论证明,适合喜欢数学和理论的学生。

教材与教学资源

推荐教材包括“Foundations of Data Science”、“Mathematical Foundations for Data Analysis”和“Sketching Algorithms”。虽然有语言障碍,但老师提供了详细的手写英文讲义,并与上课板书一致。助教也做了部分汉化,大大降低了学习难度。课程提供Classin直播与录播,方便学生灵活安排学习时间。

总结

总体来说,彭攀老师的《大数据算法》是一门值得推荐的课程,上课内容丰富、讲解清晰,特别是有数学基础的同学会觉得收获颇丰。课程内容难度适中,但需要认真学习讲义和课上讲解。如果学生能够坚持学习,即使阶段性赶上困难,也能在考试和作业上取得好成绩。正如一位同学所言:“上课舒适有收获,作业加深课程内容,考试大放水送福利,这样的课程哪里找!”

排序 学期

评分 评分 17条点评

IMGiraffe 2023春
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:中等
  • 作业:很少
  • 给分:超好
  • 收获:很多

期中89,期末96,总评96。彭老师我的超人!

本学期学的最认真的一门课,这门课主要是一些理论性的算法讲解,前半学期讲的是降维和数据流算法,后半学期讲的是机器学习和聚类。老师上课思路很清晰,讲的很透彻,助教的水平很高,习题课准备十分充分。

课堂上到课人数确实很少,早八的那节课尤为明显,我认为最重要的原因就是材料的汉化问题,英文对于大家属实劝退,板书也是英文的话很难一下子抓住重点信息,回去看讲义也有可能面对一大串手写英文望而却步。但实际上只要耐住性子看进去了,就会发现老师的讲义写的很好,再加上助教无私奉献为我们提供的中文笔记(后期助教也很忙,停更也可以理解),是完全足够把这门课学好的。

正如其他同学提到的,难度:上课>作业>考试,从考试卷可以看出老师确实是希望我们可以拿到一个很好的分数,很多比较难的地方都没有考,还有很多作业题和讲义上给出、上课讲过的证明,如果看过并理解了,可以拿到一个很高的分数。

课程收获很多,对于机器学习的很多理解都更新了,对最近的导师面试帮助很大,希望汉化工作尽快完成。

PS:助教在学期中间反复提及的学术诚信,确实让人有一点不舒服,因为大家多多少少都参考了一些答案,但是完全可以推测出助教的气愤肯定是因为确实有的同学抄的太离谱了,甚至可能是直接把答案英文复制过去了,所以完全可以理解。

3 0 复制链接
账户已注销 2023春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:一般

给个平均分。连着两年旁听了几次彭老师的这门课后,还是建议这门课的讲义、板书等都能汉化一遍,提高效率且降低学习难度,否则很难体现上课比自学的优势。

3 0 复制链接
wakuwaku 2022春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:很多

给分:

  • 出勤率(10%,无点名白给)+ 3次作业(3 * 10%)+ 期中考试(30%)+ 期末考试(30%)
  • 调分给满优秀率

课程内容:

  1. Singular Value Decomposition and Principal Component Analysis
  2. Johonson-Linenstrauss Lemma. Nearest Neighbor Search
  3. Locality Sensitive Hashing
  4. Probabilistic Counting, Reservoir Sampling
  5. Estimating the Number of Distinct Elements
  6. Frequent Items: Misra-Gries Algorithm, Count-Min Sketch, Count Sketch
  7. Matrix Sketches
  8. VC-dimension, PAC learning
  9. The Perceptron Algorithm
  10. Support Vector Machine
  11. k-means/median/center
  12. Coreset for Clustering
  13. Hierarchical Clustering

参考教材(和丁虎老师的参考教材差不多):

作业:

  • 6次作业,只有3次需要提交;
  • 需要提交的3次中,第一次难度一般,后两次难度较大;

期中/期末考试:

  • 不难,比平时作业还要简单一些;
  • 题量正常;
  • 题型包含选择、判断和若干大题,大题分值10分或20分;

教学:

  • 老师提供详细的手写讲义,可读性很好(注:指内容的可读性很好,字儿还是算了吧doge),和上课板书完全一致,与丁虎老师之前的讲义相比,感觉彭攀老师的课程广度和深度要大一些;
  • 大部分内容提供完整数学推导的课堂演示;
  • 讲课清晰明了,内容循序渐进,听课十分享受,收获很多;
  • 提供Classin直播,早课可以寝室在线听课(是好事!);

总结:

上课舒适有收获,作业加深课程内容,考试大放水送福利,这样的课程哪里找!

另外,彭攀老师的学术水平也比较高,在SODA、COLT、STOC上都发表过文章,大家不要都去找陈雪老师呀,你看看我呀!你看看我呀!

(最后修改于 3 7 复制链接
红领巾数学不好的欢迎吗(
wakuwaku回复 @………: 用到的数学知识大部分在线性代数和概率论的课上讲过,没有讲过的部分会在讲课的时候有单独的补充讲解,所以对于计科同学的数学水平还是比较友好的😀
红领巾回复 @wakuwaku: 哈哈,其实我是针对最后一段问的/滑稽
红领巾请问课程回放的链接方便分享吗?谢谢~
wakuwaku回复 @………: 完整的讲义和回放可能找老师要要好一些,有最后一节课老师讲自己研究方向的视频应该放在网上没有问题 https://live.eeo.cn/pc.html?lessonKey=1a164174f5e6bf7c
红领巾回复 @wakuwaku: 谢谢~
wakuwaku回复 @………: waku waku!
立即登录,说说你的看法
smgj222 2023春
  • 课程难度:困难
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:困难
  • 作业:中等
  • 给分:一般
  • 收获:很多

  1. 课程内容:如课程大纲,包括数据降维、数据流算法、机器学习理论、聚类算法。以算法证明为主,伪代码为辅,无编程实验/作业
  2. 上课体验(5/5):
    • 老师不要求一定到课,比较开明。早八+bb直播录播=无早八=没听的课越欠越多,每次交作业之前才开始学(我有罪
    • 课程讲义、上课板书是英文,讲课中文95%,对于小白认真听还是收获挺大的
    • 老师讲课画图解释效果很好,但是需要自己梳理内容逻辑
  3. 关于老师(3/3):几乎全程板书,虽然不要求去上课,但是感觉老师还是希望到课的同学积极互动
  4. 关于助教(2/2):作业传bb但是会有订正,习题课复习+往年作业题,正在出课程中文笔记,造福后世了
  5. 给分情况(仅供参考,不计入点评评分):30%期末考试+30%期中考试+30%作业(三次)+10%考勤(无点名白送)
    • 作业有难度
    • 考试基本是作业题/往年作业题/概统题,难题占比不大

2 0 复制链接
npz7yyk 2023春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:超好
  • 收获:很多

这个课程难度之所以是中等是因为讲的东西很难但是做的和考得都是照葫芦画瓢的东西,所以中和了一下。

作业感觉不算多,毕竟6次只用交3次。

给分的话,反正我满了。

收获应该是本学期第二多的课程,思想学了不少,感觉还蛮不错的。

2 0 复制链接
lilili 2023春
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:很少
  • 给分:一般
  • 收获:一般

老师讲课清楚,助教认真负责。内容难度中等,作业量中等偏少,考试难度中等偏高。

讲一讲我不满意的地方:

1.老师手写英文讲义很难看,我本人不喜欢不给整洁美观讲义的老师。

2.助教过于强调学术诚信,也就是不准抄作业(其实大家还是会参考答案),强调学术诚信本身很正确,但是助教一直强调,而且措辞激烈,给人观感不是很好。

3.课程内容在我看来没什么用,本来以为是那种实用性很强的课,但实际上更像数学课。

但是这个课还是好课,感兴趣的可以找找往年讲义看看内容是否感兴趣再酌情选课。

给分暂时未知。


更新,给分太好了,期中80,平时没扣分,期末94,总评92超出想象,评价加一分。

(最后修改于 2 0 复制链接
匿名用户 2023春
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:超好
  • 收获:一般

占坑。 没想到期末居然是这个难度,感觉要向下调分了...

——————————————————

出分后更新:喜提4.3。倒也没多大惊喜,考完期末就知道总评不会太低。感谢老师和助教一学期的付出。

这门课的内容并不算很难,但是和ics一样,语言障碍给学习带来的困难>知识本身给学习带来的困难,所以中文讲义对学习的帮助非常大。这学期徐助教提供了中文笔记,但是笔记有一些小错,而且后半学期的笔记不完整,因此还是要依靠老师的英文讲义。建议大家在学习这门课之前,下一个自己喜欢的翻译软件。

相比于信智学部的其他课程,这门课对数学的要求更高一些,尤其是线性代数和概率论相关的内容。熟悉这两门课的同学学起来应该很轻松。另外,这门课的内容偏理论,不像算法基础学的那些算法,可以直接用代码写出来。也因此这门课没有任何实验。

最后,这门课很适合速成,把讲义理解透彻就可以获得高分。所以如果你是那种平时不怎么听课,全靠考试前一周“预习”的同学,那这门课适合你。

总的来说,这门课的内容还是很有意思的,推荐大家选。

(最后修改于 2 0 复制链接
Serendipity 2023春
  • 课程难度:困难
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:困难
  • 作业:很少
  • 给分:超好
  • 收获:很多

晚上考期末,来占个坑拉一下评分

是值得选的好课,老师授课也很不错

内容相对硬一些,但是应该没有上面那么夸张

考试和作业也很照顾同学们(大放水)

不适合做水课,但很值得选~

2 0 复制链接
匿名用户 2023春
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:中等
  • 作业:很少
  • 给分:超好
  • 收获:很多

期中期末都是90+  总评95

这门课是数学课啊,第一节课的时候彭老师就劝退说这门课很难,但是实际上来说,我个人认为和数学学院的课程对比,这门课算是简单的 (本人不是数学学院的,而且本人的gpa在计算机学院50%后面,平时非常摆烂,原本想退这课的,才发现我退课机会用完了,然后就硬着上了。。。)

 

这门课的预修课程基本没有,0基础就可以上,虽然名义上来说你得会,《线性代数》,《概率论》,不过你不会其实也可以上

这门课主要就是分析各种算法,主要讲的是证明。

这门课的内容比较少,但是老师上课进度非常慢,有时候一个证明讲一堂课,所以有很长的时间等你消化这个证明。

作业很少,就几次,但是作业难度还是挺大的

考试的难度,可能最后一题和作业难度持平,其余题目非常简单。

老师上课不点名,作业如果抄袭会面临极大的惩罚

 

要想学好这门课,其实很简单啊,就是你把老师的证明思路都理清楚就好了

准备考试的话,这门课内容很少啊,能出的就那几个,而且分期中和期末考试,期末考试听说是15%的部分考期中之前的,但是就我那次期末考试来说,几乎没有涉及期中之前的内容的。 所以考试前3天,把老师上课讲的证明过一下(VC-dim 那块的证明还是相当tricky的,但是我那次考试没有考这个证明),考试的话,主要还是以运用结论性质为主,证明的话基本不考。其实考试就是简单版的作业题。

 

 

1 0 复制链接
noname 2023春
  • 课程难度:困难
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:困难
  • 作业:中等
  • 给分:超好
  • 收获:很多

老师很好,助教态度也很好。有回放很好。 作业做了,有点花时间,好在数量不多。虽说迷之反复强调学术诚信,但本人也没地方抄… ꒦ິ^꒦ິ 复习得不好,所以考得差。助教们后来有做一些汉化,看得出是用心的。就是习题课为什么在考试前1天…好晚… ꒦ິ^꒦ິ

另:祈祷老师别挂我,还真没挂,感谢老师。老师在本人考试后发言 没做出几道题 以及 不太会写 时,表情似乎是困惑。老师讲课很好,很容易听懂。怪我不争气复习得少 ꒦ິ^꒦ິ 本人课实在太多了 ꒦ິ^꒦ິ Sorry,老师千万不要自我怀疑啊啊啊!

(最后修改于 1 0 复制链接
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:很多

虽然是开学时兴致上头选修的,没想到是本学期觉得最有意思的一门课了,先占个坑,考完期末再评。(希望期末向下调分不要太狠www)

1 0 复制链接

彭攀

教师主页: 戳这里

其他老师的「大数据算法」课

丁虎 8.3 (7) 2021春 2020春
未知 3.0 (1) 2022春
丁虎, 宋骐 3.8 (16) 2024春

彭攀老师的其他课

算法设计与分析 9.4 (5) 2024秋 2022秋
算法设计与分析 8.2 (5) 2023秋
算法设计与分析 7.8 (8) 2023秋