选课类别:计划内与自由选修 | 教学类型:理论课 |
课程类别:本科计划内课程 | 开课单位:计算机科学与技术系 |
课程层次:专业选修 | 学分:2.0 |
数据科学(Data Science)是关于数据的一门新兴科学,旨在研究探索数据规律及其相关的理论、方法与技术,并为自然科学与社会科学研究提供支撑。随着大数据时代的来临,数据所蕴含的巨大价值正日益受到关注,高效、准确解读数据已成为关系国计民生的重要问题。本课程面向全校对基础数据科学有兴趣的本科学生开放,将通过理论教学、案例分析与课题实践相结合的方式,全景介绍数据科学及其主要分支的基础概念、基本方法、应用实践与前沿概况,从而使学生树立运用数据和相关算法工具解决实际问题的基本思路,并初步掌握用于数据分析手段解决实际应用问题的能力。
《数据科学导论》课程由黄振亚老师主要负责授课,陈恩红老师仅进行绪论部分。教学形式以PPT为主,内容从数据预处理开始,探索数据特征并进行建模分析,还包括部分专题内容。黄老师授课生动,结合实际应用讲解,易于初学者入门。该课程内容涵盖面广,但较为基础,难有深入探索,适合作为数据科学领域的初步了解。
课程作业包括一篇调研报告和一个实验报告。调研报告自选方向,建议与机器学习或数据科学相关,需至少4页,建议选题适当控制。实验部分学生可参与团队比赛,如Kaggle竞赛,注重实验过程和方法总结而非最终结果,这为学生提供较好的实践体验。
课程没有传统考试,评估主要由调研报告、实验报告及上课参与情况构成,课堂小测及点名较为频繁。给分普遍较好,适合对选课要求不高的学生,尤其高年级需学分者。
总体而言,《数据科学导论》课程教学轻松,实践性强,适合希望初步接触数据科学的大二学生和需要积攒学分的大四学生。虽然内容广泛但不深入,但能通过参与实际竞赛提升数据处理和分析能力,推荐有兴趣者选修。
今天出分了,来写个点评,这是一门公选课,课程任务主要包括:一篇文献调研,一篇实验报告(实验可以组队打CCF的比赛,也可以一个人找个感兴趣方向做实验,最后以实验报告的形式给出自己的实验过程以及收获)。另外上课会偶尔以小测的形式签到(小测主要是PPT上的一些简单问答题,有手就行)。黄老师讲课讲得真的很好,耐心负责,PPT也做得很OK,对于那些入门数据科学的同学很友好,所以有感兴趣的同学快来选啊!!!我是组队参加了CCF的比赛,也没有很卷,就按部就班的写了文献调研、实验报告,最后喜提4.3!
比较适合大四却缺少学分的,2学分到账。
整个学期都由黄老师讲课,黄老师讲课特别有激情,讲课内容也很丰富,会根据学生情况调整讲课内容。
作业:一共有2个作业,一个是调研报告,要求写至少4页,一个是实验报告。调研报告自选方向,读论文。实验报告的话,老师给提供建议选择的实验比赛,可2人组队,主要强调实验思考及其优化的过程,不过分在意实验结果,最后提交一份实验报告及其代码即可。
老师会考虑到其他课的期末考试,在15周左右会要求提交实验报告,最后一周老师会找几个调研报告和实验报告写得好或者新颖的人进行分享。
给分主要由调研报告、实验、上课情况三方面构成,因此课上偶尔会有小测。
最后,给分也不错。
这门课虽然挂了两个老师的名字,但实际上陈老师只在第一节课上讲了些绪论性质的内容,主要还是由黄老师负责授课。讲课以 PPT 为主,PPT 可以在 课程主页 上下载。个人觉得黄老师讲课还可以,就是有个口癖在说到新名词时会重复一遍,感觉有些怪。
课程内容上,除了一开始的绪论,之后就是按照拿到数据之后进行分析的顺序,大致分为预处理、分析数据统计特征、挖掘数据背后信息形成模型三大步,此外还有两次小专题。每周一次课,一共十八周的课,应该是有两次小测和倒数第二次课的一次点名。
这门课没有考试,只有两个任务。一篇个人调研报告,与数据科学相关即可;一次三人小组打比赛,提供了一些 Kaggle 或是别的平台的比赛供选择,交一份实验报告。比较好的是时间给得很足的同时又没有把 DDL 拖到考试周。最后一次课上老师请了三位同学讲调研报告,三组同学讲比赛。
收获上,课程的内容还是不错的,就是有些在别的专业选修课上已经学过了。而更大的收获是完整地参加了一次 Kaggle 比赛,比赛中体会到了很多之前没有注意过的或是从没有学过的内容,虽然比赛结果不算好,但这种实践的经历还是很宝贵的。
以下内容不计入评课:
助教:一共是三位助教,学期中有次课由一位助教来讲了下 Python 的实验基础专题,此外队友问助教问题回复还挺及时的。
给分:不过助教好像是在某次有人进课程群打广告禁言后就忘记再打开了,所以看不到讨论不知道总体给分情况。个人感觉挺好的。
都快过年了,怎么还不出分,是我的教务系统坏了吗:p
为啥课程群还全员禁言了
黄老师讲课很有激情,而且讲的时候经常能结合实际应用来谈数据科学的各个方面,不论是信智人还是其他专业想了解交叉方面的都有收获。不过毕竟是一门导论性质的课程,很多东西只是浅尝辄止,不会深入讲解。
一次调研报告,自由选题,只要是和机器学习/数据科学相关的都可以,建议找一些交叉应用或者是前沿热门方向,比如大模型。字数要求是双栏(IEEE会议格式,提供Latex模板)4页以上,写起来发现这个字数要求真是蛮多的,所以选题要慎重,太大或者太小都不好。我写的是大模型代码生成方向,主要依照一篇中文综述来发散找论文,整个过程花费了一周左右,还是蛮有收获的。
一次实验,两人组队或者单人完成,提供3个建议选题,都是Kaggle上的竞赛或者是练习题。是传统机器学习方面的,3个选题分别是多分类、二分类和回归,每个题目也有各自的特点。传统机器学习实践的内容还是挺好上手的,而且Kaggle平台也提供开源方案供学习(包括正在进行的竞赛)。我们组选的是正在进行的一个竞赛,也差不多花费了一周,结果公开测试集上排名2000+,最后隐藏测试集上直接冲到27,拿了个银牌,捡大漏,已经写进简历里了 >﹃< 主要是控制过拟合这方面做的比较好,当然,对课程本身来说不要求在竞赛中一定要取得怎样的成绩,只要在报告中说清楚针对这个任务采用了哪些方法就行。
另外,小测和点名可能有五六次,还是蛮多的,建议到课。总之,给分不错,负担不重,有一些收获,推荐选课
点过几次名,照着祖传代码写个大作业,给分巨好
利益相关:开学给出的给分公式:课堂(30%) +调研报告(30%) +实验报告(40%),但是由于其中每一项的得分都是不公开的,所以不知是否是按照公式给分。就个人情况而言给分蛮好的(即使是在我翘了最后一节课又刚好点名被抓的情况下~ 总之,这门课非常适合高年级学生去水学分(不过据说之后就不再算作核心通识的学分了?)
上课:由于之前选修过连老师的《机器学习概论》,说实话这门课我一直都没怎么认真听(狗头保命),感觉大体是机器学习的入门版本,也不怎么数学,大二萌新听一听应该比较舒适~ 点名的方式是做题,大概有3-4次,好像有决策树划分、极大似然估计与贝叶斯估计,还有一次记不太清了…….
作业:完全没有!!!
调研报告:要求是和AI沾边都可以,可以是聚焦于一篇论文写自己的总结和思考(不过应该比较难写),也可以就一个子领域作一些整理和归纳(这个想摆的话找篇综述翻译翻译就有了,想卷的话发挥空间也很大)。调研报告写得好会被选出在最后一节课作汇报,据助教gg说可以加分~ 从个人情况来看貌似不太追求子领域的新颖性,总结几十年前的东西也是ok的~
实验报告:就是参加一个机器学习比赛(也可以自己找问题做实验,不过老师不推荐~)然后写报告反映比赛经历。赛题难度选择也很自由,简单的可以选二分类这种,复杂一点的有推荐系统,时间序列相关的。要求是模型可以调库,不用手写(当然如果用SOTA方法就未必有库可调了hhh~)与调研报告相同,实验报告写得好也会被选出在最后一节课作汇报并加分
总的来说,无论是大二萌新入门还是大四用来水学分,这课还是值得一选的