选课类别:计划内与自由选修 | 教学类型:理论实验课 |
课程类别:本科计划内课程 | 开课单位:计算机科学与技术系 |
课程层次:专业选修 | 学分:3.5 |
数据是信息与智能学科科研和应用中十分重要的资源,对数据隐私安全的保护应贯穿于数据采集、传输、处理、存储、应用、销毁等各个环节,因此数据隐私的相关理论和技术是信息与智能学科同学知识体系的重要组成部分之一。本课程介绍了数据隐私安全相关的主要理论、方法、伦理和应用技术,包括同态加密、安全多方计算、多类型隐私的定义、数据可用性度量、数据脱敏机制和算法、隐私攻击方法、差分隐私的理论和方法、数据隐私相关的伦理和法律条例、各类型数据的隐私保护技术,以及保护隐私的机器学习等内容。同时课程实验将面向实际应用和真实数据,实现并分析安全多方计算和数据脱敏的相关算法,以及保护隐私的机器学习模型。
张兰老师的《数据隐私的方法伦理和实践》课程通常被学生评价为有较高的严谨性,内容多引用学术论文,涵盖范围广泛,包括传统隐私保护方法、差分隐私、密码学基础及其在隐私保护中的应用等。评课者普遍认为该课程内容偏抽象,PPT常为英文且略显简陋,但老师讲解认真负责。在教学方法上,部分学生表示课程略枯燥,主要以PPT授课,少部分板书辅助,整体讲解较少生动。
作业与实验被认为是课程的重要组成部分,评课者表示作业难度适中,需通过查阅相关论文或课件完成。实验框架常有更改,但难度低于作业。作业偏理论,实验涉及实操,主要包括DP-SGD、同态加密等内容。虽然部分学生抱怨实验框架不够完善,但总体作业和实验给分合理,助教在实验中提供了基础框架,只需填充代码即可。
本课程没有期末考试,评分由签到、作业和实验组成。根据多位学生的观察和反馈,评分严格按照学期初设定的比例(如10%签到、50%作业、40%实验)进行,作业和实验的得分高者多能获得优秀。虽然课程要求较高,但缺乏考试的形式让其成为相对压力较小的选择。
学生对课程的看法不一:部分学生评价课程对隐私保护的概念介绍清晰,且内容前沿,适合对数据隐私感兴趣的同学选修;另一方面,也有学生觉得课程的灵活度不佳,上课体验和课程资料易产生困惑。
总体而言,尽管课程内容复杂,但适合有相关背景知识的同学深入学习,尤其对想从事数据隐私方向研究的学生有帮助。教学形式虽然略欠灵活,但课程设计和评分机制让其成为一个较为公平且有深度的选修课选项。
给他一个一百多行的“实验框架”,他能给你发两三个群公告修改;给他一个advanced composition,他能给你翻译成简单组合性质;他只需略微出手,便能让你对 dp-sgd 调参调个几小时;他甚至不维护代码版本,让整个计科学生都不禁为之一颤;他就是你素未谋面的 DWork 大师所创造的 Data privacy 在中国科学技术大学开设的数据隐私的方法伦理和实践课程。古希腊数学家阿基米德在给埃拉托斯特尼的信中这样写道:当他在课程群中又发群公告修改实验框架的那一刻,属于我们的时代就要结束了;西方哲学家、逻辑学家罗素曾言:当课程群对同学们的疑问置若罔闻时,我就知道我所撰写的《数学原理》中的数理逻辑也不过是狗屁一通。三体人都不禁感叹:如果他能来教我们数据隐私,那困扰我们多年的三体问题,将迎刃而解。著名战忽局局长张召忠曾言到:数据隐私界不能失去 dp-sgd,就像李云龙不能失去意大利炮。德国著名数学家高斯曾评价道:世人皆称呼我为数学王子,而我愿称呼dp-sgd 为数学王者。美国五星上将麦克阿瑟曾表示:在他面前,不敢自称将军,毕竟我只带领了几十万士兵,而你永远数不清他修改了多少次实验框架。大型纪录片《数据隐私 dp-sgd 实验》持续为您播出!
还没有给分,这里先放个我写作业时所查阅的论文和博客。Bookmarks.pdf,通过搜索和整合这里的信息(或者PPT?),作业题一般都是可以在可控的时间内做出来的,基本不存在绝对的难题。这里放一下我第二次作业的时间(注意是仅仅敲latex的时间,想做完作业一定要留够充足的时间)。一般来说,第一次和第三次的作业不会超过这个时间。如果你使用手写或者md的形式,一般来说肯定不会比这个长。另外实验肯定是不如作业难写的。
既然大家说为了鞭策之后的助教出新题,这里就放上作业实验:https://github.com/Melmaphother/ustc-course-resources/tree/main/%E6%95%B0%E6%8D%AE%E9%9A%90%E7%A7%81
作业基本 95+,实验第二次扣10,不知道为什么。。。。
——————————————-
2月22号(正月十三)出的总评,从我个人的成绩来看 老师确实是按ppt的分数占比给分的(大概好像是10平时 45作业 45实验?有点忘了但大差不差)没有下调或上调 这一点加1分。
不得不说这课真的开的稀烂……
上课可以说是约等于念ppt,偶尔有些讲解。比较抽象的是会时不时问同学问题,还让举手hhh。明明都没几个人听,还在这玩尬的,自己讲的也没有那么生动,不知道这么做出于什么心理。
作业基本就是搜索大赛,作业里有的ppt只有个泛泛的介绍,想要弄懂看ppt是不可能的。ppt内容很多来自https://www.nowpublishers.com/article/DownloadSummary/DBS-008,随便找个US好点学校的ppt都比这个ppt强。作业里也有很多都是论文里的结论让你证明……
实验目前只布置了一个,具体有多少个目前还不清楚。就这第一次实验我只能呃呃,代码框架改来改去,实在不清楚助教的水平。由于是没有期末的课,估计最后给分会比较看重实验报告(要求比较多也还算合理吧。
总之就是:目前布置的两次作业和一次实验,都有布置完了之后再修改的情况,写作业/实验的体验也不算很好。上课和ppt也是依托答辩。不建议对privacy没有强烈兴趣的人选,有这功夫还真不如去跟大数据卷ML。
之前事太多没有去搞lab1,幸好加上报告才正式写了两三天。大佬们估计也是赶ddl(今天lab1的ddl),看不惯助教那坨狗市代码框架了(当然代码处理之前也看出有问题,没人说我就直接按框架做了),在群里直接发修改后的code🤣🤣🤣。
2.22 update
给分确实还可以(指作业+实验的给分),总评应该就是按比例算出来的,但是课就是依托答辩(不理解一出分就来刷一句好评的,甚至不愿意详细说说课好在哪里)。
今年的hw+lab如下:
https://github.com/Wloner0809/ustc-course-resource/tree/main/%E6%95%B0%E6%8D%AE%E9%9A%90%E7%A7%81
作业应该是没啥问题的,lab2扣了10分助教也未说明(可能是开放题没给分罢)
今年应该是张兰老师第一次开这门课,这里先上一个课程大纲(图源张兰老师ppt),供大家了解这门课大概包括哪些内容:
首先是课程难度,个人认为有以下几点:
1. 有一定难度:
2. 没有想象中困难:
其次是作业和实验:
再者是给分:
总的来说,对于数据隐私方向感兴趣的同学,非常建议选(其实也没有别的数据隐私的本科课了,算是弥补了一个方向的空缺),就算不是特别感兴趣,作为一门专业方向课也是挺好的选择,确实能学到不少东西,张兰老师上课也是比较认真负责的,一些概念会讲的比较清楚。作为本课的第一个评论,给10分!
老师讲课以PPT为主,但也会辅以板书补充。老师使用的PPT虽然模板还挺好看,但常常是从参考书或文献里截了图过来,所以看起来还是怪怪的。我个人觉得老师讲课还算认真,但听起来还是莫名有些枯燥。个人感觉听课好像对于仅仅过这门课不是很重要。
老师会点几次名,有让学生自己到前面来签到也有传签到表。
也可能老师听课有些枯燥不是讲课的问题,我做作业时看回放感觉讲得还是挺不错的。个人认为,一个课堂内容安排上的问题可能是前期花了好几节课在介绍枯燥无味的隐私定义,开学初的时候学生应该是学习热情比较高的,然后一连几节课都是那种听起来非常水的大家不太感兴趣的课,等真正进入有价值的知识时很多人已经失去了耐心继续听了。另外个人觉得老师可以考虑减少提及一些只提了一嘴的科研工作内容,加入一些可以多讲讲的实质内容。
数据隐私本身就比较抽象,如果加入太多吹水的内容,大家很难分辨哪些内容是有用的,哪些内容是看看就好的,最终结果是思绪飘远之后再回到听课上时,已经不知道老师讲到了哪里去了。
不过这门课对数据隐私的介绍还是不错的,别的评课讲得很详细,这里就不再赘述了。
三次作业,两次实验。但问题在于这门课的任务布置得都太迟了,期中之后才布置了第一次实验,第三次作业和第二次实验都是圣诞节后才布置的,ddl也拖到了1月21日。
第一次实验应该是今年新出的实验,框架本身也有不小的问题,多谢好心的大佬同学把一些修改发在了群里才能顺利完成。
作业的话有往年原题,也有不少新出的题目,难度不算特别大,但也得仔细查阅资料/观看回放才能完成,没有那种一搜就能搜到的题目。
实验都给出了给分标准,明确需要在报告里答到的内容。
作业与实验应该都在放假后出的分。
收获上,了解了差分隐私的各种计算以及一些密码学的内容,感觉如果要做相关方向研究的话还是挺不错的。
总体而言,没有考试的一门课,任务不算多,但完成作业实验的过程还是挺折磨的。想水学分的话可以考虑,想认真了解相关内容的不如去看看其他评课给出的链接。
以下内容不计入评课:
助教:五位助教,但感觉助教都不太上心,很多时候有同学在群里问助教问题都没人回应,还得热心的同学自行讨论问题揣度助教的想法。
给分:按照学期初的PPT给的公式 (10%到课+50%作业+40%实验)给分。
在做作业,感觉PPT做的很难懂,没什么意义的各种字堆在一起。
推荐知道什么知识点就别从PPT上看了,可以搜下别的地方的教材
举个例子,我感觉这个比PPT清晰不知道多少倍
https://www.cis.upenn.edu/~aaroth/courses/slides/Lecture3.pdf
实验一如其他同学说的框架挺烂的
实验二很好
综合评价
总体来说还是很推荐的。老师讲课很棒,课程内容算是一些科普,不会涉及到很难的东西,同时因为没有考试,就算真的有什么很难理解的地方其实也无所谓。老师也会很耐心地解答同学们问题。而且数据隐私与我们生活息息相关,许多内容都是很有趣的(但是两节早八课真的难顶)
课程相关
推荐理由
缺点
实验文档实在简陋,评分标准模糊不清「但助教实际给分应该还行」这点扣1分
上课用的PPT实在是有点乱,同时很多定义是直接来自于论文/英文教材截图,排版也不好看,这点扣0.5分
最后实验作业出分并不公布提交情况,虽然直接问助教会回,但是个人感觉这样不太好。这点扣0.5分
目前看来助教似乎不打算公布作业答案和评分?实验框架又挺抽象。想好好学这课得自己去找资料学,PPT一言难尽。总之这课感觉更像一门科普课?而不是一门专业课。
出分了,作业实验都有公布分数,似乎是按照PPT的比例给分,给分是真的不错。没有考试只有作业和实验,感觉还是可以选的。
实验有没有水平我不知道,但是写实验代码那个人绝对没什么水品
一点开项目两眼一黑,自定义好几个数据类型但是代码里连一个类型标注都没有,一个 List 是放什么数据的都要找一下,就这么信任我的 IDE 的吗 O_o。神人代码,看笑了,建议回去多练练。
出分了,来评个课~
利益相关:目测今年的总评是严格按照开学给出的公式计算的:签到10%+作业50%+实验40%,其中签到是随机的,一学期3-4次的样子;作业一共3次,实验两次。在妮可卷王丛生的环境下,没有期末考试没有大作业的课程一般给分都很难令大多数人满意,所以说这课给分还是很好并且客观的~
上课:一共有18次课,内容覆盖范围可以说是非常广泛了,具体内容主要包括K-匿名、l-diversity、t-closeness、(α-β)-privacy等一系列传统的经典隐私保护方法;隐私检测;DP与LDP;密码学基础以及在隐私保护领域的应用;基于机器学习的隐私保护(联邦学习,GAN等)。(其实张老师开始应该是想再讲讲大模型安全的,估计课时实在不够了就没有讲~)总体来说课程的性质比较偏导论(毕竟内容太多了hhh),在传统的经典隐私保护方法、DP与LDP、密码学这几个部分上相对更技术细节一点。相比于机器学习相关的经典书籍一大堆,隐私保护相关的经典书籍可就太少了。张老师一开始会给出4-5本参考书,其实个人认为课程内容是相当全面的,听课过程中如果对哪个问题比较感兴趣再去翻一下书就够了,没啥必要从头到尾看那几本书( 最后,个人认为这门课比较适合有基础密码学(或者初等数论)和机器学习基础,且对数据隐私保护比较感兴趣的同学选,否则可能在听密码学和联邦学习部分会比较蒙圈~
作业:三次作业分别对应课程中的三个重点:传统的经典隐私保护方法、DP与LDP、密码学。个人感觉作业出的还是比较与论文接轨的,尤其是第二次作业(最后一题好像还在原论文基础上做了一点小改动?)。作业比较考验数学(概统、数论等)功底,比较擅长数学推导的童鞋应该写起来舒适一点~
实验:第一次实验是使用DP-SGD的技术实现Logistics Regression+ElGamal 加密算法;第二次实验是VFL下的Logistics Regression。总体来说不算困难,实验报告的给分点也在实验发布的时候一并给出,很好地防止了大家嗯卷实验报告(对于大四摆烂党可能是弊端,因为不得不把要求的点都写在报告里?反正个人感觉写报告的时间是大于实验的~)个人感觉实验框架给的有点过多了,导致需要自己写的部分少之又少。建议像第一个实验那样的可以不给框架,明年第二个实验可以给今年的框架仿照着写SecureBoost,难度直接升级(狗头保命
总的来说这课作为计科为数不多的隐私安全方向的课,还是很值得选的,强烈推荐(同时也很适合大四人水学分hhh
老师很漂亮,大加分(bushi)
授课内容几乎全部来自于论文,几乎没有textbook会涵盖这些内容,某些作业题来自论文里的conclusion,证明则留作习题(恼)。ppt全英,让鼠鼠知道咱英语水平确实烂,ppt内容有点精简,example会比较少,做作业的时候啃ppt得啃很久,全靠听课估计没啥用,内容量忒大了
这课和作业是真的又多又难啊,鼠鼠hw1做吐了
省流:课很难,能学明白估计收获不小,不过建议好好掂量掂量
课程没有统一的教材,ppt做得也非常抽象,所以建议后面要选的同学们还是要听一下课的(尤其是每个模块开始的几节课,大都介绍基础概念,和作业题相关性较大),不然纯纯靠自己上网搜索也挺痛苦的。当然对自学能力比较自信的随意啦~
实验任务量其实很轻,不过布置时间临近考试周且实验文档略显抽象,导致整个完成过程不太愉快
给分应该是完全按照期初给的比例算的,作业实验占比九十,作业实验每迟交一周扣当次10%的分数。按时认真完成应该就能拿比较高的分数
总得来说如果上课都有认真听的话这门课算是轻松愉快事少给分好的了
出分了,很高兴当初选了这门课!没有考试,而且给分真的太太太好了!
因为没有考试,所以如果仅仅想拿到高分,只用把作业和实验涉及到的地方研究明白就够了(卷的方向很明确)。完全不用像其它课一样,期末复习时还要考虑各种细枝末节orz
因为宿舍里还有2个人也选了这门课,因此作业&实验都有人讨论。个人感觉助教给分标准比较宽松
唯一让人感觉不好的点是这学期每周的两次课全都是早八!这真是对大三壬的折磨......
然而后来发现签到真的很水,9点20下课后再过去都能签上
张兰姐姐yyds
老师上课很好,主线很清晰,如果上课跟着老师可以节省很多时间,但是因为这门课前后知识关联比较多,建议全程不要上课摸鱼,不然后来可能不止所云qaq。张兰老师一看就知道对这门课有着很深的理解,看得出来备课很用心,建议每堂课前增加一个对之前内容的回顾效果更加(当然我觉得课下回顾也是学生的必修课
课程内容还是挺有意思的,如果用矛盾论分析,这门课讨论的是数据可用性和隐私性之间的矛盾,为了解决这个问题,主要提出了加噪音和加密两个算法,其中加噪音提出了一个重要的概念:差分隐私,加密则提出了同态加密这个重要的性质。这门课重要的一点是告诉我们怎么从主观上对某种性质的认识抽象出数学严格定义,以及如何从数学严格定义中具象化实际物体的性质。
课程设计值得点赞,摆脱了科大计算机许多课程无聊的考试背多分以及低端内卷。设计的实验比较有难度,如果能够完成收获很大,助教设计实验看得出花了时间,尽管实验文档不是很完善,但是对于一门刚刚开的课还是非常不错的。
学习这门课,还是需要课下花时间,建议阅读老师课件后面提出的资料,阅读原汁原味的定义并结合上下文理解效果更佳~
个人对这门课还算满意,虽然平时上课没听但还是学到了一些东西的,相较于其他专业方向课应该算是比较阳间的一门课了(尤其是没有考试这一点)。扣两分是因为布置的实验给的说明实在是太少了,好多要求都得手动问助教/自己猜,而且实验不仅量大而且比较难(第一个实验甚至就是完全自主设计)。不过好好卷实验作业可以稳定拿高分,比期末考试一锤定音好到不知道哪里去了(