| 选课类别:计划内与自由选修 | 教学类型:理论课 |
| 课程类别:本科计划内课程 | 开课单位:信息科学技术学院 |
| 课程层次:专业核心 | 学分:2.0 |
凌震华老师的《自然语言处理》课程主要教授NLP的基础知识和传统方法,涵盖语法、语义、信息抽取和机器翻译等。这门课的内容较为科普化,且全英文PPT让部分同学在复习时感到困扰。虽然教学内容与时下流行的深度学习技术稍有脱节,但对了解NLP的经典方法仍然有一定帮助。老师讲课清晰但语速较快,多数时间照着PPT讲内容,重点不太突出。
课程没有定期作业,而是安排了一次论文阅读报告,要求两人合作完成,字数较长。虽然选择复现或改进代码有加分,但似乎没有严格的代码检查或评分。点名是课程平时成绩的一部分,形式为随机传纸。
期末考试为半开卷形式,内容涵盖较广泛,包括Good-Turing平滑、HMM应用、贝叶斯分类、模型困惑度等。评分以期末考试和论文报告为主,具体比例通常为30%报告和70%考试。对于课程给分,部分学期内并没有调分的迹象,严格按照比例进行评分,有可能影响到GPA。
建议大四或不追求GPA的同学选择此课,因课程较为省心。没有作业和实验,仅有一篇论文和期末考试,适合用来水学分。而对于希望深入了解NLP新技术、实践经验的同学,可能不太适合。课程的知识深度有限,在评分方面,若期末表现良好,可以取得不错的成绩,但要注意平时点名。对于对NLP方向有浓厚兴趣的同学,选课时要考虑内容与应用的相关性。
课程内容主要是 NLP 里面最基础的知识,包括语法,语义,信息抽取,机器翻译等等。主要都是基于统计的传统方法,机器学习的方法讲的不多。
上课主要讲PPT,但 PPT 内容特别多,而且重点不太明确,导致最后复习的时候有点难受。
期末考试半开卷,今年主要考了 good-turing 平滑,HMM 的三个问题以及如何应用于 POS 标注,使用 CKY 构建语法树,PPMI,使用朴素贝叶斯+拉普拉斯平滑判断词属于哪个意思(注意拉普拉斯平滑各个参数的含义 ),tf-idf 的含义,如何衡量两个词语的相似程度以及 RNN 结构。
还是得说这种没有作业,没有实践的课学完了很容易有一种啥也没会的感觉,当然如果大四水学分的话可能还不错。
下面是我和 lzt 同学一起整理的期末考试用的 A4 纸,有一些要点可能没有整理到,也有可能包含一些错误,仅供参考。
首先这门课的PPT终于是中文了,可喜可贺。
有一个2人合作的5000字论文阅读,偶有传纸式点名。
考试是陈题大放送。
1.footbal与global的最小编辑距离,并在图中标明一条路径。
2.(1)给了N0,N1,N2,N3的值,用good-tuning求i=0,1,2修改后的计数Ci。
(2)给了三种不同值的困惑度,分别来自1元2元3元模型,问谁是1元谁是3元并给出理由。
(3)打乱测试数据困惑度上升还是下降并给出理由。
3.(1)词性与单词角度解释似然值与先验。
(2)HMM计算过程中使用的概率并描述。
4.(1)CFG与依存哪个树节点多,为什么。
(2)给出一堆规则,问哪些不合CNF并修改。
(3)在(2)的基础上,写一个超过6个单词的合理句子并画树。
5.(1)IDF公式,及使用其加权的原因。
(2)简述LSA计算过程。
(3)BERT相比Skip-gram的最大优势。
6.朴素贝叶斯分类器进行情感分析。5个句子两个正面三负面,问Unoriginal with no fun 情感。需使用加一平滑,有给出词汇表。给出的句子与测试句子都有未知词,给出的句子还含有停用词。
7.(1)IOB对N类命名实体分为几类,并解释每一类含义。
(2)机器翻译,给出主观评价客观评价指标各一种,并简述评价方法。
两次点名缺一次,听说扣不少分
上课几乎没去过,唯一去两次还有一次点名了)
今年稍有一点新东西加进来,但是也是科普
考试内容感觉每年都不变,pksq往年大抄直接拿过去就能用,往年题改一改就是今年题。
没作业但是有结课论文,一不小心和partner选到了用神人lua版本torch写的代码,只能自己从头开始写,写完也没交代码,也没git,这么一看应该也没人看)只贴了个结果上去甚至结课论文忘了写名字。。。
给分今年是不是捞人不卡g了,正好90,课用来水学分非常适合,如果你和我一样不缺g保研和不想保研,那建议选,b事很少,还容易及格。
还没考试,但是想先说说自己的想法:
首先,对于计算机学院的学生来说,这门课相当一部分内容和大三上学期的web信息处理与应用重合,个人更推荐那门课(虽然23秋最后的考试成了按计算器大赛,但我想xt应该会改进;
其次,这门课没有作业没有实验,学分也只有两个,收获不大;
最后,老师会点名,而且并不像pksq说的那样会提前在群里通知。
总结:不缺学分且并不准备做NLP的别来。
边复习边感慨这课是真的out of date
没有作业,只有一篇综述的课程
感谢 @Fancy 学长/姐的A4纸
2022年秋季学期期末试题回忆版:(大体是比较全的,可能漏一些小问)
1. 生成所有列车号的FSA(字母开头+1到4位数字,第一个数字非0)
2.Teacher和Player的最小编辑距离
3.将上下文无关文法转换为CNF格式再用CYK算法算所有语法树
4.PPMI公式,相较于传统计数的优势;简述LSA计算过程;画skipgram网络结构并写出每层节点数
5.朴素贝叶斯算句子情感倾向(正/负)
6.HMM和马尔可夫链的区别,在POS中转移概率和输出概率的具体含义(结合单词和词性)
7.命名实体识别中准确率和召回率的定义;简述机器翻译中encoder-decoder结构以及相对传统方法的优势
8.困惑度的公式;打乱测试集单词顺序会导致困惑度升高还是降低及理由
个人成绩:从未听课,综述东拼西凑,最后复习了三天,总评85~90
给分比例应该是综述3期末7
课程评价:全英文ppt看得我头昏眼花,复习过程痛不欲生,除去复习过程此课算是挺清闲的,个人建议对nlp方向感兴趣(缺学分)的大四学生选,nlp领域深度学习大行其道的背景下本课程讲述的大量传统方法不可谓不拓宽视野
课程内容和考试内容楼上已经说过了,不再赘述
只有一次点名(而且提前一周通知)和一次论文阅读报告作业需要提交,对大四水学分的同学十分友好
期末考试半开卷,建议打印PPT上所有计算相关的部分(n-gram语言模型、HMM、朴素贝叶斯、PPMI...etc),都很有可能出题,但是这课只开了两年应该找不到往年卷
老师上课讲的还是很不错的,最后一节课也请了产业界的师兄来做报告,但是没有任何的实验/作业导致课程更加接近科普性质,不能指望学到任何实际的NLP
给分是点名10%+报告20%+期末70%,显然没有调分,据助教消息今年一个4.3都没给(还卡我94),对大三同学的GPA非常不友好,不建议在大四之前提前选这门课(或者像我一样当自由选修来上)
今年阅读论文报告改成两人一队,5000字+了,复现/改进代码有加分。
会点名,点名计入成绩,期末不调分
全英PPT,复习无从下手
考试内容全是评课社区提到过的
如果PPT不变的话,我觉得实在没有选的必要,复习过程就像无头苍蝇一样乱撞
内容太多了,看不完,根本看不完。
给分是真的非常一般了,疑似一点不调分,全看期末考,大作业感觉没啥影响
考完赶紧来划考试范围啦,大体和学长说的没差,第一题动态规划求football和global的编辑距离,然后问hmm的概率类别(没太懂),训练hmm,硬件条件都相同,训练结果会不会不一样。朴素贝叶斯让你给UNoriginal with no fun来分类,而且用加1法。问了如何评价机器翻译,有人为标准和客观标准。还问ibo什么意思,类别数2n+1.
另外谈一下课程,课程不太好的就是用英文ppt,无论上课还是复习都看得晕乎乎。总之课程没什么问题,作为大四课,压力比较低,考试难度也一般吧,毕竟是半开卷。最后感谢学长的a4,帮了大忙!!
这门课如前面几位同学所说,讲授的是NLP领域的基础知识和传统方法(至少我上的时候是这样)。想了解BERT等前沿工作的同学可能会有所失望了233。
课程有一部分参考了Speech and Language Peocessing的内容(https://web.stanford.edu/~jurafsky/slp3/),重在介绍多个NLP领域的方法和思想。个人感觉学习这方面的知识还是很有必要的,就像做CV要了解SIFT一样,做NLP了解tf-idf方面的知识和思想也很重要。
老师语速比较快,但是讲得很清晰,看得出来对相关知识非常熟练。另外看得出来老师很注重反馈的,比如上一届有同学写希望有更多实践,我们这届就有大作业了。老师根据同学的情况提供了编程作业和论文调研两种类型供选择。都是一些很经典的工作(当然年代有些久远)。自己实现一遍编程作业还是能有很多收获的。另外建议老师之后也可以多加一些前沿内容。
我大四选的这门课,最后过了一遍PPT有87,感觉给分还行。对于之后准备做NLP的同学,强烈推荐。
选课建议:
本来也就是开在大四的课程,各位AI班的同学和感兴趣的同学大四选就行了,大三选属实浪费时间。
上课水,老师照着ppt念,ppt内容多,下面没几个人在听的。主要是把 NLP 的各个细分领域过了一遍,科普介绍性质,感觉离实际应用有点远。没有作业和实验学不到什么真东西。
期中一次3000字+的文献调研报告,期末考试考全部ppt内容。平时点了两次名,点名之前会在群里通知。给分3:7,目测没怎么调。
总之这课留着大四水挺好的,看上去不容易给挂。大三上有被拖绩点风险,毕竟期末占比大,考试内容没有划任何重点,偶然性很强。我平时分拿满,期末复习的挺细的感觉考的也不错,最后莫名奇妙只有3.7。
依托史这个,不如web一根
教的很简单,被之前的课程全部覆盖
考得很水,都提前交卷的
给分一坨,刷新专业课gpa下限
有点名,别翘
这门课的优点就是事情比较少,没有作业,没有小测,结课也比较早,期末开卷,所以上课的时候大可以干其他的事情,考前几天突击复习也没有问题。缺点就是给分不透明,论文调研、期末考试的成绩都没有出,直接出的总评,内容和大三上的web信息处理与应用高度重合,所以上过web的同学可能也学不到多少新的东西。
课程的考核方式就是点名+论文调研+期末考试。因为没有作业,所以点名的占比可能比较大,形式就是一张纸写名字向后传。论文调研是从NLP相关的论文中选择一篇进行阅读,然后写阅读报告,可以两人组队完成,复现改进代码有加分。期末的内容和往年的试卷相差不大,但是也会有两三道新题的加入,比如今年的试卷就考了BERT相关的内容,建议考试之前过一遍课件,然后在评课社区已有小抄的基础上,把往年的题目也打印在小抄上。
及格分,其他不赘述了,评课社区很全了,课程内容还是比较老,给分个人感觉一般,主要考试感觉还挺良好的,但没有达到预期。
随机点名和考试的唯一目的,是区分出正态分布,不看给分还是可以的。
105个人的课只有一名助教,辛苦了,只有一个阅读报告的目的是减轻助教压力,
但还是要给0分:不给统计、不汇报分数(大概知道卷子是怎么改的了)
期末4计算+1论述,题型基本没变,前面有同学已经说了题目了就不赘述了,如果突击复习建议看看往年题就行,建议主要看看计算部分。
这门课最屑的就是全英PPT,对于一学期没听过课的人来说极度不友好,考前复习突击看不了一点
点了两次名,第一次由于从来没去上过课所以过了一个月才知道点了,第二次去了,点名形式是发一张纸传递签名
最后考试四道计算题每道计算题十五分,还有一道论述题,分别是求最小编辑距离、求aaaabbbcccdb这个字符串的bigram及其拉普拉斯平滑及good-turing平滑后的结果;求CYK语法分析树;给出bank的两种词义(第一种3句话,第二种2句话),让你构建一个朴素贝叶斯分类器辨别一句话中的bank是哪种词义;最后一道论述题基本与往年类似,考到了PPMI、语义相似度的三种判断方法、encoder-decoder神经网络的基本原理以及说出一种主观评价方式和一种客观评价方式、以及hmm和马尔科夫链的区别。
最后悔的就是没有把往年题都抄在大钞上,如果全抄了论述题四十分直接拿下,大钞用的是祖传的,但百分之八十的内容都没用上;自己抄的基本都用上了,但还是觉得不太够用。
这里传一份自己搞出来的根据评课社区说的往年题的答案,仅供参考,不一定正确,希望对后来者有用
目前还没出分,我目前的评价是可以选来水学分,因为没作业没实验只有一篇报告和一门考试和两次点名,最后考试要是复习对路还是能一天搞定同时比较容易过的。
这全英杂乱ppt看的脑袋痛,也没有作业,点名也没通知,考试更是一无所知道,讲的东西也很过时,只能说慎选,学不到什么东西。
出分再补充。
首先是基于前人文档修订后的小抄,添加了聊天机器人的章节和部分修改。
50469c02497f04b1874043b4063003b656d2a0bb.docx
考试只能说,确实和pksq说的一样,都是计算题,而且就那几种计算,几乎一模一样。感觉整理的小抄没什么用,还不如只印计算部分和tf-idf之类的pksq提到的知识点。
上课前面去过,后面太困了就没怎么去过了,感觉实际上去了也只是看PPT。
这个课有一个缺点是选的人太少了,20个人*0.4也就只有8个人能上优秀。
以及据我所知优秀线下给分不太好(听说了几个1.x?),优秀线上不清楚,自己考试大部分题目都写出来了,但也只是勉勉强强3.7 。
想了解下传统NLP还是可以的