| 选课类别:计划内与自由选修 | 教学类型:理论课 |
| 课程类别:本科计划内课程 | 开课单位:信息科学技术学院 |
| 课程层次:专业核心 | 学分:2.0 |
凌震华老师的《自然语言处理》课程主要教授NLP的基础知识和传统方法,涵盖语法、语义、信息抽取和机器翻译等。这门课的内容较为科普化,且全英文PPT让部分同学在复习时感到困扰。虽然教学内容与时下流行的深度学习技术稍有脱节,但对了解NLP的经典方法仍然有一定帮助。老师讲课清晰但语速较快,多数时间照着PPT讲内容,重点不太突出。
课程没有定期作业,而是安排了一次论文阅读报告,要求两人合作完成,字数较长。虽然选择复现或改进代码有加分,但似乎没有严格的代码检查或评分。点名是课程平时成绩的一部分,形式为随机传纸。
期末考试为半开卷形式,内容涵盖较广泛,包括Good-Turing平滑、HMM应用、贝叶斯分类、模型困惑度等。评分以期末考试和论文报告为主,具体比例通常为30%报告和70%考试。对于课程给分,部分学期内并没有调分的迹象,严格按照比例进行评分,有可能影响到GPA。
建议大四或不追求GPA的同学选择此课,因课程较为省心。没有作业和实验,仅有一篇论文和期末考试,适合用来水学分。而对于希望深入了解NLP新技术、实践经验的同学,可能不太适合。课程的知识深度有限,在评分方面,若期末表现良好,可以取得不错的成绩,但要注意平时点名。对于对NLP方向有浓厚兴趣的同学,选课时要考虑内容与应用的相关性。
课程内容主要是 NLP 里面最基础的知识,包括语法,语义,信息抽取,机器翻译等等。主要都是基于统计的传统方法,机器学习的方法讲的不多。
上课主要讲PPT,但 PPT 内容特别多,而且重点不太明确,导致最后复习的时候有点难受。
期末考试半开卷,今年主要考了 good-turing 平滑,HMM 的三个问题以及如何应用于 POS 标注,使用 CKY 构建语法树,PPMI,使用朴素贝叶斯+拉普拉斯平滑判断词属于哪个意思(注意拉普拉斯平滑各个参数的含义 ),tf-idf 的含义,如何衡量两个词语的相似程度以及 RNN 结构。
还是得说这种没有作业,没有实践的课学完了很容易有一种啥也没会的感觉,当然如果大四水学分的话可能还不错。
下面是我和 lzt 同学一起整理的期末考试用的 A4 纸,有一些要点可能没有整理到,也有可能包含一些错误,仅供参考。
首先这门课的PPT终于是中文了,可喜可贺。
有一个2人合作的5000字论文阅读,偶有传纸式点名。
考试是陈题大放送。
1.footbal与global的最小编辑距离,并在图中标明一条路径。
2.(1)给了N0,N1,N2,N3的值,用good-tuning求i=0,1,2修改后的计数Ci。
(2)给了三种不同值的困惑度,分别来自1元2元3元模型,问谁是1元谁是3元并给出理由。
(3)打乱测试数据困惑度上升还是下降并给出理由。
3.(1)词性与单词角度解释似然值与先验。
(2)HMM计算过程中使用的概率并描述。
4.(1)CFG与依存哪个树节点多,为什么。
(2)给出一堆规则,问哪些不合CNF并修改。
(3)在(2)的基础上,写一个超过6个单词的合理句子并画树。
5.(1)IDF公式,及使用其加权的原因。
(2)简述LSA计算过程。
(3)BERT相比Skip-gram的最大优势。
6.朴素贝叶斯分类器进行情感分析。5个句子两个正面三负面,问Unoriginal with no fun 情感。需使用加一平滑,有给出词汇表。给出的句子与测试句子都有未知词,给出的句子还含有停用词。
7.(1)IOB对N类命名实体分为几类,并解释每一类含义。
(2)机器翻译,给出主观评价客观评价指标各一种,并简述评价方法。
两次点名缺一次,听说扣不少分
上课几乎没去过,唯一去两次还有一次点名了)
今年稍有一点新东西加进来,但是也是科普
考试内容感觉每年都不变,pksq往年大抄直接拿过去就能用,往年题改一改就是今年题。
没作业但是有结课论文,一不小心和partner选到了用神人lua版本torch写的代码,只能自己从头开始写,写完也没交代码,也没git,这么一看应该也没人看)只贴了个结果上去甚至结课论文忘了写名字。。。
给分今年是不是捞人不卡g了,正好90,课用来水学分非常适合,如果你和我一样不缺g保研和不想保研,那建议选,b事很少,还容易及格。
还没考试,但是想先说说自己的想法:
首先,对于计算机学院的学生来说,这门课相当一部分内容和大三上学期的web信息处理与应用重合,个人更推荐那门课(虽然23秋最后的考试成了按计算器大赛,但我想xt应该会改进;
其次,这门课没有作业没有实验,学分也只有两个,收获不大;
最后,老师会点名,而且并不像pksq说的那样会提前在群里通知。
总结:不缺学分且并不准备做NLP的别来。
边复习边感慨这课是真的out of date
课程内容和考试内容楼上已经说过了,不再赘述
只有一次点名(而且提前一周通知)和一次论文阅读报告作业需要提交,对大四水学分的同学十分友好
期末考试半开卷,建议打印PPT上所有计算相关的部分(n-gram语言模型、HMM、朴素贝叶斯、PPMI...etc),都很有可能出题,但是这课只开了两年应该找不到往年卷
老师上课讲的还是很不错的,最后一节课也请了产业界的师兄来做报告,但是没有任何的实验/作业导致课程更加接近科普性质,不能指望学到任何实际的NLP
给分是点名10%+报告20%+期末70%,显然没有调分,据助教消息今年一个4.3都没给(还卡我94),对大三同学的GPA非常不友好,不建议在大四之前提前选这门课(或者像我一样当自由选修来上)
今年阅读论文报告改成两人一队,5000字+了,复现/改进代码有加分。
上课水,老师照着ppt念,ppt内容多,下面没几个人在听的。主要是把 NLP 的各个细分领域过了一遍,科普介绍性质,感觉离实际应用有点远。没有作业和实验学不到什么真东西。
期中一次3000字+的文献调研报告,期末考试考全部ppt内容。平时点了两次名,点名之前会在群里通知。给分3:7,目测没怎么调。
总之这课留着大四水挺好的,看上去不容易给挂。大三上有被拖绩点风险,毕竟期末占比大,考试内容没有划任何重点,偶然性很强。我平时分拿满,期末复习的挺细的感觉考的也不错,最后莫名奇妙只有3.7。
随机点名和考试的唯一目的,是区分出正态分布,不看给分还是可以的。
105个人的课只有一名助教,辛苦了,只有一个阅读报告的目的是减轻助教压力,
但还是要给0分:不给统计、不汇报分数(大概知道卷子是怎么改的了)
期末4计算+1论述,题型基本没变,前面有同学已经说了题目了就不赘述了,如果突击复习建议看看往年题就行,建议主要看看计算部分。
出分再补充。
首先是基于前人文档修订后的小抄,添加了聊天机器人的章节和部分修改。
50469c02497f04b1874043b4063003b656d2a0bb.docx
考试只能说,确实和pksq说的一样,都是计算题,而且就那几种计算,几乎一模一样。感觉整理的小抄没什么用,还不如只印计算部分和tf-idf之类的pksq提到的知识点。
上课前面去过,后面太困了就没怎么去过了,感觉实际上去了也只是看PPT。
这个课有一个缺点是选的人太少了,20个人*0.4也就只有8个人能上优秀。
以及据我所知优秀线下给分不太好(听说了几个1.x?),优秀线上不清楚,自己考试大部分题目都写出来了,但也只是勉勉强强3.7 。
想了解下传统NLP还是可以的