选课类别:计划内与自由选修 | 教学类型:理论实验课 |
课程类别:本科计划内课程 | 开课单位:计算机科学与技术系 |
课程层次:专业选修 | 学分:3.5 |
Web信息处理与应用是一门关于基于Web的信息处理和数据挖掘的课程,包括Web信息获取,表示及处理技术,Web挖掘技术,Web搜索技术,以及相关领域的最新研究及应用进展。
徐童老师讲课充满幽默感,经常结合PPT内容讲解复杂概念,课堂气氛轻松,时不时引入热点梗和段子。学生们普遍反馈老师上课内容充实,逻辑清晰,有助于理解和掌握课程要点。尽管课堂内容详实,部分同学感觉到信息密度偏低,认为一些内容可以更加深入。
课程围绕Web信息处理的各方面展开,包括网络爬虫、网页文字处理、网页索引、查询评估、网页排序、推荐系统、个性化检索、实体识别、知识图谱与图计算,以及相关的应用。重点在于如何抓取、整理、存储、搜索和提炼Web信息,并基于此进行知识推理和应用。
课程共布置了三次作业和两个大实验。作业包含计算题和简答题,旨在巩固所学知识。实验内容涵盖搜索引擎、知识图谱、推荐系统等实际应用,强调模型选取和实现。任务虽具挑战,但老师和助教给予充分支持,提供详细实验文档和辅助材料。
期末考试半开卷,以计算题和简答题为主,题量较大,部分计算量繁重,学生普遍反映时间紧张。考试内容紧扣课程重点,较大程度考察了学生对知识点的理解和应用。给分较为慷慨,不少学生获得高分。考试题目的设置使得卷面分布存在一些争议,认为应减少繁琐计算,提高选择填空题的比例以更合理地考察学生掌握情况。
学生普遍对徐童老师的幽默风趣、PPT制作和课堂风格给予好评,同时也认可实验的实用性和对编程技能的锻炼。但对于考试安排和题量有不同意见,建议适当调整考试形式和题量。整体而言,课程被评为具有很高的学习价值,尤其适合有志于机器学习、信息检索等方向的同学。
综上,徐童老师的《Web信息处理与应用》课程教学质量高,内容丰富,实验实用,推荐感兴趣的同学选修。但需注意课业负担和考试压力,合理安排时间进行预习和实验。
我来说两句课程吧:
1. 老师上课可谓是十分有趣,以可能引起极少数杠精群体不适的方式经常扯段子(甚至是ha学);时常在群里与同学们充分交流,拿到龙王那是常事;很能理解同学们划水的心情,并以不限制到课率但实验+作业玄乎其玄地方式引诱大家回到课堂,尽管效果很差。
2. ppt很用心,不是照本宣科而是辅助讲课使用,当然这也意味着其实ppt并不能很好地让你自行异步理解这门课程的内容。还是建议认真听讲(甚至笔记?)。另外ppt请勿外传,以免送命。
3. 请学会python+一定的机器学习应用经验(包括遇到一个问题怎么搜索模型、如何load数据、如何调超参)再来做实验。
临考前用了一次机会退课,不用手算tf-idf了,很爽(大雾)(舍友三人齐心协力搞了个4字号的一万多字A4纸,涵盖全部ppt考点,太惨了(我一个计网大抄五万字的人在说什么?))
给九分:老师的课程风格我蛮喜欢的,但总的来说,体验不是那么好吧;一定程度上是ppt的锅。
ps:老师是看评课社区的,半小时就被回复了(
虽然早就习惯了计科的nt助教,但是我还是没绷住🤣🤣🤣
2024.1.6 update
这尼玛确定不是考你怎么快速摁计算器???还真是“不用考的有多难,题多到连计算器都来不及摁”
考试题型有判断、简答、计算(简答是跟在每个计算题后面的)
一.判断(10*2分,没记住)
二.分词,倒排表的建立
三.tf-idf、tf-idfe,pr曲线,F1值(这题是所有题里面最恶心的,4分的一个小问算了快半个点)
四.PageRank、Hub、Authority
五.PCA(计算里面最简单容易拿分的了)
六.HMM(这个考的是基于HMM的实体识别,考前复习课也提到过,跟作业题里面的差不多,只是更难算……)
七.Item-base CF(跟课件上的例题类似)
总的来说建议好好听考前老师的复习课,知识点都在里面,而且不会考的应该都没出现在试卷上。
虽然但是,这种考试带上小抄也就是用在判断和简答题里了,所以感觉计算公式之类的可以记记,小抄多塞点别的东西进去。
2024.1.15 update
xt真的是神呃呃呃呃啊啊啊,考前发了两天烧复习得一般考的也就那样结果竟然出乎意料的好😭😭😭
不过仔细想想,对于不搞cs的人来说,这课在大三上学真的是种享受(起码复习都能看得懂),比起编译、算法这些专业课的体验要好太多了。
大伙都给我狠狠滴选!
说实话考之前就知道大题会考那些,就是没想到考这么多😄😄
最后一分钟放弃算了,开始算自己写了多少分,大概也就写了六七十分左右,然后还有一看结果就不太对的🤣🤣
说实话手算矩阵相乘真的难以理解,我想不到任何任何任何需要手算矩阵乘法的场景。
HMM五层加四状态,相当于每层算4×4个小乘法,七八十个简单乘法我感觉GPU可能挺快的😄
tfidf貌似要取余弦相似度,但我看tfidfe它没取以为tfidf也不用取,想到已经写了很久了,不想算了,最后才想起来要取,白给14分🤣🤣
感觉可以改成选拔人肉numpy。
说实话这张卷子可以放点选择题,又不是只有大题才可以考察知识点😅😅,这种大家都写不完+没有检查的余地的卷子它意义不就是谁主观题写得多就分高吗?
手动分割线
1月15日更新
不会因为给分而增高评分,我仍然坚持意见:试卷上不该出现太多简单却巨量的小学数学运算。选择填空也能考察知识点的掌握情况。
这门课的内容算是计科为数不多成体系且让你听懂的课了,构筑了搜索引擎的基本原理和部分ml的内容(知识图谱那里讲的太分化了,有的很简单有的看不懂),比计科的专业课的体验好很多。这学期由于带助教,经常上完第一节课就得跑去东区,所以基本都是校车上看PPT学的。至于实验,我们组是标准的三人,我大概负责了第一次实验的前两个阶段的部分内容和第二次实验的第一阶段的内容,感谢我的两位队友,本次配合算是实现了1+1+1>3的效果吧。
更具体的细节等考完试再补吧。如果后来的同学要选的话,建议考试的时候把主观题全填了,计算看着困难的开摆就好了,反正大家都算不完😂😂
这学期的 Web 课换了新的老师,所以课程的风格也和(我听闻的)以往差别比较大。包括作业、实验和考试形式都出现了很大的变化。
课程仍然分成了检索、抽取和挖掘这三个部分,但是侧重点有变化,比如说讲了多模态检索,没有讲逻辑回归。作业有 4 次,每次作业都是计算题 + 论述题(有些发散性)的格式。
实验分成了三个必做的(军 备 竞 赛)实验 + 一个开放实验。大概内容:
实验的整体感觉是:刷榜(军备竞赛)的形式给同学带来了一定程度的压力,我感觉最后花在 Web 实验上的时间都超过了自己花在编译实验上的时间。另外自己的一点感触是,现在人工智能的热潮,其实有些不怎么靠谱,吐槽原文就不贴过来了……
期末考试半开卷(以往都是闭卷)。相应的,考试题目量增大了不少,尤其是最后一题:布尔查询,TF-IDF,虽然有着送分题的表象,但做着就会发现要画一个超大的矩阵,每一项都要 TF-IDF,还要归一化,一下子就变成了 送 命 题。
最后给分很好,感谢老师和助教。
课程主要讨论下列问题
• Web信息如何获取?
• Web信息如何整理与存储?
• Web信息如何搜索?
• 如何提炼价值信息与知识?
• 如何基于知识进行推理应用?
一共有两次作业,每次作业量不大,分计算题和简答题。比较奇怪的是后半学期着重讨论的知识图谱部分没有任何作业。
计算题主要包括查询次序,倒排索引,调表指针,编码压缩,HMM,简答题比较主观,仁者见仁智者见智了,言之有理应该都可以的
计算题主要包括 Tf-idf,PageRank,查询评估,用户推荐,PCA,简答题部分回答方向其实老师上课多多少少提到了
我自己的实验仓库2022Web-Info (github.com)
爬虫、检索、推荐
构建知识图谱,感知推荐
10道判断题,2分一道;后面6个大题,全是知识图谱之前的,有一道PCA的题几乎是slides原题,只改了一个数字。考前老师说题量相较往年有所减少,不过个人觉得计算还是很花时间的,尤其是PageRank和Hub-Authority,三轮迭代算死我了,HMM只考了维比特算法,难度较小,判断题难度一般,我有两道不确定。考完觉得寄了因为计算不少没算,每题最后一问都在瞎编,自己写上去都觉得是在浪费助教改卷时间,一度觉得本科最后一门课要遗憾收场了。
出分了,期末76,总评96???狠狠地夸老师的奶力。
放一波latex大抄,涵盖了几乎所有考点,字体比\tiny还要小,黄色是一章的标题,蓝色是普通知识点标题,红色是重点计算考点,没有人会拒绝好看严谨的latex排版。当然这不代表可以不复习只看大抄,因为有些东西还是需要自己领悟的,需要tex源码可以私信我,qq: 2149730257。
知识图谱之前我认为徐老师讲课很棒,我也比较愿意听,每次都坐第二排中间。知识图谱部分我觉得讲课过于泛泛而谈了,感觉学不到什么东西,作业没有这部分内容,考试也只考了判断题。总体而言,老师还是不错的。
本来想给10分的,但2分扣在助教这里。往年题的答案至少有3-4个错误,助教没有思考直接原封不动作为今年的答案,而且还有一道新加的基于用户推荐的题,助教给的答案过程错了结果却是正确的。作业有一个正相似度只有一个导致相邻数对结果没有影响的小问题,问助教得到的回复是他那边没有题目,实验二有一个一跳实体要在578个可匹配实体中的问题,问助教得到的回复是他没有看实验。
刚考完,大四不在意成绩~~但是真的想问,这试卷的意义是什么??单考计算是吧,那为什么不放到小学初中去考呢😥还以为会延时呢…额额…无力吐槽。我觉得现在是:大家都“会写”,但都没有时间算;估计最后得分高的应该是把简答题都先写了的人🤭。应该是我本科生涯体验最差的几门考试了;不过也是最后一门了,无所谓了,希望之后能有所改进吧。 老师课讲的还是很不错的,也挺有趣的,人也很好。实验也挺好的。
老师讲课以PPT为主,但又不是念PPT那种,而是会结合PPT进行解说,有些比较复杂的地方(如隐马尔可夫模型)会板书。徐老师讲课还是很有趣的,看得出来是个冲浪大手子,各种梗信手拈来,但成也萧何败也萧何,个人感觉因为讲课梗的部分有点太多,反而显得信息密度比较低,总感觉认真听老师讲课有点浪费时间。老师一学期都没有点名,肉眼可见地,除了最后一节复习课,人数随节次单调递减,复习课那天的教室明显比前一周人多了不少。
总共十六周的教学内容,整体框架在第一堂课就给出,环环相扣,感觉还是非常清晰明确的。最后复习时回过头来,感觉这门课的知识点确实设置得很合理。
总共三次作业,两次实验。每次作业会有三四道计算大题和五道左右的思考题,后者言之有理即可。两次实验又各有两个阶段,第一次实验是爬虫检索加推荐,第二次实验是知识图谱加推荐,都是基于豆瓣出的。扣一分是因为感觉实验要求还是不够明晰,一些内容还需要后期询问助教才补充出来。实验难度不算大,而且老师强调不要内卷。
考试是这门课个人感觉最需要诟病的地方。老师在复习课上有画重点,当然大题倒也都是重点,但我觉得一张卷子出成这学期这样是绝对不能算合理的。
以下是回忆版:
1.(2*10) 十道判断题
2. a. 给出词典求 (1) 2-最短分词 “科大学生活动中心” (2) 正向反向最大匹配 “在学生会议室内开会” (3) 1-gram 模型
b. 给出五句英文和停用词表 (1) 建倒排索引表 (2) 求某个词的可变长度编码,分析相比不可变可以减少多少字节
3. 给出 TF-IDFE 的定义,给五篇文档,四个词,算 TF-IDF/TF-IDFE 两个方法下前三名输出,画PR@N曲线,求F1值,分析题
4. 给出 4 个状态转移图,求两次迭代的 PAGERANK 值和 HITS 算法的 authority/hub 值,分析题
5. 主成分分析
6. “我爱你中国” 5 输出 4 隐含状态的隐马尔可夫模型,分析题
7. 协同过滤,基于用户还是基于物品不记得了,分析题
这些内容难当然称不上难,但问题在于某些内容运算起来真的是非常耗时间,而分值又不大,某些算半天的题目可能分值和后面的分析题差不多。不知道考场上有没有人真的把每道题都写出来了,但我是觉得这张卷子的区分度真的不大,大家可能都没有办法把大题的结果完全给出来。两个知识点掌握程度差不多的人,一个会答题技巧,某些地方写公式,某些分析题先写掉,一个完全没关注分值,可能分数差很多,我想这应该是不合理的。
这学期的课堂内容以及课后的实验还是可以学到很多内容的,我自认收获不少。
这门课总体还是可以的,在计科专业选修课中算不错的了,事情不算太多,内容难度也不算特别高。不考虑考试,课程非常不错,考虑的话也推荐选一选,也许之后老师会改进呢?
以下内容不计入评课:
助教:感觉助教不算特别摸鱼,但个人对助教总体也不算满意吧。一个是习题课讲作业的时候有道题感觉第一个讲的助教完全没看过题目,讲的内容与题目驴唇不对马嘴,后来她喊台下的师兄(另一位助教)上台救场了。
给分:看这学期评课平均分从考完当天的4.8分涨到现在的7.4分,想来老师给分是很不错的。好像也不尽然,见仁见智吧。
一些资料分享,包括个人在 pine 学长源码上魔改后的大抄,这学期期末重点和一本参考教材。
看到有个评论说两道大题没写拿了4.0
我也两个大题没写(其实有一题写了半问),喜提3.3
卷面分没给,也不提供平均分之类的,更别提查卷了(好像也没必要查卷?
总之稀里糊涂地拿了个84,但这不是最气的,最气的是考试简直就是比谁计算器敲得快,而不是谁的知识点掌握得更好,意义何在?
这3.3拿的有点难受😭
出分了,给分全看期末考试是吧
鉴定为烂完了
问了一圈全是3.3
一定都怪没抠对计算器啊哈哈哈,后面忘了,反正忍俊不禁
(课是好课,给分只有一个字评价:💩)
昨天考完web期末,心血来潮留下一点评价
给分好坏等出分再说
先说总体印象:
私以为这门课程涉及到的内容相当宽泛(对每个知识点都浅尝辄止,非常适合作为大三专业导论课),因此我觉得这门课的内容还是非常不错的,结束这门课的复习后感觉还是了解到了不少搜索引擎、推荐系统的知识。
老师讲课很有意思,加分
老师上课从不点名,加分
作业只有三次,实验也只有两次,大概每次实验花一天就能写完,作业任务量也不大,加分
期末半开卷,不过这次期末太过阴间,大抄几乎没用到,扣分
期末题目难度不大,但是用计算量叠加,总共七个大题,除了第一大题是20分的判断题,后面全部为每题平均3个小问的计算大题,内容我看已经有其他同学给出就不再赘述。
考前专门温习了一下casio计算矩阵的过程,考场上计算器都要按废了还是没能写完(tf-idf的4分计算题要计算20个结果,后面小题还都要用到前面这个计算结果,光是这一道计算题就几乎耗费了我半个小时)
能写完的恐怕放以前都得是古希腊掌管计算器的神
所以建议考前能熟练掌握casio包括进制转换,矩阵运算,向量运算等等操作🤣
放个自己复习的时候整理的资料吧web期末内容.pdf
老师非常nice,上课很幽默风趣,而且很关心同学们的听课感受,虽然这学期是在线上上的课,但是仍然能感受到老师的用心
成绩占比:50考试+40实验+10作业
作业部分:本学期只有两次书面作业
实验部分:总共两个大实验,实验文档相当详细,最多可以三人一组,第一个是和爬虫和基于用户的推荐相关的,第二个就是知识图谱及推荐有关内容,实验所给的时间非常充裕,但是个别地方所需时间挺多,比如跑模型什么的,尽量不要卡ddl
总结:等一波考试成绩给分再来补评价,除去给分因素,本人是无脑推荐选课的
本人的实验仓库地址:https://github.com/zzx6869/2022-WebInfo
没评课社区说的这么神,不过不点名真是深得我心。
三次作业三次实验,不想卷的话还是很好水的,实验两天一个,作业一晚上一个。而且悄悄说一下,2021秋三个实验事实上只有第二个要训练模型比较麻烦,第三个实验直接用传统方法的效果比一般机器学习的方法好不少(用传统方法直接各项数据高于助教给的benchmark,帮我在期末周省了不少事)所以可以不要一拿到实验就去查有什么对应的机器学习模型,用用ppt里的传统方法说不定会更好嘛!
利益相关,喜提4.3,赛高你high铁鸭子哒!
老师水平还是很高的,上课也十分有趣,从特朗普扯到马保国……
这门课讲的内容非常非常多,能收获很多东西。但考的内容很少。上课时讲的大部分东西都不考,一会儿不听就不知道老师在干什么了。老师也说了,给研究生讲了几个星期的内容,在我们这里一下午就讲完了。
1.考试:考前会划考纲,考试半开卷。试卷很简单,我是最后一题没时间做了,前面应该都没问题(大四老狗不在乎成绩了,考试很随便写得特别慢,所以没写完)。考试的内容都是最基础、老师一遍遍重复的东西。
2.作业:3次作业,第三次作业助教直接给了答案。客观题和考试高度相关。思考题是开放性的,我是完全不会写,一般乱写或者抄实验队友的。
3.实验:3次实验。我做实验时,只有第一次用到了老师讲的内容,后两次都没有用到课堂上讲的知识。第一次实现了课堂上讲的几个算法;第二次做了一个最最简单,几个全连接层和激活层连在一起的神经网络;第三次助教给了一篇参考文献--何向南老师的lightGCN,我上网牛了份代码跑了一遍(至于原理,看不太懂,也是上网抄大佬的论文笔记)。实验量的话,不算训练的时间,如果能心无旁骛从早干到晚且有正常的编程水平,三个实验都能两天内(甚至一天)码完代码。
最后总评直接给了98,我人都懵了。我一个信院大四老狗,后期天天上课打王者荣耀,并不在乎成绩。半年前大三时和计院的卷王们一起学习操作系统设计,好好学习的我再次被计院的大佬干碎,收获81分的成绩。从此感觉我是小丑、老鼠人,计院大老爷们是高贵的人上人。不知道是不是大部分人都没做实验3,起码我和队友都一致认为期末考试特别简单,不做实验3也必然不会挂科。
之前上评课社区都是开喷(笑),但Web想认真写下评论
总体非常推荐,但不适合相关方向的大佬
老师讲课涵盖的知识点和段子较多,但并不会深入其中的数学原理,也不会详细讲解较新的模型,比较适合初次接触该方向的同学。考试除了开头极为玄学的判断题,其它都是具体的算法细节理解和简单计算,虽然是半开卷但带大抄没什么用,因为并不会机械的考概念。作业较少,是简单的计算和主观题。
实验部分扣一分。
2021秋季学期总共有三个实验,分别是搜索引擎,知识图谱和推荐系统,其中知识图谱实验设计存在较大的问题。对三个实验设计的详细评论如下。
(1) 搜索引擎。除去可以尝试word2vec和bert等新的表征方法,这个实验和机器学习和深度学习其实没有特别大的关系,难点也在压缩存储等其它部分。不过建议助教可以写一个前端并给定后端的接口,这样更像一个完整的搜索引擎。
(2) 知识图谱。这个实验应该所有同学都做的一脸懵逼。首先是数据集直接用了FB15-237跑链接预测任务,但脱敏没处理好,可以直接还原测试集,数据泄露严重。此外该数据集的数据量极大,如果想尝试GNN的化,用V100也需要跑半天,只有cpu做实验的同学可能跑transE都难,甚至内存装不下。此外该实验初版文档中一直强调利用文本信息预测尾节点,可以尝试使用结构信息,但实际上该任务最重要的数据是结构信息,文本数据没什么用,sota方案也没有使用文本数据(严重怀疑设计这个实验时在看WWW2021上的一篇文章hhh),kg-bert的效果甚至低于transE。所以很多新接触的同学完全不知从何下手。
(3) 推荐系统。建议不要拿SIGIR2020当baseline,这完全是topline(笑)。
总体而言,老师和助教希望注重思考如何设计模型,因此提供了很多额外数据,但实验又有单纯的量化标准,所以刚接触的同学会感到很懵,已经学习过相关知识的同学会知道这些额外数据对提高结果没什么帮助(真想出提高方法可以去发paper了)。而且实验的具体方法和模型实现是课程不涉及的,这一定程度上会加大难度。
给分挺好,优秀率应该是满的,4.3也比较多。
不要跟风选课,不要跟风选课,不要跟风选课!
选修课,如果是相关方向,那可以无脑选,但如果未来做的是非相关方向,尤其sys, arch,那么选该课需要慎重考虑,以下内容针对非相关方向同学:
收获相关
确实能学到很多东西,但是到了专业课阶段,这些东西不一定有用,课程也不涉及深度学习,收获主要来自实验内容,21年是搜索引擎,知识图谱,推荐系统,这些都是很细化的方向。不如将时间花在自己未来的领域,来的更值一点。
其次,该课程实验不适合写入简历,看简历的人会在乎方向match,提问也只会提问岗位相关方向,如果将该课程写入简历,别人要么不问,要么问的很深入,而知识图谱、推荐系统这些,必然涉及到深度学习,该课程的深度是达不到的。
课程任务量
既有作业实验又有考试,考试还需要做半开卷纸,如果只是为了学分,那为什么不选只有实验的数据隐私+只有考试的网络安全?
给分相关
给分不会有想象的那么好,要注意幸存者偏差,每年选课都有200人,有很多高分不是很正常?真正从比例上看只能说给分不错,谈不上很好,且严格按比例,会卡绩。如果为了刷分,嵌入式不是更好的选择?
再次说明到了大三为什么不要跟风选课,某些课程为了平衡选课人数,人数多的班反而可能会出现大杀特杀的情况(说的就是顾乃杰)
大三老萌新来为Web献上评课社区首评
这是本学期乃至整个两年半体验第二好的一门课。第一是编译
老师本人很年轻,讲课很有趣并且有活力。经常水群,并根据我们的反馈会做出及时的调整(非管理员中就老师一个不带学号很容易就被认出来)。十分关心照顾理解同学,只要有人提,好像实验ddl能延期就延期,实验3甚至延到了3月开学前
课件肉眼可见的用心,紧跟时事,适度玩梗,并且配色和排版很符合个人口味,感觉异步学习问题也不大。美中不足的是涉及到算法的地方感觉排版和流程不是很清楚。暴露没听课了
三个实验(邮件搜索引擎,英文文本信息抽取,豆瓣电影推荐)能极大的锻炼python能力以及看文档写代码能力。这学期根据往届同学的建议取消了刷榜的形式,提交分数也仅自己可见。因为组队另一个同学比较忙,所以实验基本是我自己做的(老师开学就提过组队一视同仁,单人队也不会有额外分数)。建议在做实验之前先调研一下有哪些可用的库,不要像我一样乱搞,甚至用swift playground调了个文本分类器((
考试是在意料之外但又在情理之中。意料之外是指没见到巨大的tfidf,情理之中是老师强调的重点真的会考,只要做好半开卷小抄+熟练掌握991就没什么可怕的了(于是听说来年要手撸SVM和PMF了)。
助教团队也很负责,有问必答,并且提的需求都能很快实装,比如实验提交页面的历史记录。
最后老师给分很好,大四就不选了
讲完了我顺便diss一波计网,同样都跟网络有关,宁怎么这么拉垮呢??
适合大四学生异步学习 or 摆烂混分
在外实习党一枚,考前突击两天,还是提到优秀了的
应该和队友一起认真完成平时实验有关(但从没有卷过附加)
给分确实很好,不点名非常友好
总之非常推荐~
附上自己做的大抄,也是改编自以下某版大抄
需要的师弟师妹请自取 web0_xyy.docx
虽然是大四上学期开课,但是选这门课的大三人非常多。上课是在高新,所以在西区上了一学期的网课
从这个学期开始改了一下授课内容,我把我的大抄贴在这里,仅供参考
老师的上课风格贼幽默,课程中会融入有好多当下热梗,经常会谈到坤坤和华强(乐)
作业有两次,每一次都有计算和简答。(第二次作业计算量奇大,人麻了);实验最多可以三人组队,对于我这种对python一知半解的人来说还是挺有挑战的,所以找到强大的队友非常关键
考试前有一个习题课,老师把考试范围划了一下(我的大抄也是按这个来的,老师没说的我就没往里边放),非常之良心
考试题题量还是很大的(但是据助教说,今年比往年题量少了),我空了挺多简答没时间写……
最后实验二没写附加部分,考试的话应该也一般,但是喜提优秀底线,感谢老师和助教!
从课堂到实验体验都很好的一门课, 也是上到目前为止觉得最贴近应用和实际的一门课. 很早就被评课社区种草了这门课, 于是在大三上选了这门课, 也来说说自己的体验.
课堂: 老师讲课语言表达很清楚, 逻辑也很清晰, 足见老师的备课认真负责. PPT制作比较精美, 也有条理, 例子都很有意思(PPT有一半例子都来自马保国(bushi 但一学期听下来感觉也有一些问题, 比如最大的感受是讲课内容有点太过抽象, 一些算法都只是简单带过, 只从一个总体大概的层面给你讲讲一个模型是怎么一回事, 导致实验做起来比较困难, 很多东西得靠查CSDN 不过不知道这是不是也是老师的一个设定, 如果说课堂内容只是想做一个引导作用的话, 那么我觉得目的达到了.
另外给屁屁踢的一点小建议: 希望能加上分级标号, 更能看得清各个内容之间的逻辑和主次关系, 不然有时候容易跟丢. (大概是本人对于分级标号的某种执念,,,)
实验: 本学期三次实验分别是:
(1) 新闻搜索引擎
(2) 知识图谱关系补全
(3) 豆瓣音乐推荐
难度依次递增, 尤其是后面两次实验, 因为涉及机器学习, 对于新手而言刚开始真的难度挺大的, 甚至不知道怎么开始... 尤其是调研选模型的阶段实在是苦不堪言. 因为仅靠课上听的内容做实验基本不太可能, 需要查很多的资料, 导致每次实验刚开始都会比较手足无措, 明明知道要干什么, 却完全不知道怎么办... 比如lab2距离ddl还有一周的时候, 才10+同学提交过结果, 于是老师很善良地延长了一周
"大家好像做实验2都没遇到啥问题 大家有啥问题可以及时在群里提问"
(实际上)"问题: 不知道如何开始..."
(这大概也是最后扣了1分 只打9分的主要原因)
每次实验跑出结果都需要比较长的时间, 好几次让宿舍不用断电的高中同学的电脑跑了一晚上(顺便吐槽为啥宿舍要断电,,,以及比较便宜的服务器好像都不太跑得动...)
但是每次实验认真地做下来真的收获很大: 明白了搜索引擎是怎么一回事; 机器学习的"黑盒子"里到底发生了什么; 推荐算法到底是如何实现的等等 实验大概是课程的很重要的一个组成部分 督促你把课堂上一些抽象的内容想办法具体地着手实现 并且尝试理解一些数学公式的含义. 3次实验做下来, 感觉这门课确实像往届同学们说的那样, 适合作为一门机器学习的入门课, 感兴趣的同学不妨选课体验一下.
实验文档的任务指令也相对比较清晰, 而且更新也很及时. 比如lab2其实刚开始不是很知道要做什么/怎么实现, 跟助教反映之后, 助教很认真地写了一份补充文档, 甚至是可以直接让你知道一步一步地要做什么, 因此lab3的实验文档也给出了更多的提示和指引, 供同学们作为参考. TAs辛苦啦!
老师&助教: 老师和助教都很负责!!! 老师人超有意思 居然在QQ群里潜伏了一整个学期, 一直到考完试才跳出来, 上课的例子也很生(xi)动(huan)形(wan)象(geng), 简直本学期的快乐源泉哈哈哈哈 助教都很负责, 群里和私聊的提问都很及时很耐心的回复, 以及实验文档(尤其是lab3)的详细程度和逻辑条理就足以见得.
给分: 只能说中规中矩 本人不幸被卡绩了,,, 多少还是有点难受 没有往年同学们说的"给分超好"的感觉 也可能今年大三选的同学比较多 比较卷(?)
早上刚出分下午来评,终于在计算机专业方向的课拿到了满绩
算是这学期学得非常圆满的课程
徐老师人很好,助教们也很好,整门课程学得算是轻松有趣,PPT也很nice,有很不错的课程体验
作业不是很多,本来是四次的,最后因为时间关系压缩到了三次,每次作业就是几道涉及课内知识点的计算题和几道言之有理即可的简答题,看看ppt也基本都能学会。
实验的话总共是三次,任务量中等偏上,比较依靠机器学习方面的知识,本人算是抱大腿成功。
最后的期末考试是已经告知了5判断+7简答,但是到了考场才发现所谓的7简答居然那么多,每道题都分成2分2分的小题,算是继四门政治课程之后手写的最累的课程考试,不出意外,没有写完,尽量把能写的都写了,幸好看了一眼最后一题,算是整张卷子中比较简单的,看大家考场考完的样子,像是都没写完,感觉看了最后一题有点赚到。
期末考试大致如下:
1. 判断题5道(不太记得清了,听徐老师考完后说是巡逻考场发现不超过5个人全做对,个人建议不想花时间甚至全部选叉,可能正确率更高(滑稽))
2. 汉明距离和Jaccard系数
3. 倒排表的生成以及后续计算
4. Pagerank计算
5. P@N,R@N,AP计算
6. 决策树预剪枝和后剪枝过程(给一棵树让写过程)
7. 主成分分析(算特征值啥的)
8. GDV(2)(课外知识,但是比较简单)
对整门课程进行总结的话,作业实验压力不大,课堂氛围轻松(最紧张的可能是考场上),可以学到不错的知识,但是由于时间关系,整门课程学下来给人浅尝辄止的感觉,因为每个方面都教了,但是确实没有时间深入下去,建议感兴趣的同学来选,可以接着老师上课讲的内容继续学习下去,应该会有不错的帮助。
感谢徐老师!感谢助教们!感谢我的大腿队友!
老师是个不错的段子手且非常可爱——“我不想上演屠龙少年十年后化身恶龙的故事,所以我全学期不点名”
这门课学到的东西和做到的东西几乎成为我所有面试的point(虽然据反映……这些方法太老了……emmmm
最后考试,计算量大成噩梦,但是老师给分非常好,不虚~~~
徐老师上课很认真,是我在计科体验最好的三门课之一,另外两门是李诚老师的编译原理和金培权老师的数据库。
平时不点名,讲课重点突出,会明确说明哪些内容不考,最后有习题课划重点。(也很适合大三来选)
作业方面,内容不多,很多部分都是祖传的,把作业做完基本就对考核内容掌握的差不多了。
实验,没有军备竞赛,不卷性能,2-3人组队均可(2人没有优惠政策),基础部分难度不大,借助工具的话,都能两天时间完成,我是2人组队的,不做额外部分,没有什么压力(因为没有加分,感觉这个做的人也不多)。
考试,整体难度不高,就是计算量很大,建议合理安排时间。
大四划水人,最后拿到4.0,感谢老师!
这学期由于当数据结构助教,每周一都得往本部跑,所以除了第一周和最后一周划重点中间是一节课没听,都是抽时间看回放的,可惜以后可能没有即时的回放了,悲。
老师讲课挺有意思的,让人听不腻,而且举例和段子都很有教育意义,不是那种为了搞笑而搞笑的段子。这门课没有课本,全部知识点都在PPT里,期末复习的时候有老师划的重点,还有往届的大抄可以参考,总体来说课程内容比较轻松。
作业和实验量不多,第一周听到要做知识图谱还有什么图神经网络的时候有点紧张,以为会搞很难,但是实际只有两次实验,而且做起来比较轻松。第一次是做爬虫和搜索,第二次是基于开源仓库的代码挖空做知识图谱推荐。幸好我抱大腿抱得稳得一批,两次实验感觉最难的部分都没有我什么事,每次花两天时间就把自己活干完了,然后就是留下bug来被队友发现然后去修锅......
考试不是很合理,虽然老师划过重点而且确实都考到了,但是出题太有问题,尤其批评出HMM和TF-IDF两道大题的,这tm计算器都嗯冒烟了也算不完,脑子里循环播放我爱你中国,我爱你中国......考前复习最有用的是复习了卡西欧计算器公式的使用。
给分感觉挺奶的,我都不敢相信给了我4.3,我是徐卫兵,你们不许批评他!
你指尖跃动的电光,就是我考试时敲计算机的力量。
非常好课程,让大四的我身心愉悦。
老师还是蛮努力的,PPT制作,划重点以及最重要的捞人
给分超好,大四一直摸鱼没去听课,实验按最低标准完成,考试判断题题全蒙(只看了倒数后两个,考的概念倒是都有印象,但是小抄字太小了找不到,索性直接蒙了),大题基本只会写第一问,最后成绩89,真是惊呆了。
考试有20分的判断题,但是感觉可以直接随便蒙,多留点时间写大题。做小抄的时候可以重点把ppt上的例题和作业题放上去,大题的第一问一般是计算,分值比后几问加起来还多。
非常有趣的课。其它点评都把实验和课堂说得很充分了,我就来贴一个自制的A4纸好啦USTC_Resources/ljyA4.docx at main · ljy0ustc/USTC_Resources (github.com)。
等出分改评分,先默认好评
给后来者提个醒,小抄字号3.5是能且非常清晰的,
不要像我一样拿着字号小六的小抄发现考试be like this:
题目:A是什么,其中B有哪些细节
小抄:我们学过A
-------------------------------
给分不错(确信)
刚考完,寄了寄了。
实验如果要用机器学习的话,对没有机器学习基础的同学可能不太友好,不过自学也挺好的,就是感觉网上搜资料不是很全,理解也不够透彻,出了一堆稀奇古怪的概念就需要七零八碎的去找。不过也许这就是“Web信息处理与应用”吧——从海量web信息中进行主成分分析(狗头)。
也许这门课真的得大四再上理解才会比较深入。
信息检索等相关内容还算比较容易理解。学了许多和自然语言处理相关的知识。
这门课会把web信息处理方面的操作和算法的概念讲解的很清楚,ppt上有丰富的例子和参考文献,还补充了一些有意思的web发展史;课程也涉及到一些神经网络的内容,但不会深入讲解。今年老师在考试前非常细致地划了重点,所以我只用一天半的时间复习+做小抄,最后出乎意料的拿了4.整体来就是,实验部分比较开放,而考试只要求掌握好最核心的概念和算法。
体验挺好的,前人之述备矣~
感觉自己也考的还行,实验都写了,不知道为什么只有81
上课:Slides 很新,紧跟时事。老师也是互联网冲浪大手子,上课很有意思。算法介绍部分给的例子很清晰,不会出现听不懂的情况。这学期大三人是线上课,没有点名。似乎以前全员线下课的时候也没有点名。
作业:两次书面作业,个人感觉挺有难度的(可能因为没好好听课)。每次作业四、五道计算题,四道简答题。计算题就是照着 Slides 算就完事了。简答题是怎么都搜不到,全靠感觉。
实验:两次组队实验,最多三人一组。第一次是爬虫 + 布尔检索 + 推荐。第二次是知识图谱 + 推荐(KGAT),独立完成难度不小,好在能找到相关资料。有一个会机器学习的队友很重要!!
考试:考前有复习课,详细滴划了重点,并且强调了要带尺子。题目适量偏多,没写完(主要是不会用卡西欧算矩阵乘法,PageRank 迭代三次我直接放弃)。按照复习课做好小抄纸,考试应该是不成问题的。贴一下我的小抄纸:webinfo.docx
给分:作业都交 + 两次实验都没写附加 + 期末做了三天小抄纸 = 89,感觉一般偏好。
收获:感觉机器学习挺有意思的,图谱嵌入和矩阵分解两种方法给我一种很熟悉且亲切的感觉。然鹅今后应该不会搞相关领域的工作了。这门课是我专业方向选修中收获最大的课程了。
感谢徐童老师和各位助教这学期的付出,本课程的脉络是从网页抽取信息->建立网页信息的搜索引擎->根据信息进行个性化推荐。包含知识图谱、推荐系统、信息检索等内容,课程质量在科大算是上乘,值得推荐。以下是针对这门课提出的一点建议,仅代表本人观点。
关于这门课
优点在于信息检索方面相关内容的宽度很广,但是由于时间限制,在某些值得展开的地方并没有做过多展开。比如课程初期花了较多时间探讨生文本处理的方法(除去停用词、分词等),个人觉得这种研究比较充分的内容无需花太多时间,可以以补充资料的方式提供,后续实验如果需要用到这方面知识不妨提供一个代码框架。相反,最后的推荐系统展开的时间太少,作为当前的研究热点,如果能掌握更多的知识,在保研面试或者找工作时应该会有更多的优势吧
老师很nice 实验其实有太多可以深挖的 但是上课只能往广了讲。因为今年不用刷榜了,整体来讲实验也不算这门课的重点,大部分分数还是集中在考试上,所以实验做完感觉很多地方没有尽全力,想试的东西没有试。还挺遗憾的 其实实验都还挺有意思的
给Web献上评课社区的首评。
作业:大概有四次作业,每次作业的客观题基本都是考试要考的点,最好认真完成;主观题言之有理即可,可以参考各种资料并且发挥自己的想象力。
实验:三次实验。内容其他同学有提到过。今年没有去年的“军备竞赛”了,实验的运行时间、效率在实验中占的分数也不是很多,可以至多两个人组队完成,组队和单人完成在评分方面没有什么区别。后面两个实验个人感觉coding的能力是次要的,关键是能检索到合适的模型,这样可以减少很多时间,建议在实验前先进行一些调研。
上课:徐老师讲课比较生动,不过连着听三节课到最后一节的时候还是会有些疲惫。PPT比较精简,重点突出,很适合复习。而且老师会在考试前划重点内容,很多PPT上的内容考试是不涉及的,建议一定要去听。
碎碎念:个人感觉徐老师是科大里为数不多的可以和学生打成一片的老师,和我们的年龄相对比较接近。平时也会水群,打断同学们在群里的复读。本人复习的时候有不懂的问题,尝试直接给老师发了QQ,老师回复得也很及时,点个大大的赞。另外,就个人感觉而言,大三的同学如果选这门课有利有弊,利在于没有那么卷,而且可以作为ML的入门课,当然这也意味着大三上的压力会增大,这门课的实验认真做起来还是需要投入不少时间的(当然没有编译实验花的时间多
10分!
老师讲课风格幽默,内容充实,上课像听相声
一共3次组队双人实验,第一个是倒排表、布尔查询、语义查询,第二个是关系抽取、实体识别,第三个是豆瓣评分预测。第一个工作量比较大,后面两个调研了不少,但代码主要是调包,感觉总体工作量还好。实验好好写还是能学到不少东西的,习题课助教还会分享优秀实验案例,看到大佬是怎么做的也能学到不少。
给分超好,我期末把写索引矩阵看成算 tf-idf 矩阵,运算量翻倍,出考场才发现看错题了。本来以为自己凉了,没想到老师捞我,出分狂喜。
(友情提醒,考前记得复习PCA)
大三零ML基础萌新,摸了两天来写评论
这门课其实给我的印象更像是一门机器学习+NLP的入门课,理论都只讲个入门,所以也不用担心太难。毕竟里面的任何一个章结拿出来都可以单独成一门课(所以老师给了很多的课外阅读材料,虽然我铁懒狗是一点都没看)。
作业量很少,且难度不大,计算题都是课上讲过的东西,开放型问题随便认真听了课就可以。
这门课主要的还是三个实验(本咸鱼:这个基础部分我都不会,附加就不做了吧 Kaggle大佬:这不是秒杀)。
邮件搜索引擎:不做额外索引方式的话难点其实是在对于大量邮件的处理,54万封我跑了一个晚上。推荐提前开始做,可以考虑一下并行的方式加速。卷王可以考虑做一做。
英文文本信息抽取:分为实体抽取和关系分类,网络上一大堆资料论文源代码可以参考,本咸鱼随便找了几篇看了一下,感觉我上我也行,然后用了两天速成CNN,果断放弃,最后改了一下最基本的网络就差不多应付了过去(大佬轻喷)
豆瓣电影推荐:用课上的知识就能做了,本咸鱼想再练练ML技术便用的矩阵分解的方法。结果最后懒了也只做了最基础的部分,附加的时间约束和社交关系约束也是看都没看。
实验一个人做两个人做其实差不多,记得找个有ML经验的大佬抱大腿比自学强多了(看到群里大佬讨论实验的时候说的名词我都不懂的时候我是绝望的)
实验还是很开放的,不过本咸鱼做完了也没个底。没去习题课所以优秀实验也没有听到,有点可惜。其实做完以后征求一下助教的反馈和建议可以学到很多东西(不知道助教什么时候改完的实验,没去问也有点可惜,不过给每个组都反馈确实不太现实)。
同上diss一波计网,同样都跟网络有关,同样是3.5学分,无论是上课,实验,考试,还是实用性都被web完爆,宁怎么这么拉垮呢??
1. 年轻老师,过来人,人超好。“只要你上课前QQ跟我说一下请假,就能请假”
2. 我是大三太累了,期末前崩溃退选大四补选的,大四在外实习,老师签“外地上课”允许表也很干脆,要求作业电子版按时提交、实验要做和赶回来期末考试就行
3. 大四狗不看给分( ‵▽′)ψ