Web信息处理与应用(徐童) 2021秋 2020秋 2019秋  课程号:01117901
2021秋 2020秋 2019秋  课程号:01117901
9.1(17人评价)
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:很多
选课类别:计划 教学类型:理论实验课
课程类别:本科计划内课程 开课单位:计算机科学与技术系
课程层次:专业选修 学分:3.5
课程主页:暂无(如果你知道,劳烦告诉我们!)
简介

Web信息处理与应用是一门关于基于Web的信息处理和数据挖掘的课程,包括Web信息获取,表示及处理技术,Web挖掘技术,Web搜索技术,以及相关领域的最新研究及应用进展。

最后更新:

点评 写点评
TheLitFire 2019秋

我来说两句课程吧:

1. 老师上课可谓是十分有趣,以可能引起极少数杠精群体不适的方式经常扯段子(甚至是ha学);时常在群里与同学们充分交流,拿到龙王那是常事;很能理解同学们划水的心情,并以不限制到课率但实验+作业玄乎其玄地方式引诱大家回到课堂,尽管效果很差。

2. ppt很用心,不是照本宣科而是辅助讲课使用,当然这也意味着其实ppt并不能很好地让你自行异步理解这门课程的内容。还是建议认真听讲(甚至笔记?)。另外ppt请勿外传,以免送命。

3. 请学会python+一定的机器学习应用经验(包括遇到一个问题怎么搜索模型、如何load数据、如何调超参)再来做实验。

临考前用了一次机会退课,不用手算tf-idf了,很爽(大雾)(舍友三人齐心协力搞了个4字号的一万多字A4纸,涵盖全部ppt考点,太惨了(我一个计网大抄五万字的人在说什么?))

给九分:老师的课程风格我蛮喜欢的,但总的来说,体验不是那么好吧;一定程度上是ppt的锅。

 

ps:老师是看评课社区的,半小时就被回复了(

15 0
taoky 2019秋

这学期的 Web 课换了新的老师,所以课程的风格也和(我听闻的)以往差别比较大。包括作业、实验和考试形式都出现了很大的变化。

课程仍然分成了检索、抽取和挖掘这三个部分,但是侧重点有变化,比如说讲了多模态检索,没有讲逻辑回归。作业有 4 次,每次作业都是计算题 + 论述题(有些发散性)的格式。

实验分成了三个必做的(军 备 竞 赛)实验 + 一个开放实验。大概内容:

  • 开放实验:完成爬虫类的指定任务。我抢到了 Leetcode 讨论的爬取的任务,大概用了两三天时间整完。代码在:https://github.com/taoky/leetcode-discussion-spider。因为是赶工的(DDL 前在搞 iGEM),所以代码质量其实很糟糕。(小声 PS:国外网站对爬虫的限制很多都比国内的网站(如豆瓣)松得多,如果你选择了反爬严格的网站,你很可能不得不交一笔钱买代理池,或者用一些「奇技淫巧」解决问题,见下)
  • 实验一:对给定的一些查询,在文档池里找到前 20 个结果提交。一开始 TF-IDF 效果一般,还为了刷成绩加了很多人工的规则。最后换了 ElasticSearch,太香了。
  • 实验二:医疗文本的 NER(命名实体识别),有些搞笑的是测试集可以在网上搜到(真正的信息检索实验,大误)。最后我直接调了 CRF,想去弄 BERT,但是失败了。
  • 实验三:使用豆瓣的数据预测用户对电影评分(推荐系统)。我一开始直接用 surprise 的 SVD 去做,后来和我组队的 F 同学用他快过期的 AWS 代金券,在上面开了一大批实例来爬,技术细节见 https://ibugone.com/blog/2019/12/mass-crawl-douban-with-aws/

实验的整体感觉是:刷榜(军备竞赛)的形式给同学带来了一定程度的压力,我感觉最后花在 Web 实验上的时间都超过了自己花在编译实验上的时间。另外自己的一点感触是,现在人工智能的热潮,其实有些不怎么靠谱,吐槽原文就不贴过来了……

期末考试半开卷(以往都是闭卷)。相应的,考试题目量增大了不少,尤其是最后一题:布尔查询,TF-IDF,虽然有着送分题的表象,但做着就会发现要画一个超大的矩阵,每一项都要 TF-IDF,还要归一化,一下子就变成了 送 命 题。

最后给分很好,感谢老师和助教。

 

9 7
boj用爬虫当大作业
boj我之前做爬虫的外包项目,市场价格还挺高的,这个爬虫的门槛挺高的
boj刚发现评课社区一个 bug,我在评论里面打了一个表情符,发现表情及后面的内容都被吃掉了……
Gone回复 @boj: 其实那个不是大作业,是加分实验啦hhh
Gone回复 @boj: 其实那个不是大作业,是加分实验啦hhh
Gone好看来我又发现了一个bug(
Gone好看来我又发现了一个bug(

立即登录,说说你的看法

早上刚出分下午来评,终于在计算机专业方向的课拿到了满绩

算是这学期学得非常圆满的课程

徐老师人很好,助教们也很好,整门课程学得算是轻松有趣,PPT也很nice,有很不错的课程体验

作业不是很多,本来是四次的,最后因为时间关系压缩到了三次,每次作业就是几道涉及课内知识点的计算题和几道言之有理即可的简答题,看看ppt也基本都能学会。

实验的话总共是三次,任务量中等偏上,比较依靠机器学习方面的知识,本人算是抱大腿成功。

最后的期末考试是已经告知了5判断+7简答,但是到了考场才发现所谓的7简答居然那么多,每道题都分成2分2分的小题,算是继四门政治课程之后手写的最累的课程考试,不出意外,没有写完,尽量把能写的都写了,幸好看了一眼最后一题,算是整张卷子中比较简单的,看大家考场考完的样子,像是都没写完,感觉看了最后一题有点赚到。

期末考试大致如下:

1. 判断题5道(不太记得清了,听徐老师考完后说是巡逻考场发现不超过5个人全做对,个人建议不想花时间甚至全部选叉,可能正确率更高(滑稽))

2. 汉明距离和Jaccard系数

3. 倒排表的生成以及后续计算

4. Pagerank计算

5. P@N,R@N,AP计算

6. 决策树预剪枝和后剪枝过程(给一棵树让写过程)

7. 主成分分析(算特征值啥的)

8. GDV(2)(课外知识,但是比较简单)

 

对整门课程进行总结的话,作业实验压力不大,课堂氛围轻松(最紧张的可能是考场上),可以学到不错的知识,但是由于时间关系,整门课程学下来给人浅尝辄止的感觉,因为每个方面都教了,但是确实没有时间深入下去,建议感兴趣的同学来选,可以接着老师上课讲的内容继续学习下去,应该会有不错的帮助。

 

感谢徐老师!感谢助教们!感谢我的大腿队友!

3 0
suyuz 2020秋

大三老萌新来为Web献上评课社区首评

这是本学期乃至整个两年半体验第二好的一门课。第一是编译

  1. 老师本人很年轻,讲课很有趣并且有活力。经常水群,并根据我们的反馈会做出及时的调整(非管理员中就老师一个不带学号很容易就被认出来)。十分关心照顾理解同学,只要有人提,好像实验ddl能延期就延期,实验3甚至延到了3月开学前

  2. 课件肉眼可见的用心,紧跟时事,适度玩梗,并且配色和排版很符合个人口味,感觉异步学习问题也不大。美中不足的是涉及到算法的地方感觉排版和流程不是很清楚。暴露没听课了

  3. 三个实验(邮件搜索引擎,英文文本信息抽取,豆瓣电影推荐)能极大的锻炼python能力以及看文档写代码能力。这学期根据往届同学的建议取消了刷榜的形式,提交分数也仅自己可见。因为组队另一个同学比较忙,所以实验基本是我自己做的(老师开学就提过组队一视同仁,单人队也不会有额外分数)。建议在做实验之前先调研一下有哪些可用的库,不要像我一样乱搞,甚至用swift playground调了个文本分类器((

  4. 考试是在意料之外但又在情理之中。意料之外是指没见到巨大的tfidf,情理之中是老师强调的重点真的会考,只要做好半开卷小抄+熟练掌握991就没什么可怕的了于是听说来年要手撸SVM和PMF了

  5. 助教团队也很负责,有问必答,并且提的需求都能很快实装,比如实验提交页面的历史记录。

  6. 最后老师给分很好,大四就不选了

 

讲完了我顺便diss一波计网,同样都跟网络有关,宁怎么这么拉垮呢??

 

3 0
Rengin 2021秋

之前上评课社区都是开喷(笑),但Web想认真写下评论

总体非常推荐,但不适合相关方向的大佬

老师讲课涵盖的知识点和段子较多,但并不会深入其中的数学原理,也不会详细讲解较新的模型,比较适合初次接触该方向的同学。考试除了开头极为玄学的判断题,其它都是具体的算法细节理解和简单计算,虽然是半开卷但带大抄没什么用,因为并不会机械的考概念。作业较少,是简单的计算和主观题。

实验部分扣一分。

2021秋季学期总共有三个实验,分别是搜索引擎,知识图谱和推荐系统,其中知识图谱实验设计存在较大的问题。对三个实验设计的详细评论如下。

(1) 搜索引擎。除去可以尝试word2vec和bert等新的表征方法,这个实验和机器学习和深度学习其实没有特别大的关系,难点也在压缩存储等其它部分。不过建议助教可以写一个前端并给定后端的接口,这样更像一个完整的搜索引擎。

(2) 知识图谱。这个实验应该所有同学都做的一脸懵逼。首先是数据集直接用了FB15-237跑链接预测任务,但脱敏没处理好,可以直接还原测试集,数据泄露严重。此外该数据集的数据量极大,如果想尝试GNN的化,用V100也需要跑半天,只有cpu做实验的同学可能跑transE都难,甚至内存装不下。此外该实验初版文档中一直强调利用文本信息预测尾节点,可以尝试使用结构信息,但实际上该任务最重要的数据是结构信息,文本数据没什么用,sota方案也没有使用文本数据(严重怀疑设计这个实验时在看WWW2021上的一篇文章hhh),kg-bert的效果甚至低于transE。所以很多新接触的同学完全不知从何下手。

(3) 推荐系统。建议不要拿SIGIR2020当baseline,这完全是topline(笑)。

总体而言,老师和助教希望注重思考如何设计模型,因此提供了很多额外数据,但实验又有单纯的量化标准,所以刚接触的同学会感到很懵,已经学习过相关知识的同学会知道这些额外数据对提高结果没什么帮助(真想出提高方法可以去发paper了)。而且实验的具体方法和模型实现是课程不涉及的,这一定程度上会加大难度。

给分挺好,优秀率应该是满的,4.3也比较多。

2 0
CauchyLovesU 2021秋

从课堂到实验体验都很好的一门课, 也是上到目前为止觉得最贴近应用和实际的一门课. 很早就被评课社区种草了这门课, 于是在大三上选了这门课, 也来说说自己的体验. 

课堂: 老师讲课语言表达很清楚, 逻辑也很清晰, 足见老师的备课认真负责. PPT制作比较精美, 也有条理, 例子都很有意思(PPT有一半例子都来自马保国(bushi 但一学期听下来感觉也有一些问题, 比如最大的感受是讲课内容有点太过抽象, 一些算法都只是简单带过, 只从一个总体大概的层面给你讲讲一个模型是怎么一回事, 导致实验做起来比较困难, 很多东西得靠查CSDN 不过不知道这是不是也是老师的一个设定, 如果说课堂内容只是想做一个引导作用的话, 那么我觉得目的达到了. 

另外给屁屁踢的一点小建议: 希望能加上分级标号, 更能看得清各个内容之间的逻辑和主次关系, 不然有时候容易跟丢. (大概是本人对于分级标号的某种执念,,,)

实验: 本学期三次实验分别是:

(1) 新闻搜索引擎

(2) 知识图谱关系补全

(3) 豆瓣音乐推荐

难度依次递增, 尤其是后面两次实验, 因为涉及机器学习, 对于新手而言刚开始真的难度挺大的, 甚至不知道怎么开始... 尤其是调研选模型的阶段实在是苦不堪言. 因为仅靠课上听的内容做实验基本不太可能, 需要查很多的资料, 导致每次实验刚开始都会比较手足无措, 明明知道要干什么, 却完全不知道怎么办... 比如lab2距离ddl还有一周的时候, 才10+同学提交过结果, 于是老师很善良地延长了一周

"大家好像做实验2都没遇到啥问题 大家有啥问题可以及时在群里提问"

(实际上)"问题: 不知道如何开始..."

(这大概也是最后扣了1分 只打9分的主要原因)

每次实验跑出结果都需要比较长的时间, 好几次让宿舍不用断电的高中同学的电脑跑了一晚上(顺便吐槽为啥宿舍要断电,,,以及比较便宜的服务器好像都不太跑得动...)

但是每次实验认真地做下来真的收获很大: 明白了搜索引擎是怎么一回事; 机器学习的"黑盒子"里到底发生了什么; 推荐算法到底是如何实现的等等 实验大概是课程的很重要的一个组成部分 督促你把课堂上一些抽象的内容想办法具体地着手实现 并且尝试理解一些数学公式的含义. 3次实验做下来, 感觉这门课确实像往届同学们说的那样, 适合作为一门机器学习的入门课, 感兴趣的同学不妨选课体验一下.

实验文档的任务指令也相对比较清晰, 而且更新也很及时. 比如lab2其实刚开始不是很知道要做什么/怎么实现, 跟助教反映之后, 助教很认真地写了一份补充文档, 甚至是可以直接让你知道一步一步地要做什么, 因此lab3的实验文档也给出了更多的提示和指引, 供同学们作为参考. TAs辛苦啦!

老师&助教: 老师和助教都很负责!!! 老师人超有意思 居然在QQ群里潜伏了一整个学期, 一直到考完试才跳出来, 上课的例子也很生(xi)动(huan)形(wan)象(geng), 简直本学期的快乐源泉哈哈哈哈 助教都很负责, 群里和私聊的提问都很及时很耐心的回复, 以及实验文档(尤其是lab3)的详细程度和逻辑条理就足以见得.

给分: 只能说中规中矩 本人不幸被卡绩了,,, 多少还是有点难受 没有往年同学们说的"给分超好"的感觉 也可能今年大三选的同学比较多 比较卷(?)

(最后修改于 2 0
寄 ! 2021秋

应该说是一门中规中矩的课,没有其他评论说的那么神,收获有不少,几乎都是来自于3次实验,实验难度超过课堂知识,需要自己查相关资料,比较花时间。

老师不点名,适合大四上实习的人选,实际课堂收获一般,旷了课也不会有很多影响,考前突击2~3天即可。

给分说不上超好,只能说一般。会有挂科存在,有调分,优秀率应该给满,但不会单独捞卡绩的同学。给分放在前两年应该还算好,但19、20级日趋内卷化,选的大佬很多,约200人班级,最后公布了4.3共有9人,拿高分难。给分主要看考试,考试:实验:作业=6:3:1。实验虽难但其实造成差距很小。考试题量很大,也会包含文科题,所以开卷纸和考前突击很重要。

最后建议:课程主要收获都来自实验,可以和数据隐私一样,取消考试,并加大实验区分度。

(最后修改于 2 0
水平价 2019秋

老师是个不错的段子手且非常可爱——“我不想上演屠龙少年十年后化身恶龙的故事,所以我全学期不点名”

这门课学到的东西和做到的东西几乎成为我所有面试的point(虽然据反映……这些方法太老了……emmmm

最后考试,计算量大成噩梦,但是老师给分非常好,不虚~~~

2 0
自学人 2021秋

等出分改评分,先默认好评

给后来者提个醒,小抄字号3.5是能且非常清晰的,

不要像我一样拿着字号小六的小抄发现考试be like this:

题目:A是什么,其中B有哪些细节

小抄:我们学过A

(最后修改于 1 2
以卿名是我本人(泪目
CauchyLovesU小抄7.5字号人直接泪目,,,

立即登录,说说你的看法

Lslightly 2021秋

刚考完,寄了寄了。

实验如果要用机器学习的话,对没有机器学习基础的同学可能不太友好,不过自学也挺好的,就是感觉网上搜资料不是很全,理解也不够透彻,出了一堆稀奇古怪的概念就需要七零八碎的去找。不过也许这就是“Web信息处理与应用”吧——从海量web信息中进行主成分分析(狗头)。

也许这门课真的得大四再上理解才会比较深入。

信息检索等相关内容还算比较容易理解。学了许多和自然语言处理相关的知识。

 

(最后修改于 1 0
DDDDDDEAFFFFFFF 2021秋

/uploads/files/4f3e73237f3907bc5ae3572e2fff1713c22a8e35.pdf

 

实验设计一般,扣一分

别的都挺好,等成绩更新

大四无所畏惧

0 0
H_101 2020秋

老师很nice 实验其实有太多可以深挖的 但是上课只能往广了讲。因为今年不用刷榜了,整体来讲实验也不算这门课的重点,大部分分数还是集中在考试上,所以实验做完感觉很多地方没有尽全力,想试的东西没有试。还挺遗憾的 其实实验都还挺有意思的

0 0
Page 2020秋

给Web献上评课社区的首评。

作业:大概有四次作业,每次作业的客观题基本都是考试要考的点,最好认真完成;主观题言之有理即可,可以参考各种资料并且发挥自己的想象力。

 

实验:三次实验。内容其他同学有提到过。今年没有去年的“军备竞赛”了,实验的运行时间、效率在实验中占的分数也不是很多,可以至多两个人组队完成,组队和单人完成在评分方面没有什么区别。后面两个实验个人感觉coding的能力是次要的,关键是能检索到合适的模型,这样可以减少很多时间,建议在实验前先进行一些调研。

 

上课:徐老师讲课比较生动,不过连着听三节课到最后一节的时候还是会有些疲惫。PPT比较精简,重点突出,很适合复习。而且老师会在考试前划重点内容,很多PPT上的内容考试是不涉及的,建议一定要去听。

 

碎碎念:个人感觉徐老师是科大里为数不多的可以和学生打成一片的老师,和我们的年龄相对比较接近。平时也会水群,打断同学们在群里的复读。本人复习的时候有不懂的问题,尝试直接给老师发了QQ,老师回复得也很及时,点个大大的赞。另外,就个人感觉而言,大三的同学如果选这门课有利有弊,利在于没有那么卷,而且可以作为ML的入门课,当然这也意味着大三上的压力会增大,这门课的实验认真做起来还是需要投入不少时间的(当然没有编译实验花的时间多

0 0
无名之辈 2020秋

10分!

老师讲课风格幽默,内容充实,上课像听相声

一共3次组队双人实验,第一个是倒排表、布尔查询、语义查询,第二个是关系抽取、实体识别,第三个是豆瓣评分预测。第一个工作量比较大,后面两个调研了不少,但代码主要是调包,感觉总体工作量还好。实验好好写还是能学到不少东西的,习题课助教还会分享优秀实验案例,看到大佬是怎么做的也能学到不少。

给分超好,我期末把写索引矩阵看成算 tf-idf 矩阵,运算量翻倍,出考场才发现看错题了。本来以为自己凉了,没想到老师捞我,出分狂喜。

(友情提醒,考前记得复习PCA)

 

0 0
HenCerbin 2020秋

大三零ML基础萌新,摸了两天来写评论

这门课其实给我的印象更像是一门机器学习+NLP的入门课,理论都只讲个入门,所以也不用担心太难。毕竟里面的任何一个章结拿出来都可以单独成一门课(所以老师给了很多的课外阅读材料,虽然我铁懒狗是一点都没看)。

作业量很少,且难度不大,计算题都是课上讲过的东西,开放型问题随便认真听了课就可以。

这门课主要的还是三个实验(本咸鱼:这个基础部分我都不会,附加就不做了吧    Kaggle大佬:这不是秒杀)。

  1. 邮件搜索引擎:不做额外索引方式的话难点其实是在对于大量邮件的处理,54万封我跑了一个晚上。推荐提前开始做,可以考虑一下并行的方式加速。卷王可以考虑做一做。

  2. 英文文本信息抽取:分为实体抽取和关系分类,网络上一大堆资料论文源代码可以参考,本咸鱼随便找了几篇看了一下,感觉我上我也行,然后用了两天速成CNN,果断放弃,最后改了一下最基本的网络就差不多应付了过去(大佬轻喷)

  3. 豆瓣电影推荐:用课上的知识就能做了,本咸鱼想再练练ML技术便用的矩阵分解的方法。结果最后懒了也只做了最基础的部分,附加的时间约束和社交关系约束也是看都没看。

  4. 实验一个人做两个人做其实差不多,记得找个有ML经验的大佬抱大腿比自学强多了(看到群里大佬讨论实验的时候说的名词我都不懂的时候我是绝望的)

  5. 实验还是很开放的,不过本咸鱼做完了也没个底。没去习题课所以优秀实验也没有听到,有点可惜。其实做完以后征求一下助教的反馈和建议可以学到很多东西(不知道助教什么时候改完的实验,没去问也有点可惜,不过给每个组都反馈确实不太现实)。

同上diss一波计网,同样都跟网络有关,同样是3.5学分,无论是上课,实验,考试,还是实用性都被web完爆,宁怎么这么拉垮呢??

0 0
Indigo6 2019秋

1. 年轻老师,过来人,人超好。“只要你上课前QQ跟我说一下请假,就能请假”

2. 我是大三太累了,期末前崩溃退选大四补选的,大四在外实习,老师签“外地上课”允许表也很干脆,要求作业电子版按时提交、实验要做和赶回来期末考试就行

3. 大四狗不看给分( ‵▽′)ψ

0 0
夏树 2019秋

徐童老师的课件是这四年碰到的课件中做的最好的(其次是金培权老师)

讲课也很nice

0 0

徐童

教师主页: 戳这里

其他老师的「Web信息处理与应用」课

徐童老师的其他课

社会计算 10.0 (2) 2022春 2021春
数据科学基础 8.0 (1) 2020秋
数据科学导引 7.0 (1) 2020春