Web信息处理与应用(徐童) 2019秋  课程号:01117901
2019秋  课程号:01117901
9.5(4人评价)
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:超好
  • 收获大小:很多
选课类别:计划 教学类型:理论实验课
课程类别:本科计划内课程 开课单位:计算机科学与技术系
课程层次:专业方向 学分:4
课程主页:暂无(如果你知道,劳烦告诉我们!)
点评 写点评
taoky 2019秋

这学期的 Web 课换了新的老师,所以课程的风格也和(我听闻的)以往差别比较大。包括作业、实验和考试形式都出现了很大的变化。

课程仍然分成了检索、抽取和挖掘这三个部分,但是侧重点有变化,比如说讲了多模态检索,没有讲逻辑回归。作业有 4 次,每次作业都是计算题 + 论述题(有些发散性)的格式。

实验分成了三个必做的(军 备 竞 赛)实验 + 一个开放实验。大概内容:

  • 开放实验:完成爬虫类的指定任务。我抢到了 Leetcode 讨论的爬取的任务,大概用了两三天时间整完。代码在:https://github.com/taoky/leetcode-discussion-spider。因为是赶工的(DDL 前在搞 iGEM),所以代码质量其实很糟糕。(小声 PS:国外网站对爬虫的限制很多都比国内的网站(如豆瓣)松得多,如果你选择了反爬严格的网站,你很可能不得不交一笔钱买代理池,或者用一些「奇技淫巧」解决问题,见下)
  • 实验一:对给定的一些查询,在文档池里找到前 20 个结果提交。一开始 TF-IDF 效果一般,还为了刷成绩加了很多人工的规则。最后换了 ElasticSearch,太香了。
  • 实验二:医疗文本的 NER(命名实体识别),有些搞笑的是测试集可以在网上搜到(真正的信息检索实验,大误)。最后我直接调了 CRF,想去弄 BERT,但是失败了。
  • 实验三:使用豆瓣的数据预测用户对电影评分(推荐系统)。我一开始直接用 surprise 的 SVD 去做,后来和我组队的 F 同学用他快过期的 AWS 代金券,在上面开了一大批实例来爬,技术细节见 https://ibugone.com/blog/2019/12/mass-crawl-douban-with-aws/

实验的整体感觉是:刷榜(军备竞赛)的形式给同学带来了一定程度的压力,我感觉最后花在 Web 实验上的时间都超过了自己花在编译实验上的时间。另外自己的一点感触是,现在人工智能的热潮,其实有些不怎么靠谱,吐槽原文就不贴过来了……

期末考试半开卷(以往都是闭卷)。相应的,考试题目量增大了不少,尤其是最后一题:布尔查询,TF-IDF,虽然有着送分题的表象,但做着就会发现要画一个超大的矩阵,每一项都要 TF-IDF,还要归一化,一下子就变成了 送 命 题。

最后给分很好,感谢老师和助教。

 

2020-01-25 00:11 6 7
TheLitFire 2019秋

我来说两句课程吧:

1. 老师上课可谓是十分有趣,以可能引起极少数杠精群体不适的方式经常扯段子(甚至是ha学);时常在群里与同学们充分交流,拿到龙王那是常事;很能理解同学们划水的心情,并以不限制到课率但实验+作业玄乎其玄地方式引诱大家回到课堂,尽管效果很差。

2. ppt很用心,不是照本宣科而是辅助讲课使用,当然这也意味着其实ppt并不能很好地让你自行异步理解这门课程的内容。还是建议认真听讲(甚至笔记?)。另外ppt请勿外传,以免送命。

3. 请学会python+一定的机器学习应用经验(包括遇到一个问题怎么搜索模型、如何load数据、如何调超参)再来做实验。

临考前用了一次机会退课,不用手算tf-idf了,很爽(大雾)(舍友三人齐心协力搞了个4字号的一万多字A4纸,涵盖全部ppt考点,太惨了(我一个计网大抄五万字的人在说什么?))

给九分:老师的课程风格我蛮喜欢的,但总的来说,体验不是那么好吧;一定程度上是ppt的锅。

 

ps:老师是看评课社区的,半小时就被回复了(

2020-01-28 09:19 3 0
夏树 2019秋

徐童老师的课件是这四年碰到的课件中做的最好的(其次是金培权老师)

讲课也很nice

2020-05-13 21:48 0 0
水平价 2019秋

老师是个不错的段子手且非常可爱——“我不想上演屠龙少年十年后化身恶龙的故事,所以我全学期不点名”

这门课学到的东西和做到的东西几乎成为我所有面试的point(虽然据反映……这些方法太老了……emmmm

最后考试,计算量大成噩梦,但是老师给分非常好,不虚~~~

2020-03-21 23:28 0 0

其他老师的「Web信息处理与应用」课

金培权, 徐林莉 6.5 (11) 2018秋 2017秋...
未知 2016秋

徐童老师的其他课