Web信息处理与应用(金培权, 徐林莉) 2018秋 2017秋 2016秋 2015秋 2013秋  课程号:01117901
2018秋 2017秋 2016秋 2015秋 2013秋  课程号:01117901
6.8(12人评价)
6.8(12人评价)
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
选课类别:计划内与自由选修 教学类型:理论实验课
课程类别:本科计划内课程 开课单位:计算机科学与技术系
课程层次:专业选修   学分:3.5
课程主页:暂无(如果你知道,劳烦告诉我们!)
简介 最后更新:

该课并非研究生课。现为2018本科大四安排的方向课程

AI 总结 AI 总结为根据点评内容自动生成,仅供参考

课堂内容: 《Web信息处理与应用》课程由两位老师负责,前半学期由金培权老师讲授信息提取、处理、检索,后半学期由徐林莉老师讲授数据挖掘和机器学习。金老师的中文PPT内容详细有条理且易懂,徐老师的英文PPT则深入浅出但内容相对简单。总体上,课堂互动不多,课程内容偏书面传达,学生评价褒贬不一。部分学生认为内容丰富、有实用性,但也有学生认为徐老师讲解较难理解。

作业: 课程给分比例中,作业占20%。金老师的作业量适中,难度适宜,但徐老师的作业较为开放和设计化,需要结合课堂及网络知识完成。大多数同学认为作业设计合理,难度适中。

实验: 实验是课程的重点和争议点。实验分为两个部分,共占20%: 1. Lab1: 个人实验,设计一个基于dbworld的搜索引擎,涉及Java编程、Java Web框架、NLP库和全文检索库的使用,难度较大,学生反映收获颇丰但工作量较大。 2. Lab2: 分为三部分,包括个人分类或聚类实验,以及组队完成的推荐系统和社交网络分析实验。部分学生评价这些实验时间安排不合理,工作量大且分值不高。

期末考试: 考试形式为闭卷,占60%。考试内容主要基于作业和往年题目复习,复习大概需要2天时间。学生普遍反馈考试中规中矩,难度适中,但成绩分布比较极端,部分学生对给分不太满意。

给分: 课程给分存在一定争议。部分学生反映自己在认真完成所有任务及复习后,总评依旧不理想,怀疑给分主观性较高。另一些学生则表示总评合理且成绩较高。建议选课学生需对实验拖延情况有心理准备。

总结: 课程整体内容丰富,适合有基础和时间较充裕的同学,尤其适合大三选修。实验部分收获较大,但安排紧凑且工作量大,需要提前规划时间。上课并无点名,对外实习或科研的同学比较友好。考虑到工作量和时间要求,建议学有余力并有强大执行力的同学选修此课。

排序 学期

评分 评分 12条点评

(' - ') 2018秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:很多

整体来说是这是一门很有内容的计算机学院方向课,但是并不适合每个人。

首先是对“这是一门水课”的辟谣。这个说法很可能是数年前的,就我个人体验和与之前一些学长的交流来看,计算机学院的课程越来越多的都从“水课”变成了不水的课,这对于很多有志于锻炼自己能力,想学习到更多知识的同学不是坏事,对于那些混吃等死的同学可能是一件坏事。总而言之,就 2018fall 的课程安排来看,Web信息处理与应用这门课显然算不上是一门“水课”。

2018fall 的课程安排主要是由课堂内容 + 作业 + 实验 + 期末考试组成,下面详细介绍。

课堂内容:主要是 PPT 授课,互动不多,每节课是 3 个课时,让人有点疲倦。前半学期完全由金培权老师(也是数据库老师)负责,后半学期完全由徐林莉老师(也是人工智能基础老师)负责,两位老师讲得是比较有条理,有热情的。均没有点过名,没有小测。课程结束后会在主页更新 slides,金老师讲的信息提取、处理、检索部分是中文 slides,特点是内容组织非常详细有条理;徐老师讲的数据挖掘(或者说更像是机器学习)部分是英文 slides,特点是深入浅出抓住知识主干,但是不够具体。我个人作为异步学习者平时没有去听课,期末复习靠两位老师的 slides 复习体验极佳,前半部分只需要掌握 slides 即可,后半部分需要根据 slides 上的内容结合网上搜索才能掌握。

作业:一共有 8 次作业,金老师部分是和课堂内容配套的基础练习题,题量适中,学了就会;徐老师部分是一些扩展和设计类题目,题量很少,但需要理解课堂内容 + 自行上网搜索相关知识来完成。作业设计得比较合理,也不折腾人。作业占分 20 分,多数人都能接近满分。

实验:这是本门课程争议最大的地方,主要是分数占比、工作量和时间的安排可能不合理。实验有两个,共 20 分,各占总评 10 分,其中:

  • lab1: 个人实验,设计一个针对 dbworld (类似一个发布学术期刊会议的“邮件列表”)的搜索引擎。要求:提取 DDL,提取关键词,地点等,扩展要求有根据 CCF 推荐会议排名等。这是一个很有实际意义然而又很难下手的实验,主要难在爬虫编写测试,Java 编程,Java Web 框架(如 Tomcat)使用,NLP 库(如 Stanford CoreNLP)使用,全文检索库(如 Lucene)使用上。可以说是一个很完整的 Web 网站了,我的代码有 1.5k 行左右,但是我也通过这个学习到了很多东西。最后得分是 10/10 分。
  • lab2-1:个人实验,自己选取 UCI 数据集并实现分类或聚类任务,不能使用机器学习库。这个比较简单,而且没有硬性指标要求,我用 Python + Numpy 实现了数据预处理和 KNN 和 Logistic 算法,实现了手写数字识别。这个实验占 3 分,我们是 3 分。
  • lab2-2-1:组队实验(三人),根据 MovieLens 用户评分设计推荐系统,是一个开放性实验。需要用到不少算法,由于分工原因我没有具体了解这个实验,但是看起来需要做的不少。这个实验占 4 分,我们是 4 分。
  • lab2-2-2:组队实验(三人),根据 https://files.oakland.edu/users/grossman/enp/Erdos1.html 里面提供的 Erdos 共同作者进行网络建模,网络可视化,影响力分析,社群发现。这是一个非常有趣的实验,然而要完整做好需要实现的算法不少,如 Degree Centrality,Closeness Centrality,Girvan-Newman,Spectral Clustering,Kmeans 算法等,都需要自己实现。在写的过程中我一般是先用 networkx 里面的已有的算法先看效果,再自己实现,代码量约有 500 行,收获很大。这个实验占 3 分,我们是 3 分

实验均要求写实验报告,强调科学严谨、内容丰富、排版美观,并且占分不少,我们是用 LaTeX 写的,自认为写得还不错,实验总分也是满分。虽然实验设计得很不错,然而安排非常难受,lab1 很难下手,导致大家都拖着没做,ddl 是考试前一天,拖到后期我们有大量考试,导致没时间做实验,居然又突然得知还有 lab2,后来 lab2 截止时间被调整到了考试后,稍微好一点。

期末考试:闭卷,考试中规中矩,基本是作业内容 + 往年题目,复习大概要花 2 天时间。考试占总评 60 分。

总的来说这门课还是很不错的一个方向课,学有余力的同学可以在大三上选 ,据我所知这门课放弃的人不少,主要不是因为太难,而是因为工作量太大了,实验的内容对大家来说都比较陌生很难下手,隐藏了大量调研和上手时间,巨大的工作量在考试月和其他课程冲突严重。

最后总评是 4.3,感谢老师和助教。

9 0 复制链接
islack 2018秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:一般

实验安排不合理。 时间上比较靠近期末, 而且工作量大分少。

我上个学期修了随机过程, 还算有时间, 也有同学提前修了计网。 而没有提前修的同学, 时间就比较紧, 有的同学最后只得放弃课程。

建议以后选的大三同学, 要有足够的时间。 或者有一个强大的肝也行. 不然实验 ddl 与 考试 两开花 ✿

2 0 复制链接
YUKA 2018秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:一般

一学期没去上过课。

金师兄(误)部分ppt一如既往比较易懂,莉莉的ppt执着于全英文。

实验拜去年各位师兄/同班同学所赐,改了。。实验一基于DBWorld搜索引擎,要用Stanford coreNLP。大四狗只求不挂,就水水的实现了基本要求。

考试往年相似度80%。大题:倒排索引、F值AP值MAP值、tf-idf、context-based和协同过滤简述、nomalized cut、逻辑回归。听说莉莉对k-means情有独钟,结果今年大题没考。


居然有4。。我慌了  感谢下金师兄和莉莉

1 0 复制链接
浮云兔斯基 2017秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:很多

jpq部分完全可以靠看ppt解决。xll部分就比较麻烦了……因为是英文ppt而且很多部分都只有一个概要。

实验两个。第一个真坑……调乱七八糟路径,和ictlas斗智斗勇的时间比写代码的时间还长。但确实收获挺大。第二个比较简单,时间比较长的几个算法建议用库,不然是算不完的_(:з」∠)_

考试中规中矩,而且据说和往年的题目差不多。

1 0 复制链接
长者 2017秋
  • 课程难度:中等
  • 作业多少:很多
  • 给分好坏:杀手
  • 收获大小:一般
  • 难度:中等
  • 作业:很多
  • 给分:杀手
  • 收获:一般

上课很水,期末考试也很水,看下ppt就可以。有两个大实验,分别是java实现一个搜索引擎(要用lucene,jsp,用eclipse ee,挺费时间的,坑很多),和用matlab实现一些聚类算法(需要下载bgl toolbox)。 我较早做完两个实验(第一个95,第二个质量应该也不错),期末考试应该也没错啥,最后只有3.3。。。

1 0 复制链接
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:中等
  • 作业:很少
  • 给分:超好
  • 收获:很多

作为Lily铁粉,打分的时候还是犹豫了一下。

先总结:推荐大三选这样大四才没课,当然大四选也很友好。

因为种种原因,大四才选这个课,所以对我来说时间是相当宽裕的。这课其实更适合大三的同学选,因为选了就可以凑够专业课学分,出去实习(当然现在的情况不知道怎么样,当时是这样的)。这门课实验的工作量并不小,所以大三就选的朋友要好好安排一下时间,毕竟你们还要准备下学期申请夏令营/实习申请/英语考试,或者努力努力再努力。

实验室事项繁忙,我并没有怎么去上课,后半段Lily上课有时候会去。没有点名,这个很适合在校外实习或者科研的大四党选。

实验内容前面有同学贴了,我不再赘述。实验一玩得还是很开心的,难度确实不算小,java web入门,在检索部分花了很多心思设计规则,最后效果非常好,助教也说是暂时见到的最好的一个。前端用Bootstrap搭了个界面,感觉还行。实验二因为自己的时间关系,就做得比较随便,合作部分也只能堪堪称得上没有坑队友。gephi挺好玩。

考试比较常规,没有超出上课范围。

最后喜提3.7,还占了师弟师妹们的优秀率,有点不好意思。

总体来说还是一门收获不少的课,挺实用的。如果实验一是那种花了很多时间,搞了很多feature(多线程,优秀的rank功能之类的),是可以写进简历中的。

0 0 复制链接
hly 2018秋
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:很少
  • 给分:一般
  • 收获:很多

关于上课

老师讲课很好,而且整个学期也没点过名,可以趁课间遛走

关于作业

jpq老师部分1-2周有一次作业,比较简单,可能是几个题目也可能是写个小程序

xll老师一共好像只布置来三次作业,基本搜一下就能找到答案

关于实验

jpq老师的实验是做一个搜索dbworld里面信息的一个搜索页面,实验ppt上推荐使用lucene、CoreNLP和JSP,因为对java比较熟悉,之前也做过前后端的东西,花了三天认真把这个做了,最后这个实验给了满分。如果之前没怎么接触过这些东西,保守建议腾出5天时间来做一下(当然如果同学们互相帮忙会更快)

xll老师的实验难度一般,而且可以组队,一共三个,一个是个人实验,从聚类或者分类里面选一个去做,剩下两个是团队实验,一个是推荐,一个是社区发现,组队可以2-3人组队,不允许使用机器学习的包去直接调用算法,但是可以使用numpy来做矩阵运算。

总之实验认真去做的话收获还是挺大的

关于考试

jpq老师的部分出的题目和作业题基本一样,很简单,xll老师的部分建议认真看她的ppt。很多同学提前1个小时就交卷了。

0 0 复制链接
Lotdhh 2017秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:一般
  • 收获大小:一般
  • 难度:中等
  • 作业:中等
  • 给分:一般
  • 收获:一般

今年课程实验改革,难度加大,加上很多同学以为实验水所以开始得比较晚,导致很多同学后面(12月左右)开始做实验的时候发现很难做,不少同学到后面退课了。

今年实验1改成基于DBWorld实现搜索引擎,加入了信息抽取的内容,在没有格式的txt里面抽取主题、时间和地点,整个实验难就难在这了。但是检查的时候发现助教检查得不是很严,只要检索一个关键词后能在结果里面找到这个词就可以了。实现基本功能有8分左右,有加分选项,实现会议排序加一分。

如果后面实验1没变的话,还是建议开始实验早一点,不然后面事情很多很容易翻车

实验2要求很多,实验报告还要求排版,实验报告占50%,不允许调库(听说之前是可以直接调库的),还没写完就不多评价了。

考试感觉搜索部分是文科,数据挖掘部分是理科。金老师出题中规中矩,考倒排索引之类的算法步骤;徐老师部分就比较蛋疼了,要证明算法的某个性质,比如今年的问逻辑回归算法是线性分类算法还是非线性分类算法并要求给出证明,这些东西貌似上课都没讲。

这里吐槽一下数据挖掘部分的助教,knn算法求k个近邻竟然需要将n个距离先排好序再选前k个,同学提意见也不听,这水平就有点问题了。

=======

mining部分实验完成了,继续吐槽一下这部分的助教(其中的某一个),这位助教自己连实验要求都不清楚,这说不过去了吧。

吐槽一下实验,真的要求好多,10分的实验被以零点几分的形式细分出很多要求(此处感谢上一届的努力),比如完成part 2的调研部分拿满分能在总评加10*40%*50%*20%的分。

=======

好气啊,这学期在这门课上花的时间是最多的,结果总评是最低的。

这门课还是不推荐选了

0 0 复制链接
ldeng 2017秋
  • 课程难度:简单
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:一般
  • 难度:简单
  • 作业:很少
  • 给分:超好
  • 收获:一般

三年来体验最差的一门课,前半学期金老师的部分还好,后半学期什么玩意,内容多又讲不清楚,考试还什么都要考。退课截止后才知道最后两个个实验内容,内容繁复还是闭卷考试,实验内容多却只占20分。

不知道水课的谣言是哪传出来的。

强烈不建议选择。

---------------------------------------------------------------------------------------------

之前结课的时候在气头上,给了不是很公正的评价,现在来编辑一下,稍微提高了一点分数(主要是给金老师的)。

总体来说结论不变,所有内容都是稍微一点而过,没能学到什么东西。特别是徐老师上的内容似乎和学生有些脱节(可能是不知道有那么多大三的学生来上这课?误以为我们都上过她的机器学习?)。

但是考试比较水,每年题目几乎一样,金老师的部分很正常,和作业题差不多。徐老师的部分真的迷,一些奇奇怪怪的证明(而且一道题15、20分),还有就是各种方法优缺点之类背书题。

助教也几乎是放羊,实验评价标准也非常迷,感觉完全是主观判断,实验内容多占分少。

第一个实验是用db_world的数据做个搜索引擎,乱搞一通,不按大家都用的套路方法出牌貌似就能得高分(据说花时间搞出个很漂亮的前端也行)。

最后期考完后还在搞第二个实验,一共10分居然分了三个部分,每个部分还有小项,于是就在为了每个小项总评不到1分在肝。

开课时说的是期末占60%,但是我几乎没复习后半学期内容,考试很多是瞎蒙,结果总评却异常的高(4.0),不知道是不是最后调整了实验的占比。

总之看起来传闻没错,的确是门水课,因为给分太好了。

但是还是学不到什么东西。

0 0 复制链接
Rat_racer 2017秋
  • 课程难度:简单
  • 作业多少:很少
  • 给分好坏:超好
  • 收获大小:很多
  • 难度:简单
  • 作业:很少
  • 给分:超好
  • 收获:很多

我觉得金培权老师讲课很不错,生动有趣,可以把复杂的东西讲的很清晰明白容易理解,课件做的也还不错。 

徐林莉老师讲课我觉得有点无趣而且比较简单,不如金培权,平时上课也没有多少人认真听。

金培权讲信息检索,爬虫,索引,查询搜索,信息抽取等。

徐林莉讲web mining,数据+分类+聚类+社交网络发现等。差不多就是数据挖掘+社区发现吧。

 

平时作业很简单,最后考试基本就是抽一些作业题+一些基础题。

两个实验,第一个是做一个搜索引擎以及简单的查询界面,lucene(索引,查询)+ictclass中文分词+tomcat(web服务器),用java写的,有一定难度。第二个实验室实现一些聚类算法,做社区发现影响力分析。用matlab写的。

注意:第一个实验最做好搜索界面拓展功能有加分,老师最后期末前会发一个Review,我觉得参考意义不是很大,因为太细节了很多都不考.....按照那个复习是没有时间的,只要把平时作业都看一遍,基础的要点都知道我觉得就差不多了。

给分不知道别人怎么样,我作业实验都交了,期末感觉还行吧,给了88.

 

课程主页:http://staff.ustc.edu.cn/~jpq/courses/webinfo.html

 

0 0 复制链接
xymeow 2015秋
  • 课程难度:中等
  • 作业多少:很少
  • 给分好坏:一般
  • 收获大小:很多
  • 难度:中等
  • 作业:很少
  • 给分:一般
  • 收获:很多

感觉这门课还可以吧。。课程分为两部分,上半学期是jpq讲信息检索的,下半学期是xll讲数据挖掘的。我感觉内容不难,大三上完全没压力。我觉得两位老师讲课还不错的。。

课程有两个实验,第一个是自己搭一个简易的搜索引擎,这个有点费时间,自己好好做还是收获蛮大的。第二个实验是让你在一些数据集上面做社区发现,就是自己实现一下上课讲的那几种聚类算法,这个比较水,一天搞定没什么压力。

至于考试嘛,我记得就7道大题,比较水,和平时作业差不多的类型,作业自己做的话我觉得考前看一天差不多就稳了。。

给分我觉得很好啊23333

0 0 复制链接
runday 2015秋
  • 课程难度:中等
  • 作业多少:中等
  • 给分好坏:杀手
  • 收获大小:没有
  • 难度:中等
  • 作业:中等
  • 给分:杀手
  • 收获:没有

先金培权讲(讲得久又水),然后徐林莉,给分是金培权负责,给分不好,两个大实验都挺坑的,还有期末考试,最后成绩73

0 0 复制链接

金培权

教师主页: 戳这里

徐林莉

教师主页: 戳这里

其他老师的「Web信息处理与应用」课

徐童 8.7 (46) 2024秋 2023秋...
未知 2016秋

金培权老师的其他课

数据库系统及应用 9.0 (35) 2024春 2023春...
高级数据库系统 9.0 (33) 2024秋 2023秋...
高级数据库技术 9.5 (2) 2024秋 2024春...
数据库系统及应用 5.0 (3) 2017春 2016春...
数据库概论 2016春 2015春...
数据库原理 2003春
数据库基础 2010秋 2009秋...
数据库安全 2012春 2010春...
数据库概论 2002秋
数据库系统及应用(A) 2004春 2003春
数据库概论 2017春

徐林莉老师的其他课

人工智能基础 10.0 (1) 2013春 2010秋
“科学与社会”研讨课 8.0 (1) 2024春 2023秋...
人工智能基础 7.4 (33) 2023春 2022春...
新生“科学与社会”研讨课 1.0 (1) 2020春 2019秋...
机器学习与知识发现 3.8 (12) 2024秋 2023秋...