nutch2.2.1抓取时对已经抓取过的数据重复抓取
时间: 2016-07-25来源:开源中国
前景提要
HDC调试需求开发(15万预算),能者速来!>>>
@S2JH 你好,最近在nutch2.2.1开发使用时,发现了一个问题,请教一下您:
问题描述:出现重复抓取现象,即第二次抓取时会将第一次抓取的数据再抓取一遍,第三次抓取时会将第一次、第二次抓取的数据再抓取一遍,总之就是本次抓取会将新数据和前面已经抓取过的数据再抓取一遍;( urls里面有一个链接,第一次抓取时抓取urls里面的链接,解析此链接产生50条数据并存入数据库,第二次抓取时应该只抓取刚产生的50条数据才对,但是却抓取了数据库中的所有数据51条,即第一次抓取的数据又抓取了一遍;第二次抓取数据产生了100条数据并存入数据库,第三次抓取理论上应该是抓取第二次抓取时产生的数据,但是同样是抓取了数据库中所有的数据,将第一次、第二次抓取的数据又抓取了一遍,就这样一直重复抓取,影响了速度,而且页面解析时会出现重复数据,这个问题怎么解决呢 )

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行