要爬网页,选哪个爬虫好?Nutch? Heritrix?
时间: 2011-05-12来源:开源中国
前景提要
HDC调试需求开发(15万预算),能者速来!>>>
爬取网页的指定信息,不需要保存完整页面。比方说阿里巴巴的需求信息,爬取后转换为本地数据结构数据库存储。当然,如果它的需求信息更新了,我还得跟新我的本地数据,所以还的判断网页是否更新。索引及查询用Lucene就行了,现在是抓取部分,不知道哪个软件定制化程度高一些,而且要容易使用,因为我是菜鸟...

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行