有关Selenium做爬虫方式的资源消耗的问题
时间: 2015-02-12来源:开源中国
前景提要
HDC调试需求开发(15万预算),能者速来!>>>
@黄亿华 你好,想跟你请教个问题:
我们采用了selenium的webdriver作为引擎,进行网页数据的抓取、以及后续的解析、数据持久化。webdriver采用chromedriver。
为了到达抓取的目标页面,需要有复杂的交互,因此,选webdriver,为开发过程提供了便捷。
实际操作过程中, 一台8G内存的window机器,实际可同时打开的webdriver的数量并不多,大概100~200个, 而且,会出现chrome浏览器崩溃,windows内存耗尽等问题。导致,单机的并发处理能力并不乐观。
考虑到单独打开一个chrome页面,所消耗的cpu、内存较大,请问有没有什么好的建议,或者,你所采用的方式有没有其他好的解决方案?

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行