关于爬虫并发量的疑问
时间: 2020-08-27来源:V2EX
前景提要
我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?1. 框架的并发设置是 500( 实际只有 50 ) 2. 源网站性能应该是没问题的 3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右) 4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了 5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右 6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈) 求大佬们解惑

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行