前景提要
hello,小伙伴们大家好,今天给大家推荐的开源项目是 : CxSpider ,这个开源整合了作者自己的采集过的所有产品,包括微博、Twitter 、玩加、知网、虎牙、斗鱼、B 站、WeGame 、猫眼、豆瓣、安居客、居理新房感兴趣的小伙伴可以下载看看,应该可以给你提供一个可借鉴的思路。
Project
爬虫详情
1. Twitter 用户信息爬虫(twitter.user_info) @ author ChangXing @ version 4.1 @ create 2017.12.25 @ revise 2020.06.08
使用第三方模块 twitter-scraper 采集 Twitter 用户信息;因为该模块采集的粉丝数和关注数可能存在偏差,因此再通过 Selenium 抓取 Twitter 用户信息,以更正该模块采集的数量。 采集信息:粉丝数和关注数为 twitter-scraper 采集并配合 Selenium 爬虫检查,其他字段为 twitter-scraper 采集。 应用配置:无需使用代理 IP,需要使用 Selenium
2. Twitter 用户推文爬虫(twitter.user_tweet) @ author ChangXing @ version 4.0 @ create 2017.12.30 @ revise 2020.06.08
微博热搜榜实时爬虫(weibo.hot_ranking) @ author ChangXing @ Version 1.1 @ create 2020.05.29 @ revise 2020.06.08
定时采集微博热搜榜。 采集信息:每 5 分钟采集 1 次,每次约 50 条记录→每天约 14400 条记录 数据清洗:热搜榜置顶热搜(固定第 1 条)和广告热搜(标注推荐) 应用配置:无需使用代理 IP 、无需使用 Selenium
环境变量
爬虫功能的正常使用需要配置如下环境变量,可以直接修改 environment.py 中的环境变量值,也可以修改配置 Json 文件。
环境配置
Python/Pip 环境 Python >= 3.8.0 requests >= 2.23.0 idna >= 2.9 urllib3 >= 1.25.9 certifi >= 2020.4.5.1 chardet >= 3.0.4 bs4 >= 0.0.1 beautifulsoup4 >= 4.9.0 soupsieve >= 2.0 apscheduler >= 3.6.3 pytz >= 2019.3 six >= 1.14.0 tzlocal >= 2.1 setuptools mysql-connector >= 2.2.9 lxml >= 4.5.0 selenium >= 3.141.0 (用于 Selenium 爬虫) urllib3 >= 1.25.9 twitter-scraper >= 0.4.1 (用于 Twitter 用户信息爬虫) requests-html >= 0.10.0 MachanicalSoup >= 0.12.0
开源地址: https://github.com/ChangxingJiang/CxSpider
今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言或点赞,以表示对我的支持,你们的留言,点赞,转发关注是我持续更新的动力哦!
关注公众号回复:" 1024 ",免费领取一大波学习资源,先到先得哦!