迫于很多人问,放出「the.top 」各大网站热门资讯 API
时间: 2020-08-21来源:V2EX
前景提要
拓扑排行榜 https://the.top
本来我只是随便玩玩,没想到后来不断改进成了现在这个样子。

刚开始的时候就几个节点,后来慢慢增加到了现在大约快 200 个节点,爬虫代码也写了一千行(不算调度与杂项), 这些节点根据多方面考量,大致分为 五分钟、一刻钟、一个小时、三个小时、六个小时、十二个小时、二十四个小时等不同的定时爬取等级。
为什么放出 api ?
有利益考量,也有发电情怀。 有不少人需要,一些导航网站或者自己博客,甚至是自己练手写着玩。再写一些爬虫,学习成本高。 激励自己维护节点,由于这些节点都是我一个人写的,所有导致一些节点出现了问题不能及时发现,希望各位在使用过程中能够及时的将问题反馈到群中。 提高知名度, 希望使用者在使用的过程中挂上友情链接,或者注明来源。 节省服务器带宽,已经有一部分人开始直接爬取 the.top ,不如直接放出 api 。
如何使用 API ? 查询所有节点相关信息
节点分为大节点和小节点,拿知乎来举例子,知乎是个大节点,知乎子板块比如全站热搜、科学板块热搜、运动板块热搜,这些就是小节点。
API 地址: https://the.top/nodes
如下图:
根据节点取信息
假如你想取知乎 最热门的讨论: API 地址: https://the.top/v1/节点名称 /第几页 /每页多少数据
那你就该访问: https://the.top/v1/zhihu_total/1/20
返回如下格式数据:
其中 pages 就是 总页面数,count 就是你获取的条数,data 里面的每一个成员都是一条新闻,包含了标题、链接、热度等信息。
知乎实时热搜数据大约 50 条,如果你取每页 50 条数据,那么返回的 pages 就会为 1
关于稳定性:
自己写的爬虫,还算挺稳定的,除了个别偷懒的节点,主流节点自从我写完以后基本没有出过问题。
使用交流及反馈交流群:
QQ 群:114177
如果你有好的节点分享, 我也会考虑写一个对应的爬虫。 谢谢。

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行