CarterCat's Blog.

爬取某度百科的历史上的今天-初探

Word count: 470 / Reading time: 2 min
2019/01/09 Share

爬取某度百科的历史上的今天-初探

背景:

本来是想放在公众号中,将历史上的今天的数据抓取下来,当作每日推送。

初期设想:

  1. 获取wiki的数据;
  2. 自动推送图文消息。

但是在实现的过程中遇到了几个问题:

  1. Wiki数据难获取;
  2. Wiki访问受限;
  3. 调用自动推送图文消息的接口,需要订阅号认证。

这些问题,解决起来需要时间和精力,于是我将方向调转,找到了某度百科,发现有类似的功能,虽然数据少的可怜,并且各种被河蟹,但是至少能用。

地址在此

过程:

选择好了方向,剩下的就是想办法获取数据,作为一名有追求的软件测试工程师,每天手动打开网页复制粘贴是不可能的,这辈子都不可能的。

默默的打开了调试工具,发现了某度百科的请求地址:

(这么明显的暴露出来,真的是干得漂亮!)

https://baike.baidu.com/cms/home/eventsOnHistory/01.json?_=1546921274875

我们分析下这个URL地址,01.json中数字代表着月份,_=1546921274875这一串看着像是时间戳,可以忽略。

总结来说,我们只需要使用get方法,按照不同的月份请求https://baike.baidu.com/cms/home/eventsOnHistory/月份.json,就能获取到需要的数据,加上循环,可以一次性获取一整年的数据。

再看下返回的json数据:

已经按照不同日期划分好了格式,不要客气,用它。

总结:

  1. 虽然数据少的可怜,但是简单,容易上手;
  2. 一次获取一整年,性价比可以;
  3. 还是喜欢wiki的数据,有空再研究下怎么获取吧,下次更新。
CATALOG
  1. 1. 爬取某度百科的历史上的今天-初探
    1. 1.1. 背景:
    2. 1.2. 过程:
    3. 1.3. 总结: