网站类目爬取技巧
我们在爬取网站的时候,经常因为找不到类目入口需要人工整理类目元数据,再输入到爬虫程序里面,这边介绍的方法目前有两种,1. 获取 JS 对象里面的数据,2. 通过 url 分析,后续在补充
JS 对象里面包含的数据
以京东手机触屏版为例, 打开首页类目的页面
https://so.m.jd.com/webportal/channel/m_category?searchFrom=bysearchbox
我们分析的 JS 的事件 event 都在 document 文件内部,所有我们我们将 html 文件下载到本地并格式化
这个 JS 的文档就是我们想要的数据
1 | # 这样也可以导出JS对象成Json数组 |
通过获取类目 URL
这些原理都是很简单,首先都是要选择
元素,然后观察
事件的 event,分析 JS 代码