本篇教程为高级实战案例,用【连接任务】采集豆瓣电影分类排行榜及其对应的具体电影信息。
#插件安装及新手入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程
1.豆瓣电影分类信息。
2.具体分类下的电影信息。电影名称 / 主演 /上映时间及分类 / 评分数 / 评价数
1. 确保账号已登录,打开豆瓣电影分类排行榜网页,点击浏览器插件栏的“爬”字图标,启动插件。
2. 点击页面上需要采集的信息。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。
3. 点击column1的“额外属性”按钮,勾选”href”作为连接两个任务的共同元素。(#注:本例第一个任务只采集分类名称以及分类URL)
4. 先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。
5. 确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。
6. 点击“提交”按钮,第一个任务“豆瓣电影_分类”创建成功。
7. 点击当前页面任一电影分类,进入具体页面,重复第一个任务的创建步骤,建立第二个任务。(#注:可根据采集页面的具体情况,添加操作类型。本例下载器为js-engine,添加了”滚动”操作,并设置等待时间为2s,次数为50)
8. 确保第二个任务测试成功后,点击提交,创建任务”豆瓣电影_具体信息”。
9. 点击爬一爬官网“任务”页面下的“连接”按钮,弹出连接任务的界面。将“豆瓣电影_分类”设置为任务一,将“豆瓣电影_具体信息”设置为任务二,勾选任务一的“分类URL”列作为连接两个任务的共同元素,填写任务名称后点击保存。
10. 在爬一爬官网的“任务”界面,出现了新创建的连接任务“豆瓣电影分类排行榜”,点击运行。
11. 在任务运行期间,可通过该任务管理页面,查看运行状态。
12. 任务运行结束后,点击官网“任务”页面的“数据”选项即可查看并下载数据。(#注:连接任务的数据为2张表)
按照操作步骤,自己创建。(#自己的动手,丰衣足食,O(∩_∩)O~)
在官网“小市场”页面,免费获取任务,具体数据可在官网论坛处下载。
①本例下载器为js-engine
②添加了”滚动”操作,并设置等待时间和滚动次数。
③若觉得采集过快,可将频率值大一点,若过慢,则设置小一点。
如果对哪方面数据感兴趣,也可在评论区留言,日后做教程分享给大家!