电脑装配网

利用八爪鱼网络爬虫技高效采集

 人阅读 | 作者lilintao | 时间:2023-07-13 11:46

八爪鱼采集系统软件的安装与登录

打开八爪鱼官网(http://www.bazhuayu.com/)下载最新版本,安装到本地计算机,软件需要 NET Framework 3.5 SP1 支持,在安装时软件会自动检测是否安装了 NET Frame work 3.5 SP1,如果没有安装则自动从微软官方在线安装。安装完成后使用电子邮箱或者手机号码免费注册账户并登录。

采集目标网站元数据的操作流程,以维普期刊导航数据为例创建数据采集流程

创建采集任务

(1)进入主界面,点击右侧导航条“任务”按钮,打开任务界面,点击“新建”下拉菜单,选择“自定义采集”。

(2)输入采集网址的方法有“手动输入、从文件导入、批量生成和从任务导入”四种,可以先把需要采集的目标网址 URL 保存到一个文件中,再将目标网址 URL 复制粘贴到网址输入框中,注意输入的网址不要超过 1 万条,这里我们选择手动输入即可,点击“保存网址”。内置浏览器会打开网页,右边的操作提示显示“请选择页面元素”,点击核心期刊导航中的折叠按钮,在操作提示中点击“点击该元素”按钮,网页上的折叠区域打开,同时在流程图中自动添加“点击元素”。

创建翻页循环

若需要采集的元数据比较多,出现多页分布情况,则需要创建翻页循环。

(1)点击其中一个期刊类别链接,打开网页之后,点击右上角的 流程 按钮,使制作的流程呈现可见状态。点击网页下方的“下一页”按钮,选择“循环点击单个链接”,翻页循环创建完成。可在左上角流程中手动点击“循环翻页”和“点击翻页”几次,测试是否正常翻页。

(2)若加载详情页时加载速度很慢,网页一直处于缓冲状态,无法立即执行下一个步骤,可以在“循环翻页”的高级选项里设置“Ajax 加载数据”,超时时间设置为 3-5 秒,点击“确定”按钮,八爪鱼在采集数据时将会等待3-5秒时间,让浏览器加载网页数据,让下一步骤得以顺利执行。

创建列表循环

若需要采集的元数据常常以表单格式分布在目标页面,则需要创建列表循环。

(1)用鼠标右键点击网页上的“中国科技核心期刊”按钮,可以看到自动有红色虚框框住链接按钮,在操作提示中提示“已选中一个链接,同时发现34个同类链接,您可以”,点击“选中全部”,操作提示框提示“已选中 34 个链接,以下是列表,您可以:采集以下链接文本、采集以下链接地址、采集以下元素 innerHtml……循环点击每个链接”。

(2)鼠标点击“循环点击每个链接”按钮,流程图中自动创建一个循环点击元素的流程,对其他元素进行同样的操作,可以一一打开不同深度的页面。列表循环就创建完成,并进入到第一个循环项的详情页面。若进入详情页时一直在缓冲状态,无法执行下一个步骤,可以在“点击元素”的高级选项里设置“Ajax 加载数据”,Ajax 超时设置为 3 秒,点击“确定”。

(3)数据提取,接下来采集具体字段,分别选中页面中需要抓取的元数据,点击“采集该元素的文本”,可以在“配置抓取模版”中修改字段名称。若需要抓取的元数据占据多行,可以用鼠标点击其所在的位置,点击“操作提示”框中的右下角图标 ,扩大选项范围,直至包括全部正文内容,选择“采集该元素的文本”,修改字段名称,数据提取完毕。

(4)若网页加载速度非常慢,或者要避免访问页面较快出现防采集问题,可在流程各个步骤的高级选项里设置“执行前等待”几秒时间,设置后点击“确定”。

数据采集及导出

(1)点击左上角的“保存”按钮,点击“开始采集”按钮,弹出对话框中有“启用本地采集、启用云采集、设置定时云采集”三个选项。选择“启动本地采集”,“启用本地采集”用于测试流程是否正确,也用于免费采集数据任务,其它两个选项为收费项目。

(2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出,这里我们选择 Excel 作为导出格式,保存文件,数据就导出来了。


文章标签:

本文链接:『转载请注明出处』