Alan Hou的个人博客

如何使用火车采集器采集数据

很多朋友在做SEO建站群或者独自创建、运营一个或多个网站时都会存在工作量比较大的问题,这时您可能会需要快速批量获取一些网络资源以充实自己的站点。火车采集器是一个比较专业的工具,当前版本为V7.6,可进入其官网下载Locoy火车采集器,普通用户下载免费版即可满足使用需求。在下载到的压缩包中双击LocoyPlatform.exe将会弹出下面的开始页面,创建新任务点击”分组”>”新建任务”

Locoy火车采集器v7.6开始页面
进入创建任务的流程,第一步是为任务命名,然后在采集网址规则标签下点击“添加”添加所采集网址规则。您可选择采集单条网址,批量/多页采集等,图中Alan以overstock.com 为例创建了采集该站中10页的规则。创建完规则后会在预览中看到将要采集的网址,先点击“添加”再点击“完成”即完成创建。

第二步创建采集内容的规则,主要需要分析目标网页代码的规则,点击左侧的添加或修改设置代码中的起始标签或代码即可采集相应的内容,如要采集标题,则分别在开始字符串和结束字符串中输入<title>和</title>。创建完规则后可在界面右侧典型页面处输入一个网址点击“测试”测试规则是否有效,至此点击“保存”即完成了采集的准备工作。至于第三步,实际上是有关内容发布的内容。


如下图为采集meta中的描述的规则

此时回到欢迎页面,勾选对应任务名(此处为ABC)右侧“采网址”和“采内容”下的复选框,点击上面的开始按钮或右击选择“开始任务运行”开始采集。右侧会显示实时的采集动态,采集完成会提示“任务运行完成”。然后右击对应任务点击“打开Data下任务文件夹”,会有一个名称类似SpiderResult.mdb的access数据库,双击打开在”Content”下即可发现您所采集到的内容。Access支持导出成Excel,只需在菜单栏中点击“外部数据”然后选择“导出到Excel电子表格”即可。

退出移动版