火车头采集规则怎么写

1.如何写火车头采集器的采集规则,采集页面上图片内的文字不得不说火车头是有一定用处,但是个人觉得不怎么好用,光是写那些采集规则,设定什么的就一大堆不明不白的东西 。拿钱购买嘛,一开始那客服还很热情的为你解答,一交完钱买下来了,写规则,好了,有问题要找客服解决,结果一拖再拖,弄了一个多月还没弄好,整个网站的工作进程全拖慢了,还不如自己辛苦点自己手动写文章,还采集啥啊~
言归正传,火车头使用:新建站点—>;新建任务—>;填写你要采集的网站文章列表—>;点下面的开始测试网址—>;如果有采集到很多文章,看各个地址相同部分(如system/2012/03/07),点返回修改,把system/2012/03/07这部分加到“文章内容必须包含”那里,再测试一下,就可以采集到3月7日的文章地址了—>;前面准备好网址后接下来就是第二步的采集内容规则了,点第二步,设定标签,一般采集包括标题<title></title>;、关键字<meta name=keyword 。>;、内容<div> 。</div>;,这些设置从你要采集的网站代码上可以找到相应的——>;采集页面上的图片32313133353236313431303231363533e78988e69d8331333330326633,在第四步,“文件保存及高级设置”,选择所有文件本地保存文件夹(这里是从页面下载图片存放的位置),然后下面有个FTP同步文件上传的,填好服务器、用户名、密码什么的,文件上传根目录就是你网站服务器放置图片的文件夹位置,你可以在服务器新建一个文件夹试试看,OK!到此为止,不过有一些网站写了反采集代码,有可能会被封IP,整体来说,个人不提倡使用火车头采集器,还不如个人手动来得实在,就算一天少发点也行,只要保证每天更新量、伪原创和原创,一样有很大效果 。
2.飞飞火车头采集器怎么写发布规则1 首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图 。
其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题 。火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息 。
因此,采集数据需要先采集网址,然后再采集数据 。2 下面开始编写采集规则:运行LocoyPlatform.exe3 在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框 。
填写任务名,网站编码一般选择自动即可 。添加起始网址 填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址 。
先填写起始网址,通常为目标站首页地址 。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成” 。
编写“多级网址获取”规则 这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-” 。然后点击“保存”返回 。