火车头采集规则怎么写 _采集

1.如何写火车头采集器的采集规则,采集页面上图片内的文字不得不说火车头是有一定用处，但是个人觉得不怎么好用，光是写那些采集规则，设定什么的就一大堆不明不白的东西。拿钱购买嘛，一开始那客服还很热情的为你解答，一交完钱买下来了，写规则，好了，有问题要找客服解决，结果一拖再拖，弄了一个多月还没弄好，整个网站的工作进程全拖慢了，还不如自己辛苦点自己手动写文章，还采集啥啊~
言归正传，火车头使用：新建站点—>；新建任务—>；填写你要采集的网站文章列表—>；点下面的开始测试网址—>；如果有采集到很多文章，看各个地址相同部分（如system/2012/03/07），点返回修改，把system/2012/03/07这部分加到“文章内容必须包含”那里，再测试一下，就可以采集到3月7日的文章地址了—>；前面准备好网址后接下来就是第二步的采集内容规则了，点第二步，设定标签，一般采集包括标题<title></title>；、关键字<meta name=keyword 。>；、内容<div> 。</div>；，这些设置从你要采集的网站代码上可以找到相应的——>；采集页面上的图片32313133353236313431303231363533e78988e69d8331333330326633，在第四步，“文件保存及高级设置”，选择所有文件本地保存文件夹（这里是从页面下载图片存放的位置），然后下面有个FTP同步文件上传的，填好服务器、用户名、密码什么的，文件上传根目录就是你网站服务器放置图片的文件夹位置，你可以在服务器新建一个文件夹试试看，OK！到此为止，不过有一些网站写了反采集代码，有可能会被封IP，整体来说，个人不提倡使用火车头采集器，还不如个人手动来得实在，就算一天少发点也行，只要保证每天更新量、伪原创和原创，一样有很大效果。
2.飞飞火车头采集器怎么写发布规则1 首先讲一讲网站结构，通常网站结构为树形结构，一个网站主要包以下几种页面：首页、栏目页、文章页，其结构如下图。
其次讲一讲火车头采集原理，火车头的运行需要一套规则来指定该如何采集所需数据，即需要编写火车头采集规则，编写采集规则也是新手最头痛的问题。火车头采集器通常通过网址抓取网站返回的源代码，然后在源代码中提取需要的信息。
因此，采集数据需要先采集网址，然后再采集数据。2 下面开始编写采集规则：运行LocoyPlatform.exe3 在左侧“任务列表树”选择一个分组点击右键，选择“新建任务”弹出新建任务对话框。
填写任务名，网站编码一般选择自动即可。添加起始网址填写“第一步：采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址，直至获取到内容页的网址。
先填写起始网址，通常为目标站首页地址。点击“添加”，在单条网址处填上火车头博客的首页地址，然后依次点击“添加” ->“完成” 。
编写“多级网址获取”规则这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域，先查看起始页地址的源码，找到如图所示代码区域：点击右侧“添加”按钮打开“添加多级网址采集规则”，选择“从页面自动分析得到地址链接”单选按钮，在下面“从该选定区域中提取网址”，“从”（左侧）文本框填上栏目地址代码区域开始之前的标志性代码（要保证其在该页的唯一性），“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码，在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码，如果该区域没有多余的链接不需要过滤，可以不填，这里的栏目页网址必须包含“category-” 。然后点击“保存”返回。