火车头采集规则怎么写( 三 )


有些采集软件中,可以直接同时输入多个列表页地址 。这样也就不必去设置翻页参数,也很简单 。熊猫中不支持这种方式,不知道火车采集器是否支持 。如果支持,你可以直接输入多个列表页地址,换行区分即可 。
4.火车头采集规则,如果在列表页里面有多个参数,应该如何设置开始试了下,火车头确实不行,因为它起始网址的参数就一个*,没法对两个动态的数据描述 。
【火车头采集规则怎么写】那不妨换个角度来思考,为什么不把这些网址变成1级网址让火车头以采集的方式把它采集出来呢 。比如//i.html?_pgn=2&_skc=50&rt=nc把这个设置为起始网址(0级网址),那么你在设置采集网址的1级网址 。而//i.html?_pgn=2&_skc=50&rt=nc这个页面肯定会有下一页,那么下一页的网址应该就是://i.html?_pgn=3&_skc=100&rt=nc,这个页面的下一页的网址就是//i.html?_pgn=4&_skc=150&rt=nc,依次类推,层层采集,最终会把你要得网址采集完 。那么可能会问起始网址就一个,怎么会采集到那么多的“下一页”呢,这个可以用分页的效果来实现,因为你设置好了分页,火车头就会自动跳到下一页去采集,分页的功能就把一个起始网址扩展出N个起始网址了!