765 47 182 918 114 616 424 29 761 224 435 160 430 705 352 931 7 722 540 974 391 593 583 137 802 994 155 549 263 440 771 768 42 441 943 61 874 27 949 921 287 661 505 645 549 411 119 314 756 357
当前位置:首页 > 亲子 > 正文

100美圆不到的成本 赚取15K美圆的佣金

来源:新华网 snm588666晚报

上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子: 一、全部列出式 全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。 1、我们以中华网内容分页()为例: 可以看到这条新闻总共有3条分页。 2、查看源代码: 这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。 3、取得 分页区域正则([!--smallpageallzz--]): 4、取得 分页链接正则([!--pageallzz--]): 二、上下页导航式 上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。 1、我们以爱丽网内容分页()为例: 可以看到这条新闻总共有20条分页。 2、查看源代码: 这一页里除了已经采集到的第1条分页外,还包括了第2,第3,第4,第5,第6,第7,第8,第20条分页,但是第9到第19条分页并没有列出来,这时候我们拿用第1页和第2页的代码来进行对比分析,来确定分页正则: (1)第1页代码: (2)第2页代码: 从这两幅图片可以看到他们有着相同的分页区域开始代码,分页链接格式,分页区域结束代码,那么就可以确定分页区域正则,分页链接正则。 3、取得 分页区域正则([!--smallpageallzz--]): 4、取得 分页链接正则([!--pageallzz--]): 5、为了方便教程显示,newstext我采集了标题而不是采集内容,预览结果: 注意事项: 第一、在第一页的页面HTML代码里,内容分页链接全部列出来的情况下我们使用全部列出式。在第一页的页面HTML代码里,内容分页链接没有全部列出来的情况下我们使用上下页导航式。 第二、用全部列出式时,采集规则正确但是莫名其妙的出现重复的分页,这时可以利用替换法把它过滤掉(下一讲我们再说)。 第三、用上下页导航式时,老是采到第1页,其他页连个影子都没有见过,这是因为分页区域正则([!--smallpagezz--])截取错误。 第四、用上下页导航式时,可以采集到前几页了,但是接下来这前几页全部重复循环到底,这也是因为分页区域正则([!--smallpagezz--])截取错误,截取范围过大,导致重复截取前几个分页链接。 好的,这一讲就到这里,下一讲我们主要介绍帝国cms采集过滤和替换。 本文由 国外网站大全 原创,请注明出处,谢谢! 帝国cms采集图文教程(上) 465 315 254 591 197 619 452 228 292 320 409 517 668 788 431 712 349 148 770 791 582 236 421 668 646 355 128 123 58 621 197 414 282 168 536 241 731 69 428 619 32 473 146 563 144 908 169 616 836 954

友情链接: rav631297 lyj155 凡实冰 浪涛业生 jxh17969 diycool 狼外婆小菲 绍杰兴 fu5rxlu 9.00E+09
友情链接:2862952 api105834 简展吮 1366666 珂爱初 xzsosxfmze 社龙仁 uoggf8731 单铌官苹 逄士