怎么是你

关注互联网,关注搜索,关注信息技术对现代生活方方面面的影响

« 百度及Google对怎么是你博客进行大更新了采集的网站也能在百度获得好排名 »

dede5.3火车头文章发布模块及教程

         12月10日dede织梦内容管理系统发布了其v5.3版,该版对代码进行了较大的修改,增强了功能,提供了更人性化的操作。因此原来我使用的火车头采集dede文章模块不能再使用了,而火车头论坛还没有人发布新发布模块,于是我只能自立更生,在学习研究了前人的教程及模块后终于做出了自己的第一个火车采集发布模块。我将其命名为“dede5.3文章发布模块building版”,需要的朋友可以点击下载,或者到火车官方论坛下载http://bbs.locoy.com/viewthread.php?tid=33301&page=1&extra=page%3D1。由于dede5.3版还在不断的完善更新中,所以可能该模块也需要不断调整才能正常使用,因此我会不断更新发布模块以适应新的变化,需要的朋友可以关注我的博客http://www.howareyou.org.cn。在这里我写下模块制作的大致过程以做备忘:
注意:该模块已做更新,最新版见:http://www.howareyou.org.cn/network/LocoySpider-module-dede53-buildv1.1.html
1、登录采集
        这里点击“自动抓取登录数据包”就会打开火车的浏览器,然后在里面登录进dede的后台即可关闭浏览器。于是几个输入框中出现了地址及数据。这时将上面的两上后缀中地址的域名部分删掉,只保留/dede/及后面的部分。在登录post数据中将里面出现的用户名及密码用下面相应的标签代替即可。

2、刷新列表设置
        这里的设置目的是为了让火车取出dede后台中栏目的列表名及相应ID。(本来我是尝试从后台中的网站栏目管理下寻找的,后来参考了vus520的dede5.1文章模块才发现使用移动页更利于找到完全简单的列表代码)
         “刷新列表页面”这里要填入dede的栏目列表的网址,首页从dede后台打开“网站栏目管理”,然后进入任一栏目的移动操作页,并在右侧列表中点右键并选择“属性”,将里面的地址复制到输入框中即可(这里也要删除域名部分)。我取的页面为:/dede/catalog_move.php?job=movelist
         “来源页面后缀”这个输入框中的内容与上面相同:/dede/catalog_move.php?job=movelist(谁能告诉我与上一空的区别是什么?)
         “页面区域开始及结束”是为了让火车头取出必要的代码区域,(dede栏目移动操作页在选择这区域时很方便)开始:<option value='0'>移动为顶级栏目</option>  结束:</select>
         “分类列表名称及ID格式”:用该页中的一行下拉列表代码稍加改动即可:<option value='[分类ID]'>[分类名称]</option>

3、“文章发表参数”
         这里填写的参数就是模拟我们手工录入发布文章时的操作,我们要找出dede后台发布文章的页面及录入文章时每一样你需要输入或勾选的项目所对应的参数。这里需要修改的内容很多,如果愿意,你可以通过查看发布页源文件,慢慢找出这些参数。为了提高效率我们可以使用抓包工具来加快这个过程,我使用的是WSockExpert,大家可以在火车采集官网论坛下载。由于过程比较复杂,我这里记下的是主要步骤及一些注意要点,建议第一次学习的朋友观看火车论坛中的相关视频进行学习。主要步骤:
        1)进入发布文章页并填写好所有你需要输入及勾选的项目。打开WSockExpert,对该网页进行捕获,点击“保存”将刚才填好的内容进行发布。
        2)找到WSockExpert的数据包正文中含有POST的那一行,将其复制到火车采集的 “发表地址后缀”,我填写的是:/dede/article_add.php
        3)在WSockExpert的数据包正文中找到Referer那行,将其复制到采集的“来源页面后缀”中,并使用下面的标签对cid的值进行替换,我填写的是:/dede/article_add.php?channelid=1&cid=[分类ID]
        4)在WSockExpert中寻找状况为send且当中包含许多name="某个参数名"的记录。这里抓取到的dede系统send数据包正文有很多有特点的数据,如:
-----------------------------7d82ee1620518
Content-Disposition: form-data; name="channelid"
不知道其它系统是不是也这样。
        然后把这些数据进行整理,去除那些无用的重复内容,保留下参数名及相应值。最后整理出来的post数据应该类似这样的形式:autokey=1、writer=[标签:作者]、typeid=[分类ID]、body=[标签:内容]。不含标签的参数值表示了在发布时做出的一些选择。如这里的autokey=1表示勾选了自动获取关键词,如果这里是autokey=0则表示没有勾选,其它参数类似。参数中的标签名应该就是对应了采集规则中定义的标签名。如果两处的标签名不同,发布时就没有办法输出相应内容了。 我整理出来的参数如下:
channelid=1&dopost=save&title=[标签:标题]&shorttitle=[标签:SY_tags]&redirecturl=&tags=[标签:tags]&picname=&litpic=&source=[标签:出处]&writer=[标签:作者]&typeid=[分类ID]&dede_addonfields=&remote=1&dellink=1&autolitpic=1&sptype=hand&spsize=5&body=[标签:内容]&notpost=1&sortup=7&arcrank=0&ishtml=1&pubdate=[标签:时间]&money=0&autokey=1&description=[标签:简述]
最后可以在“发表错误标志码”及“成功标志码”处填写一些相应信息,此处没有严格要求。

4、说明/保护
         如果你制作的模块还有什么需要特别说明的可以在这里写上说明。
 我是第一次制作采集模块,所以很可能存在一些bug或需要改进的地方,所以发现bug或对dede及火车采集有兴趣的朋友可以点击上面的链接到怎么是你博客进行交流。
        ps:其实火车采集发布模块制作教程官方程序下载包中自带有,而且写得更为详细且带有截图,只是它提供的例子是dede5.1版的罢了,刚开始学习的朋友可以利用它配合一些视频教程进行学习。
        

  • 1.求教
  • 老大.我用你的登陆不行的.老是获取分类获取不了.怎么回事?
    building 于 2008-12-23 11:31:00 回复
    加我的QQ吧:452135795
  • 2008-12-17 19:01:00 回复该留言
  • 3.发布未知
  • 求助,发内容--WEB发布是否成功未知,请到网站查看:http://news.mycar168.com/2009/02/103435.html,不知哪里出错了.
  • 2009-2-18 9:02:19 回复该留言
  • 4.qingv
  • 请教,为什么我发布成功了,按照你这个模块没改任何东西,而采集的文章内有图片(我选择的是下载图片到本地),而得不到缩略图呢,按照道理来说应该是:文章名(图) 这样的 可都不是。。请教。。急 谢谢
    building 于 2009-3-30 19:30:26 回复
    太久不记得了,好像是不用选择下载图片到本地的。
  • 2009-3-29 13:15:40 回复该留言

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

网站分类

最近发表

最新评论及回复

文章归档

Search

Powered By Z-Blog 1.8 Spirit Build 80722 Designed by Han'space

桂ICP备06007671号Copyright building. Some Rights Reserved.