自动抓取内容,写入 DZ7 数据库

原文发自:http://anylinux.net/post/1449.html

话说,我们学校的本科教育网(http://teach.ustb.edu.cn)是发布很多重要信息的地方,但是竟然没有 RSS 的输出,更别提其他的 ATOM 了。经过一段时间的观察,发现不仅仅是本科教育网,其他很多会发布重要信息的网站竟然全都没有 RSS 的输出…

于是乎,iBeiKe 上就开了一个版块叫做“信息通知”(http://city.ibeike.com/forumdisplay.php?fid=197),通过 DZ 的 RSS 输出,就可以订阅一些新闻通知了。但是人工去抓取这些内容,简直就是回到了解放前啊,每天都要有人去这些网站逛一圈才知道到底有没有新通知。

那么我们就写一个小东东,让它来完成这些使命吧。使用 Python 写的,可能还有一些问题,就是在发帖人的发帖统计上,不会自动+1。后面代码中,“drivel”为你要显示的发帖人,“169”为 UID,“197”为FID。

代码授权为 BSD License,enjoy。

单击这里下载

标签: none

已有 16 条评论

  1. 嗯,所以code其实有一个比较麻烦的问题就是需要维持这个渠道,能够让大家知道他的存在并且愿意参与进来,而参与进来的前提是你的项目优秀并且有人在用在研究。这个东西还是需要很多精力。不过这个code的域名对于公司还是团队都是一个能力的象征。I have a dream,希望有一天ibeike也有自己的code.ibeike.com,我会全力支持,这个是个团队实力的象征。
    +1

  2. lileding lileding

    装个py-libhtml可以解析网页到minidom,然后xpath
    托管到github吧

    1. team team

      因为只是针对这个特定的页面抓取而已,所以没有用这些 parse toolkit,而是直接用正则解决的

  3. lileding lileding

    输出附件时把content-type写出来吧

    1. team team

      之前还真没注意,没有给 7z 加上去 mime

  4. la_100 la_100

    有管理员在吗?我最近上不去贝城社区啊,上http://www.ibeike.com/好好的,就是进不去http://city.ibeike.com/,但是其他栏目进得去,宽带和校园网都试过了,环境是xp+IE8+小红伞,显示这个
    ----------------------------------------------
    Discuz! info: Can not connect to MySQL server

    Time: 2011-3-8 9:38pm
    Script: /index.php

    Error: Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)
    Errno.: 2002

    Similar error report has been dispatched to administrator before.

    到 http://faq.comsenz.com 搜索此错误的解决方案
    -------------------------------------------

    请教解决方法

  5. 吴亮 吴亮

    嗯嗯,强烈支持,呵呵,加油。期待这个上线了哈。OCW挺不错的,很实用。我有个建议:这个东西可以借助学生会的名头直接跟老师要课件,老师也烦拷课件怕中毒,以后这个老师估计都会给OCW宣传了,告诉同学上ibeike下就行。大家都方便,双赢。

  6. team team

    其实从某些方面讲,也是在等 OCW 这个东西基本完善,然后可能放出来的话,就会重开了

  7. 吴亮 吴亮

    嗯,所以code其实有一个比较麻烦的问题就是需要维持这个渠道,能够让大家知道他的存在并且愿意参与进来,而参与进来的前提是你的项目优秀并且有人在用在研究。这个东西还是需要很多精力。不过这个code的域名对于公司还是团队都是一个能力的象征。I have a dream,希望有一天ibeike也有自己的code.ibeike.com,我会全力支持,这个是个团队实力的象征。

  8. team team

    Trac 一直没有人用,所以就慢慢的,慢慢的就没有再 start 了

  9. 吴亮 吴亮

    光有svn还不行,主要有个渠道,能够让大家参与进来,并且能让它稳定是关键。

  10. team team

    后来就悲剧了…

    不过,还有一个 SVN 在

  11. 吴亮 吴亮

    那挺好的呢。目前状况怎样?主要是这个东西的维护比较重要,稳定性也要有保证。之前我们做过很多东西,未必都能延续到后面的team

  12. team team

    其实,我们一直有这个构想,并且当时就有搭建过一个 Trac 和 SVN 来托管代码

  13. 吴亮 吴亮

    不错不错,我下载了看看,我也写了一个东西。类似你的功能,用java实现,可以用模板去抽离html数据,能够通用。

    后来我觉得这样也不是很好,模板必须在服务器上,我抽象了一套语言,internet query language,可以吧web看出数据表操作,比如select * from www.baidu.com where tag='input'。
    这套程序还未全部完工。
    我感觉现在的这个ibeike团队已经比我们当年好了太多了。呵呵,有空一起研究啊。

    我以前有过一个提议,如果有条件的话弄个code.ibeike.com,把一些自己感兴趣的东西可以拿出感兴趣的人做。

  14. 呵呵,有意思!

添加新评论