V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
gotounix
V2EX  ›  分享创造

写了个糗事百科的爬虫,数据图片都爬下来,第一次写爬东西的玩意,轻喷啊!

  •  
  •   gotounix · 2014-09-04 17:49:21 +08:00 · 4959 次点击
    这是一个创建于 3766 天前的主题,其中的信息可能已经有所发展或是发生改变。
    第 1 条附言  ·  2014-09-04 21:24:34 +08:00
    可以把文字内容,图片链接写到数据库;
    可以把图片下载至本地,并把本地的相对链接也写到数据库。

    只要安装了mysql,把上面的几个配置换成自己的就OK了。
    可以建一个定时任务,基本上所有内容都能爬下来(不包含评论和用户信息)。
    10 条回复    2014-09-17 18:04:56 +08:00
    zinev
        1
    zinev  
       2014-09-04 18:59:34 +08:00
    试了下,下载的图片没点意思,不如换一个,下载壁纸也好啊
    gotounix
        2
    gotounix  
    OP
       2014-09-04 21:20:14 +08:00
    @zinev 有道理,这就去写。
    withrock
        3
    withrock  
       2014-09-05 01:47:32 +08:00
    我也写了个多进程爬豆瓣的脚本。

    http://git.oschina.net/mktime/python-learn/blob/master/qiubai.py

    不过好久没更新了,不知道糗百有木有更新html结构。

    如果更新的话,需要改正则表达式。

    我用的sqlite3。
    sunny1992
        4
    sunny1992  
       2014-09-05 09:55:41 +08:00
    观摩
    haython
        5
    haython  
       2014-09-05 10:22:39 +08:00
    @withrock 我感觉自己写正则的,都不是好爬虫
    mkeith
        6
    mkeith  
       2014-09-05 12:42:08 +08:00
    草榴的
    linKnowEasy
        7
    linKnowEasy  
       2014-09-05 14:53:24 +08:00
    不是有官方api么。
    myAngel
        8
    myAngel  
       2014-09-16 18:28:27 +08:00
    怎么运行。。。。。
    gotounix
        9
    gotounix  
    OP
       2014-09-17 16:22:54 +08:00
    myAngel
        10
    myAngel  
       2014-09-17 18:04:56 +08:00
    兄弟,我想爬一个网站的内容,能做吗?
    能做的话,QQ聊聊
    马化腾:156224301
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5378 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:14 · PVG 16:14 · LAX 00:14 · JFK 03:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.