mysky007 最近的时间轴更新
mysky007

mysky007

V2EX 第 287439 号会员,加入于 2018-01-28 23:21:07 +08:00
mysky007 最近回复了
2018-06-17 16:03:16 +08:00
回复了 vvaaiinn 创建的主题 Python 微信公众号内容的抓取、大家有什么好的建议吗
2018-06-17 15:53:33 +08:00
回复了 vvaaiinn 创建的主题 Python 微信公众号内容的抓取、大家有什么好的建议吗
通过搜狗入口抓取,有两种方案可以获取到文章的链接:1、解析 html 中的 json 数据。2、使用 seimiAgent 动态加载页面,再用 xpath 提取。使用第一种成本较低。至于 ip 可能被封问题,可考虑接多家 ip 代理服务商切换代理。http://www.keydatas.com/doc/fuyYRzrY7vy2 这个平台采用的就是这种方案,可以采集,但速度没有普通网页快,可能是尝试了不同 IP 代理比较耗时。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2689 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 03:58 · PVG 11:58 · LAX 19:58 · JFK 22:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.