像这种多新闻来源的爬虫，是每种来源都做一套爬虫？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1776 天前的主题，其中的信息可能已经有所发展或是发生改变。

如果不是，通常是用啥方法来做？

爬虫

来源

方法

通常

33 条回复 • 2020-02-22 23:34:25 +08:00

est

2020-02-17 09:54:18 +08:00 via Android

这个大概率是坐了一个小编

shanlan

2020-02-17 09:55:44 +08:00

1.官方 API
2.人肉抓取
3.定制爬虫

secsilm

2020-02-17 09:56:19 +08:00

@est 是个狠人，这得多少人干这

murmur

2020-02-17 09:56:31 +08:00

官方的新闻直接爬，非官方的人工洗稿

twor2

2020-02-17 09:56:47 +08:00

应该是人工的吧，至少半人工

ired

2020-02-17 09:58:04 +08:00

@est 同意，人肉 API

secsilm

2020-02-17 09:58:44 +08:00

@murmur 直接爬的话，是不是也得每种来源搞一套爬虫？这工作量感觉不小啊

litmxs

2020-02-17 10:04:04 +08:00 via Android

就算是人力成本也不是很高吧

andylsr

2020-02-17 10:10:09 +08:00

@secsilm 原则上每个来源写一个解析就行了

est

2020-02-17 10:14:21 +08:00

@secsilm 没有人的话，万一新闻源搞了个大新闻，你自动同步上去，等于你也有一份泽任吧。

jellybool

2020-02-17 10:16:01 +08:00 via Android

@est 泽任这个词，excited ！

freakxx

2020-02-17 10:17:06 +08:00

不是一套，

一般是先自己搭个框架，
像这种，可以分别写爬取机制 + 清洗机制(parse )，然后做入库。

像 v 站一个老哥的，pyspider 用来做这玩意就还不错。

locoz

2020-02-17 10:21:10 +08:00 via Android

新闻类的直接上智能提取就行了，不用写规则，而且这种需求就无脑刷最新新闻那一页就行。
至于最终发布…显然部分非官方的新闻是人肉处理的，有新闻就直接推到编辑那，审核没问题了再提出关键内容放上去。

nocoolsandwich

2020-02-17 10:25:28 +08:00

看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data

delectate

2020-02-17 10:28:39 +08:00

来源就那几个，写规则就好；一般人机器爬，人肉审、二审、发。

alaikis

2020-02-17 10:37:58 +08:00

做几个规则，一个源配置一下就好呀，没那复杂

murmur

2020-02-17 10:39:36 +08:00

@secsilm 官方新闻其实就那么几个源，一个字都不能改

secsilm

2020-02-17 12:31:51 +08:00

@locoz 智能提取是个什么鬼

Ericcccccccc

2020-02-17 12:32:56 +08:00

人力成本很低啊

locoz

2020-02-17 12:38:57 +08:00

@secsilm #18 比如 https://github.com/kingname/GeneralNewsExtractor

Mavious

2020-02-17 12:42:29 +08:00

灰字提要，得人工来提取吧，毕竟新闻也没有固定格式，核心内容还是要人来提取的。

jingniao

2020-02-17 12:45:54 +08:00 via Android

丁香园是人工的，因为早上七点之前好像大都不更新。
刚开始那几天好像是小编通宵 /轮班了，晚上也有更新。

jabin88

2020-02-17 12:52:50 +08:00

正文提取算法，不要用正则

2ME

2020-02-17 13:07:06 +08:00 via Android

关键词 Readability 识别新闻站的正文进行提取

herozzm

2020-02-17 13:08:08 +08:00 via Android

通用爬虫针每个新闻源定制规则

wolfan

2020-02-17 13:11:27 +08:00 via Android

爬微博不就成了😅

lshero

2020-02-17 14:19:21 +08:00

有个岗位叫做值班编辑

chroming

2020-02-17 14:33:11 +08:00

专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取

chroming

2020-02-17 14:33:35 +08:00

如果只是几个网站的话那人工直接复制更简单

secsilm

2020-02-17 20:42:30 +08:00

@locoz 学习了，谢谢

ChangQin

2020-02-17 22:02:57 +08:00

我想爬 twitter 的数据，结果开发者账号好难申请啊。。。

yinzhili

2020-02-18 10:31:15 +08:00

这种肯定是人工介入的，怕出问题责任重大

enrolls

2020-02-22 23:34:25 +08:00

认真观察网页结构，其实是有通用方法的，印象笔记不是也剪藏了莫。
(顺带测试回复功能)