URL2io 最近的时间轴更新

URL2io 第一波更新完毕，包括算法优化、新特性支持、其他更新等（ 2016-10-02 ～ 2016-10-27）
https://www.v2ex.com/t/309948#reply86

2016-10-30 15:55:22 +08:00

URL2io

提供简单，强大的网页信息提取服务

🏢 URL2io.com

V2EX 第 72597 号会员，加入于 2014-09-01 12:18:48 +08:00

www.url2io.com Geo

HangZhou; ChengDu GitHub

url2io

URL2io 提供简单，强大的网页信息提取服务，用于 Web 内容的结构化处理。如 URL2Article 用来提取并解析网页中的正文区域，实现网页正文提取、标题提取、发布日期提取、下一页链接提取等。

URL2io 提问技术话题好玩工作信息交易信息城市相关

URL2io — 提供简单、强大的网页正文提取服务

分享创造 • URL2io • 2019-10-09 14:33:01 PM • 最后回复来自 URL2io

102

» URL2io 创建的更多主题

URL2io 最近回复了

2019-10-09 14:33:01 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

www.url2io.com 备用地址:

http://url2io.applinzi.com

api.url2io.com 备用地址:

http://url2api.applinzi.com/article

2017-04-25 08:55:15 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@qsnow6 可以，但别用大并发^_^

2017-04-02 23:35:15 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@dreamcog 加 QQ 群吧 341180183 小窗聊

2017-03-10 19:52:21 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@dreamcog 目前不收费的哈，会一直做下去的，请放心使用。^_^

2016-11-20 20:24:13 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@zlong 可以看一下使用这个工具开发的一个示例应用 Pageless 来感受下

2016-11-06 21:41:38 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@ ldehai 不知道该说什么好……

2016-10-31 15:59:30 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@soulmine 感谢使用！

1. 验证外链是否失效不会出现在正文提取阶段，所以对于外链失效就要自己想办法了，毕竟还有 src 在。
2. 这次发布是 URL2Article ，顾名思义适用范围是新闻，博客等有 article 概念的页面。从返回的字段也可以看出是一篇文章或新闻等的相关信息。如果是一个适用于提取论坛或贴吧的服务，那它返回的字段肯定完全不同，比如每条回复的作者、回复时间、回复内容、第几楼、甚至回复的是哪条回复都要提取为相应的字段。当然之后可能会开发适用于论坛类页面的服务。^_^
3. 关于一堆 html 标签的问题，还是适用范围的问题。 article 类的页面它的布局相对来说是比较稳定的，所以通过一个设计良好的 CSS 可能达到比原页面还好的显示效果，可以看看示例应用 Pageless 的效果。论坛类的布局就太和 7 和 7 混乱了，而且严重依赖原站的 CSS 设计，所以如果不能提取出第 2 条所说的那些字段，要想得到不是仿格式的页面恐怕有点难了。
4. URL2Article 也提供了输出纯文字内容的选项，只不过图片作为 html 标签也会去除。

可能我在帖子的开头没有很清楚地说明适用范围。不过从用户的反馈来看提取论坛类页面的需求也很大啊？

2016-10-30 01:40:29 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@ghosrt 不做语义分析，要去除文字广告太难了... 如果实现了那可以开个 URL2block 服务了，哈哈

2016-10-13 11:48:09 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@nicoljiang 可以的啊， blog 是托管在 github 上的，这两天习惯性抽风，要多刷几次 -_-

2016-10-11 12:56:08 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@Youen 撸种子？？ How ？？

» URL2io 创建的更多回复