今日头条利用 js 加密 url 中的参数_signature=IOxKnAAAe85OfzsuWtv0ECDsSo 利用 js2py 或 pyV8 怎么解决 最新版的今日头条,反爬技巧升级了
1
cdwyd 2018-06-21 12:37:59 +08:00 via Android
不知道现在还是不是,我之前爬的时候费了半天劲把 hs 加密用 python 重写一切都搞定以后又喵了一眼 js 加密部分,竟然明文写了一个万能的 key
|
2
cdwyd 2018-06-21 12:38:18 +08:00 via Android
hs>js
|
3
ctsed 2018-06-21 12:57:52 +08:00 via Android
pptr
|
4
ACool 2018-06-21 13:01:27 +08:00 via Android
|
5
3dwelcome 2018-06-21 13:05:02 +08:00 via Android
没什么是 headless 解决不了的。
|
6
willhunger 2018-06-21 14:49:59 +08:00
今日头条的垃圾内容也值得爬?
|
7
miyuki 2018-06-21 15:30:11 +08:00
头条抓完你再抓
|
8
hnbcinfo 2018-06-21 15:42:25 +08:00
我就喜欢破解各种加密字符串,等我给你搞定它
|
10
hnbcinfo 2018-06-21 16:00:35 +08:00
@xbigfat 声明,纯属娱乐,不建议用于非法用途。
先看接口参数,目前可以断定,用于防爬策略的是 AS、CP 和_signature 字段,其他均为数据筛选参数。 巧了,我今天没事,帮楼主玩玩。一个一个的来,走到哪一步算哪一步,楼主也别抱太大希望,毕竟人家头条技术人员也不是吃干饭的。 |
11
hnbcinfo 2018-06-21 16:11:10 +08:00 3
|
12
hnbcinfo 2018-06-21 16:12:45 +08:00
上面的第 5 步表达错了,更正下:16 位时间戳 T16 ---> 16 进制时间戳 T16
|
13
hnbcinfo 2018-06-21 16:38:00 +08:00
CP 类似,CP 字符串的前 4 位+第 6 位+第 8 位+第 10 位+第 12 位,组合起来的 8 位为时间戳 16 进制的表示。剩下的 6 位没怎么看出来,楼主可以自行研究下。
signature 还没看,不过我估计是猜不出来的,抽空我再看看。现在下班了,明天有时间在弄吧 P.S. 一旦加密串被猜出来,估计人家就要修改了。所以不保证能用多长时间 |
14
hnbcinfo 2018-06-21 16:42:26 +08:00
在纠正下,11 楼中,第 3 步,写的匆忙,应该是对 T 进行 MD5 加密,而不是 T16。抱歉
|
15
hnbcinfo 2018-06-21 16:49:08 +08:00
下班前算出 CP:
CP=T16 前 4 位+M(27)+T(4)+M(28)+T(5)+M(29)+T(6)+M(30)+T(7)+M(31)+’ E1 ’ |
16
ful1v1dcker 2018-06-21 16:52:28 +08:00
所以。。。楼主是捡垃圾的?[doge]
|
17
LeungV2 2018-06-21 16:58:22 +08:00
还以为赶上直播了 这就歇菜了?
|
18
rocketman13 OP @cdwyd 所以能告诉我解决方案吗?
|
19
rocketman13 OP @ctsed 什么意思???
|
20
rocketman13 OP @3dwelcome selenium 技术含量不高啊
|
21
rocketman13 OP @willhunger 主要想破它的 js 加密
|
22
rocketman13 OP 我觉得和 AS、CP 没什么关系, 主要加密还是_signature 字段,兄弟你解决了吗??
|
23
rocketman13 OP @ful1v1dcker 什么意思?
|
24
rocketman13 OP @LeungV2 能帮忙解决吗?
|
25
macwhirr 2018-06-27 16:58:22 +08:00
5LiN6L+H6L+Y5piv5pyJ6aKR5qyh6ZmQ5Yi2
|
26
rocketman13 OP @macwhirr ???什么意思呢
|
27
rocketman13 OP @hnbcinfo 老哥,_signature 破解了吗??
|
28
hnbcinfo 2018-07-04 10:41:55 +08:00
@rocketman13 sorry,这个并没有搞出来,不过我猜测和时间有关系。
|
29
rocketman13 OP @hnbcinfo 那请问一下你公司爬数据时遇到这种加密情况怎么处理呢
|
30
hnbcinfo 2018-07-05 15:03:10 +08:00
@rocketman13 我公司非互联网公司,没有爬虫的需求。
|
31
q3031031 2018-09-21 11:09:18 +08:00
请问各位大佬,今日头条 反爬虫策略是什么,我已经限制频率了,三四秒才一个请求,还是被封禁了
|