GitHub: https://github.com/shispt/discover-books
功能主要为抓取豆瓣中相似的图书,然后在图数据库 neo4j 中可以看到图书之间的关系,比较相似的图书距离会比较近。
比如找与 "Python 核心编程” 相似的书(当然图书不只限于技术类):
1
fcj558 2017-06-20 21:34:21 +08:00 via iPad
爬豆瓣啊爬豆瓣
|
2
cqcn1991 2017-06-20 22:23:45 +08:00 via iPhone
很 cool, 最近也在想做类似的东西
不知道有没有 graph model,network analysis 相关的书,课程推荐? |
3
shispt OP @cqcn1991 自己不太了解数据分析方面的东西,搜了下 https://www.zhihu.com/question/20757000,找到一本 https://book.douban.com/subject/3722993/ 好像不错
|
4
changwei 2017-06-21 00:18:14 +08:00 via Android
我感觉对于有上进心的程序员来说就没有书荒这个词,一本 csapp,算法导论,数据结构 c 语言描述,计算机网络之类的书就够反反复复看好几遍了 前提不是走马观花和带着考试及格的目的去看。
|
7
chuanqirenwu 2017-06-21 09:25:09 +08:00 via iPad
@cqcn1991 newman 网络科学引论
|
8
fffflyfish 2017-06-21 10:08:43 +08:00
本来还在想 lz 怎么衡量这些图书之间的相似行,看了下完全依赖豆瓣每本书下面推荐的你可能喜欢的书目,可视化工具直接用的 neo4j,lz 其实只是写了个爬虫,不过代码写的很优雅,一目了然,已 star
|
9
jy02201949 2017-06-21 11:34:09 +08:00
win 下 python start_crawler.py -u 'https://book.douban.com/subject/3112503/' -C 100 -t 8 会报错
python start_crawler.py -u https://book.douban.com/subject/3112503/ -C 100 -t 8 |
10
shispt OP @jy02201949 试了下,引号会当作值传递给 -u 参数,看来 win 下得去掉引号
|