V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Dogergo
V2EX  ›  分享创造

我把我和我老婆从认识到现在的聊天记录跑了个词云出来

  Dogergo · 2023-12-13 10:28:04 +08:00 · 22598 次点击
这是一个创建于 381 天前的主题,其中的信息可能已经有所发展或是发生改变。

得益于开源项目:

https://github.com/LC044/WeChatMsg

现在导出微信聊天记录已经是一件相当简单的事情了。但是这个项目跑出的词云好像有点问题,好像聊天记录不完整一样。所以我去找了可以读取 SQLite 的软件,读了他解码出来的数据库文件。

执行 SQL:

-- MicroMsg.db 文件中的 Contact 表存的用户信息,先根据备注查微信 ID
SELECT UserName FROM Contact WHERE Remark=?
-- Msg.db 中的 MSG 表存的历史聊天记录
SELECT StrContent, localId, datetime(CreateTime, "unixepoch", "localtime") as CreateTime FROM MSG WHERE StrTalker = ? AND Type = 1 AND StrContent NOT like "%[%" ORDER by CreateTime asc

然后发现数据是全量的,但是词云不准确,不知道什么原因。迫于不想读源码,直接找了个词云工具,重新生成。

感谢开源项目:

https://github.com/fuqiuai/wordCloud
https://github.com/silsuer/wordcloud

上图

1 2 3 4 5

教程

一键提取微信聊天记录,生成 HTML 、Word 文档永久保存,还能生成微信年度聊天报告

微信聊天记录只是备份就太无聊了,一键生成属于自己的词云图,让我们玩点有意思的

注意事项

所用到的工具被我放在公众号里了,如果有兄弟感觉被冒犯,那对此我感到抱歉,请联系站长帮我移动到推广节点。

第 1 条附言  ·  2023-12-13 11:04:16 +08:00

赶紧出来解释一下: 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂! 词云只是根据词频把一些词生成到一起的。实际上那几个词可能并不挨着,不要太污喂!

此外,公众号在教程的链接里,这里也放一个图片吧,那就。 1

123 条回复    2023-12-19 10:45:41 +08:00
1  2  
sunny352787
    1
sunny352787  
   2023-12-13 10:30:21 +08:00   ❤️ 68
MD ,路过还能被电子脚踹一下...
YaD2x
    2
YaD2x  
   2023-12-13 10:34:36 +08:00   ❤️ 4
方法学会了,请问老婆哪里找?
AFOX
    3
AFOX  
   2023-12-13 10:35:13 +08:00 via Android   ❤️ 3
shit ,单身狗看不得这个,但是创意很好
littleJohn
    4
littleJohn  
   2023-12-13 10:43:29 +08:00
省流:老公 老婆 老板 哈哈哈
pianjiao
    5
pianjiao  
   2023-12-13 10:43:46 +08:00
图碎了。 公众号在哪儿
proxychains
    6
proxychains  
   2023-12-13 10:43:51 +08:00
单身喵看不得这些
cheava
    7
cheava  
   2023-12-13 10:45:43 +08:00   ❤️ 7
第一张图右臂部分有点意思
vagusss
    8
vagusss  
   2023-12-13 10:46:53 +08:00
不错
Tumblr
    9
Tumblr  
   2023-12-13 10:47:16 +08:00   ❤️ 57
第一眼这是看到了什么不干净的内容啊!!! 🙈🙊
webjourneyer
    10
webjourneyer  
   2023-12-13 10:47:39 +08:00
这个有点意思
murmur
    11
murmur  
   2023-12-13 10:55:03 +08:00   ❤️ 1
我想那个了
吃了

来!
在一起

jonahtan
    12
jonahtan  
   2023-12-13 10:57:22 +08:00
有点意思
zfy941
    13
zfy941  
   2023-12-13 10:58:56 +08:00   ❤️ 1
只看到了 老婆 老公 想要 给我
dddd1919
    14
dddd1919  
   2023-12-13 10:59:48 +08:00
老婆 你 没有 这个
miemie666
    15
miemie666  
   2023-12-13 11:02:52 +08:00   ❤️ 3
闭眼都知道要歪楼了
graetdk
    16
graetdk  
   2023-12-13 11:03:38 +08:00
下一步,可以训练一个聊天 bot 了,可以用我们的这个服务: https://www.modihand.com/
我自己的例子: https://ai.greatdk.com/
Dogergo
    17
Dogergo  
OP
   2023-12-13 11:05:16 +08:00
@YaD2x 啊,你们村没发吗,我们都是过年回去发的
Dogergo
    18
Dogergo  
OP
   2023-12-13 11:07:00 +08:00
@AFOX 学会了就能撩妹了,先存一下,等着给她惊喜
Dogergo
    19
Dogergo  
OP
   2023-12-13 11:07:17 +08:00
@pianjiao append 进来了
Dogergo
    20
Dogergo  
OP
   2023-12-13 11:07:48 +08:00
@Tumblr 我裂开,这些词怎么会出现在一起的
Dogergo
    21
Dogergo  
OP
   2023-12-13 11:08:09 +08:00
@murmur 我没有,我不是,别瞎说
Dogergo
    22
Dogergo  
OP
   2023-12-13 11:09:06 +08:00
@zfy941 假装没看见就好了,也许我生成词云的时候应该屏蔽这些词
Dogergo
    23
Dogergo  
OP
   2023-12-13 11:09:55 +08:00
@graetdk 登科大佬,好的,会看一下,生成数字人的自己
jonahtan
    24
jonahtan  
   2023-12-13 11:11:18 +08:00
not support for macOS base on apple chip 😢
劝退
Tumblr
    25
Tumblr  
   2023-12-13 11:12:48 +08:00
@cheava #7 你是咋知道小姑娘是背对你还是面对你的。 😏
ryalu
    26
ryalu  
   2023-12-13 11:16:48 +08:00
单身狗手贱点进来了,你可真该死呀🐶
billzhuang
    27
billzhuang  
   2023-12-13 11:24:38 +08:00
hahhahahahahahahahhahaha
goddamhucker
    28
goddamhucker  
   2023-12-13 11:25:14 +08:00
鼠人看不得这些😭
JARKECHONG
    29
JARKECHONG  
   2023-12-13 11:30:09 +08:00
Tezos
    30
Tezos  
   2023-12-13 11:32:53 +08:00
emmmmmmm
angenin
    31
angenin  
   2023-12-13 11:44:54 +08:00
买菜必涨价!!!
RobertLyu
    32
RobertLyu  
   2023-12-13 11:48:12 +08:00
行了,我知道你们很恩爱了,带着我的祝福快快离开吧。🥲
MRG0
    33
MRG0  
   2023-12-13 11:48:27 +08:00
qq 能实现吗,好像有消息漫游,比较狗屎
Donahue
    34
Donahue  
   2023-12-13 11:53:49 +08:00
核凸 报警!!!🐶
wqhui
    35
wqhui  
   2023-12-13 11:54:24 +08:00
特意切个代理看图
itianjing
    36
itianjing  
   2023-12-13 12:01:50 +08:00
两年前求婚的时候也搞了这个,导出微信聊天记录废了好大的劲
stardew
    37
stardew  
   2023-12-13 12:03:37 +08:00
@Tumblr #9 哈哈哈哈哈哈哈哈
DAGU1182810784
    38
DAGU1182810784  
   2023-12-13 12:08:57 +08:00
哥们儿不拿咱们当外人儿啊
Hyschtaxjh
    39
Hyschtaxjh  
   2023-12-13 12:26:48 +08:00
停用词过滤一下噢
szyp
    40
szyp  
   2023-12-13 12:59:58 +08:00
https://github.com/myth984/wechat-report 两年前用过一个类似的
foreverpp50
    41
foreverpp50  
   2023-12-13 13:27:41 +08:00
为什么聊天记录不用蓝奏云啊,阿里云盘还要登录才能下载
Dogergo
    42
Dogergo  
OP
   2023-12-13 13:34:11 +08:00
@foreverpp50 蓝奏云不让我放 exe
jethroX
    43
jethroX  
   2023-12-13 13:35:19 +08:00
我的全险半挂灯好像不亮了,能不能请你帮我去看一下?
foreverpp50
    44
foreverpp50  
   2023-12-13 13:36:15 +08:00
@Dogergo 打包放不行吗
Dogergo
    45
Dogergo  
OP
   2023-12-13 13:37:01 +08:00
@foreverpp50 可以去[github]( https://github.com/LC044/WeChatMsg)的 release 里下载,我回头想办法看看压缩了能不能把地址改一下
Dogergo
    46
Dogergo  
OP
   2023-12-13 13:37:59 +08:00
@jethroX 你小子要创死我是吧
0xGnaixEuy
    47
0xGnaixEuy  
   2023-12-13 13:41:04 +08:00 via iPhone
酷酷酷
pianjiao
    48
pianjiao  
   2023-12-13 13:42:00 +08:00
看不见图 ,也不知道什么鬼
456789
    49
456789  
   2023-12-13 13:49:44 +08:00 via Android
老公 老婆 我想 那个 嚯哈哈哈哈哈,呵 tui
Dogergo
    50
Dogergo  
OP
   2023-12-13 13:50:30 +08:00
@foreverpp50 good ,感谢提供,已经放上了蓝奏云的地址
Dogergo
    51
Dogergo  
OP
   2023-12-13 13:51:38 +08:00
@pianjiaohttps://imgur.com 图床的图,看不到的话你可以点教程里那个词云的连接,我在微信推文里也有放这个图
Dogergo
    52
Dogergo  
OP
   2023-12-13 13:52:58 +08:00
@MRG0 不知道 QQ 怎么存的,没研究,你可以上 github 上搜一下
mh
    53
mh  
   2023-12-13 13:56:45 +08:00
两年前看到过类似的帖子,当时我也弄了一下,还挺费劲的哈哈
cat9life
    54
cat9life  
   2023-12-13 14:00:10 +08:00
这个有点意思 就是聊天记录不全了
cat9life
    55
cat9life  
   2023-12-13 14:01:05 +08:00
@graetdk #16 请教可以使用 chatgpt 微调来训练吗?你的那个看起来不太聪明 哈哈
assiadamo
    56
assiadamo  
   2023-12-13 14:07:47 +08:00
老婆我嗯了?
idealhs
    57
idealhs  
   2023-12-13 14:24:20 +08:00
我想那个了
shm7
    58
shm7  
   2023-12-13 14:25:32 +08:00
词云本身有开源的库,问题是你想从聊天记录提取些什么。
一般商业要提取一些关键词,你这都是 老婆我... ;)
palxie
    59
palxie  
   2023-12-13 14:30:32 +08:00
我想那个了 真的一眼就看到
moeik
    60
moeik  
   2023-12-13 14:30:52 +08:00
op 你好 我发现教程有断层啊,聊天记录解密了 导出为?,在词云加载过程中选的聊天记录是怎样的格式?
Dogergo
    61
Dogergo  
OP
   2023-12-13 14:41:52 +08:00
@moeik
1.不用导出,解密完成之后`MemoTrace-0.2.7.exe`这个软件所在目录下会生成`app`->`dataBase`->`msg`文件夹,里边都是以.db 结尾的 Sqlite 数据库文件,把`MSG.db`和`MicroMsg.db`
2.把这两个 db 文件复制一下粘贴到词云软件解压出来的文件夹下的`db`文件夹里,然后运行词云软件就好了。可以看我生成词云那篇文章底部是有视频教程的
Martens
    62
Martens  
   2023-12-13 14:42:02 +08:00
支持语音吗?聊天记录有很多语音
Rorysky
    63
Rorysky  
   2023-12-13 14:44:44 +08:00
建议把 无法单独成语素的语气词过滤掉
Dogergo
    64
Dogergo  
OP
   2023-12-13 14:45:57 +08:00
@shm7 感谢你的建议,这是我的下一步计划。根据词频设计出对应的年终报告。我现在只是简单看一下。
clifftts
    65
clifftts  
   2023-12-13 14:49:16 +08:00
我为什么会被这个帖子强行拉进来,吃一波狗粮,wtf
Dogergo
    66
Dogergo  
OP
   2023-12-13 14:53:48 +08:00
@Martens 这个要去看开源项目`https://github.com/SuxueCode/WechatBakTool`这个项目目前是已经实现了解密语音
Dogergo
    67
Dogergo  
OP
   2023-12-13 14:54:58 +08:00
@Rorysky 嗯嗯,吃了没经验的亏,python 代码都是通过 pua gpt4 写出来的,感谢建议
dsggnbsp
    68
dsggnbsp  
   2023-12-13 15:19:29 +08:00
省流:我 你 啊
KimiArthur
    69
KimiArthur  
   2023-12-13 15:22:57 +08:00 via Android
导出简单吗?有没稍微详细点的原理解释?
echoyangjx
    70
echoyangjx  
   2023-12-13 15:27:41 +08:00 via Android
逛 v2 还能吃狗粮
liqingyou2093
    71
liqingyou2093  
   2023-12-13 15:29:15 +08:00
省流: 我想那个了
lele140
    72
lele140  
   2023-12-13 15:37:53 +08:00
怎么屏蔽调一些语气助词,比如:啊,吧,哦
spaceman
    73
spaceman  
   2023-12-13 15:40:26 +08:00
很酷,但是我看到了一句:“我想那个了。”
Dogergo
    74
Dogergo  
OP
   2023-12-13 15:56:26 +08:00
@lele140 代码本身是支持屏蔽词的,我晚上回去打包个支持屏蔽词的版本吧
Dogergo
    75
Dogergo  
OP
   2023-12-13 16:00:31 +08:00
@KimiArthur 原理复杂,操作简单。这和搞开发是一样的,尽可能降低用户侧的学习成本。要研究原理的话,可以去参考`https://mp.weixin.qq.com/s/4DbXOS5jDjJzM2PN0Mp2JA`
aitianci
    76
aitianci  
   2023-12-13 16:41:06 +08:00
豆沙了😭豆沙了😭
StoneHuLu
    77
StoneHuLu  
   2023-12-13 16:54:33 +08:00
有没有 qq 聊天记录的,我和我老婆都不用微信的
lixiangyang9b319
    78
lixiangyang9b319  
   2023-12-13 16:57:43 +08:00 via iPhone
牛逼,感谢哦大哥
aaa5838769
    79
aaa5838769  
   2023-12-13 17:24:59 +08:00
从聊天记录,看到了很多开车的记录。
iv2ex
    80
iv2ex  
   2023-12-13 17:25:36 +08:00
好像没有 macos 的?
Dogergo
    81
Dogergo  
OP
   2023-12-13 17:35:31 +08:00
@iv2ex 是的,目前 Macos 无法支持
Dogergo
    82
Dogergo  
OP
   2023-12-13 17:36:31 +08:00
@aitianci 摸头,每个人都会有甜甜的恋爱的
maokg
    83
maokg  
   2023-12-13 18:05:50 +08:00
可以统计群聊的记录吗?(化身产品经理
kakki
    84
kakki  
   2023-12-13 18:17:00 +08:00
还好没看到 dirty talk
kumastudio
    85
kumastudio  
   2023-12-13 18:34:07 +08:00
赛博狗粮
czfy
    86
czfy  
   2023-12-13 18:50:18 +08:00 via Android
其实在 LLM 出来之后,分词这类中文 NLP 特有的中间过程已经变得没那么必要了…
Loserzhu
    87
Loserzhu  
   2023-12-13 19:34:51 +08:00
我不吃牛肉(掏枪
edinina
    88
edinina  
   2023-12-13 19:36:53 +08:00
给我都看兴奋了
AsyncX
    89
AsyncX  
   2023-12-13 19:44:43 +08:00   ❤️ 2
我们也是你们 play 的一环吗
ovtfkw
    90
ovtfkw  
   2023-12-13 19:55:45 +08:00
mac 微信不可以吗
bao3
    91
bao3  
   2023-12-13 20:22:46 +08:00
Geekm 的浪漫。
跳一下 tone:我和我老婆的聊天记录,全是性相关的,还聊到过我想上她姐……
hertzry
    92
hertzry  
   2023-12-13 20:27:50 +08:00
分词之后可以手动去掉一下没用的东西,然后再画图。
Dogergo
    93
Dogergo  
OP
   2023-12-13 21:12:17 +08:00
@maokg 可以的,但是我没分析,你可以从 Msg.db 文件里找一找,看一下群聊名称对应的微信 ID
ChicC
    94
ChicC  
   2023-12-13 23:42:37 +08:00
只看到了 老婆 老公 想要 给我
ttyhtg
    95
ttyhtg  
   2023-12-14 00:22:05 +08:00 via Android   ❤️ 1
作为单身狗我居然敢点开,还是祝福楼主
programMrxu
    96
programMrxu  
   2023-12-14 08:39:57 +08:00   ❤️ 1
祝福楼主了
mingring
    97
mingring  
   2023-12-14 08:43:43 +08:00
我跑出来怕都是敏感词
beijiaoff
    98
beijiaoff  
   2023-12-14 09:00:08 +08:00
我用的飞书文档的多维表格,可以自动生成词云。
Dogergo
    99
Dogergo  
OP
   2023-12-14 09:04:31 +08:00
@ttyhtg 感谢您的友善,啊 Sir
Dogergo
    100
Dogergo  
OP
   2023-12-14 09:07:05 +08:00
@bao3 真不把兄弟们当外人儿啊,你这个有点逆天的
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2658 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 819ms · UTC 15:07 · PVG 23:07 · LAX 07:07 · JFK 10:07
Developed with CodeLauncher
♥ Do have faith in what you're doing.