最近被老师交了个任务:向数据库导入交大的学术知识图谱Acemap,此前考虑过以下的方法导入:
neo4j (配合neosemantic插件,但 neo4j 在千万级结点后插入、查询等操作极为缓慢,基本不可用)
jena TDB2 (当前正在尝试,但 tdb2loader 的导入性能也不容乐观,7 千万结点后可能因为本地测试机内存有限,速度也慢下来了)
目前我的思路是:将数据分为较小的块( chunk ),再分为每个 5 千万条三元组的 Turtle 分批进行导入。但使用 Github 上的相关 repo:rdfsplit 不能做出理想的效果。
而且对数据进行实验操作的平台比较羸弱:本地测试机的 RAM 仅 8G,服务器 RAM 16G,可能也因此制约了导入的效率。
作为语义网 /知识图谱领域的门外汉,网络上语义网 / 构建大型知识图谱相关的内容较少,Google 一番后仍得不到较好的答案。在此向 V2EX 里的各位请教以下问题:
1.如何在单机环境下,将大型 RDF 文件固化进数据库?( GB 级,最大近 40G )
2.同时,有哪种处理 RDF 工具(目前想要对 RDF 进行分割)值得一用?