整合Zhang的2021爬虫结果

Zhang的数据库是sqlite,使用sqlite2mongo导入到mongo中
他的数据库和我们的有这些区别:
  • item并非存储的原始信息,而是仅存储了uid、uname、ctime、tag和图片列表
    • 所以要整合,需要先手动构造和我们这边相似的结构
  • 剩下的Group、Event之类的信息不全,直接不动
 
整合的过程中发现tag有大量匹配不上的问题,发现是2021网信办搞的
半次元曾经删除的tag