数据清洗

 
  • item表:包含timeline图片、user avatar、user tag图片等
    • 不包含avatar:item_pics(但是还是有很多user tag相关的图片)
    • avatars:item_avatars
  • itemreply:包含回复图片、user avatar
    • 不包含avatar:itemreply_pics
    • avatars:itemreply_avatars
  • user:包含user的首页背景(banner)、user avatar,以及user的最开头几个post
  • group:包含问答的配图
  • circle:包含圈子的背景、以及圈子部分成员的头像
 

Stage1:处理好item

得到item_pics、item_avatars

Stage2:聚合所有的userinfo类图片

  1. 得到item_avatars、itemreply_avatars、group_avatars、circle_avatars,将这些组合去重
  1. 将user_pics减掉item_pics,得到user_pics_cleaned
  1. 将user_pics_cleaned和上面的avatar拼合去重,得到最终userinfo类图片
 
Stage3: