每次遇到数据整理中的补缺,就觉得像是在原始森林,怎么走都可以,怎么走都有无限未来。但每每都知道,选择了一条路,就肯定会错过其余的风景。真是好懊恼,是A更有惊喜,还是B更有潜力,或是其实还有一个C?
常见的例子是,用户年龄会有缺失,可以先直接建模补缺;也可以先把年龄分段后,再作补缺处理;也可以将缺失的年龄指定成为某个固定值。但首先,我们需要关注的是,为什么这个字段会有缺失;这种对缺失原因的理解,有时候能够帮助我们找到一个更合适的补缺方法。
其实有时候,缺失仅仅是因为数据记录的格式引起,比如,当用户没有发生过所关注的行为,数据库可以什么都不用记,也可以记成0。这时候,这种缺失直接补个0就是了;这种例子就是每当我们要计算用户的购买次数之类的时候。
&nbs……