近年随着大数据的兴起,数据价值这名词随处可见,嫣然成了一个新的风口。在这种风口下,数据科学家这个名词在这种潮流下越来越显得高大上,数据处理一词却成了枯燥泛味的工作代名词。
调研公司中的数据处理与数据分析
数据处理是对数据的采集、存储、检索、加工、变换和传输,也包括数据组织,数据计算,数据检索,数据统计排序等。数据处理是系统工程和数据价值提取的基本环节。
数据分析则是与数据处理有机结合,利用数据统计方法,从错综复杂的数据关系中梳理出事物的联系,比如发展趋势、影响因素、因果关系等。甚至建立一些BI,对一些数据的有用信息进行可视化呈现,并形成数据故事。
以缺失值处理为例,由于涉及环节过多,通常有不同的做法,如可考虑直接使用含有缺失值的特征, 或采用删除缺失特征的方法。当然也可对缺失值进行补全。 缺失补全,可以采用均值插补,同类均值插补,建模预测,高维映射,多重插补,压缩感知或矩阵补全等。从经验的角度来看,插补处理本身存在主观性,这种估计不一定符合客观事实。从技术角度而言,虽然有各种分析方法,但大多是从理论分析出发,对缺失值进行处理。
现实的情况是,缺失值本身是无法预测的,也就不可能知道它缺失所属类型,这就意味着我们无法量化插补方法的效果。另外由于各行业或领域的不同,其应用效果也存在较大的差异,尤其针对一些专业的领域,一些专业的数据分析人员可能通过他们对行业的理解,手动对缺值进行补充可能效果反而会更好。