数据标注
答:①、大人群产生的海量数据;
②、大量传感器产生的海量数据;
③、科学研究和各行各业越来越依赖大数据手段来开展工作。
2、数据采集方法有哪些?
答:①、系统日志采集
②、互联网数据采集
③、App移动端数据采集
④、与数据服务机构进行合作
3、数据采集流程是怎样的?
答:首先要明确数据的来源,然后根据行业和应用的定位,来确定采集的数据范围和数量,
并通过核实的数据采集方法,来开展后续的数据采集工作。
4、如何看待基于Flume的数据采集?
答:Flume是Cloudera提供的分布式的海量日志采集、聚合和传输的系统,
在日志收集简单处理方面有重要应用。它收集来自各个服务器的外部数据,
并以封装后的event(单元)流动,其间经过channel(缓冲区),最终到达sink(目的地),
经过上述数据流向,最终达到日志数据采集的目的。
5、针对不同的业务需求,数据清洗的方法有哪些?
答:可以通过忽略元组、数据补齐或不处理的方法处理缺失值,
通过回归、分箱或孤立点分析来处理噪声数据,通过合并或者消除来处理重复数据。
6、如何看待基于MapReduce的数据清洗?
答:MapReduce程序的编写主要是通过映射与化简的过程来实现数据去重的,
对两种文件中的每行数据都可以看做是Map和Reduce函数处理后的Key值,
当出现重复的Key值时,就将其合并在一起,从而达到去重的目的。