数据清理

阅读 / 问答 / 标签

数据清理中,处理缺失值的方法是

数据清理中,处理缺失值的方法是估算、整例删除、变量删除、成对删除等等。1、估算最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。2、整例删除是剔除含有缺失值的样本。由于很多问卷都可能存在缺失值,这种做法的结果可能导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。3、变量删除如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。4、成对删除是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。数据清理的方法:1、处理缺失值处理缺失值指的是在数据分析过程中处理缺失值(即数据集中缺少的数据)的方法。2、删除重复项删除重复项指的是识别并消除数据集中重复或冗余的条目。这是数据清理和预处理中的一个重要步骤,可以确保对唯一且准确的数据执行分析。重复可能是由于人为错误、数据输入错误或数据源中的不一致造成的。3、处理异常值处理异常值是指识别和处理数据集中与其余数据显著不同的极端值的过程。异常值可能会对数据分析的结果产生重大影响,如果处理不当,可能会使结果发生偏差。4、格式和类型转换格式和类型转换是指将一种数据格式转换为另一种格式或数据类型的过程。例如,将字符串转换为数字,或将数字格式化为特定的字符串形式。以上内容参考:百度百科-数据清洗

数据清理中需要考虑到的因素包括

1、预处理:在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题)1、预处理:在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):1.数据缺失(Incomplete)是属性值为空的情况。如Occupancy=“”2.数据噪声(Noisy)是数据值不合常理的情况。如Salary=“-100”3.数据不一致(Inconsistent)是数据前后存在矛盾的情况。如Age=“42”vs.Birthday=“01/09/1985”4.数据冗余(Redundant)是数据量或者属性数目超出数据分析需要的情况。5.数据集不均衡(Imbalance)是各个类别的数据量相差悬殊的情况。6.离群点/异常值(Outliers)是远离数据集中其余部分的数据。7.数据重复(Duplicate)是在数据集中出现多次的数据。标准化处理如:id对应不上淘宝个人信息表1阿宏xxxx支付宝个人信息表阿宏xxxx天猫个人信息表3阿宏xxxx标准化后对照表idnametbidzfbidtmId0001阿宏123淘宝个人信息表(+Standardid)1阿宏xxxx001支付宝个人信息表2阿宏xxxx001天猫个人信息表3阿宏xxxx00去重处理分2种类型_全部字段:distinctgroupby、row_number_核心字段:row_number处理结果需要保留哪条数据要看具体情况4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位。缺失值处理,重新收集,分数据的重要程度平均法、中位数取行业标准取最常用的值空值替换6、格式内容的处理时间、日期、数值、全半角格式不一致内容中不应该存在的内容内容与改字段应有的内容不一致7、逻辑错误处理,年龄超过200、月份13月日期2月30,按照缺失值处理8、修正矛盾数据确定那个字段是正确的9、非需求数据清洗10.关联性验证

数据清理流程的流程是

数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。1、数据分析数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。2、定义数据清洗的策略和规则根据数据分析出的数据源个数和数据源中的“脏”数据程度定义数据清洗策略和规则,并选择合适的数据清洗算法。3、搜寻并确定错误实例搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。手工检测数据集中的属性错误需要花费大量的时间、精力以及物力,并且该过程本身很容易出错,所以需要使用高效的方法自动检测数据集中的属性错误,主要检测方法有基于统计的方法、聚类方法和关联规则方法。检测重复记录的算法可以对两个数据集或者一个合并后的数据集进行检测,从而确定同一个现实实体的重复记录,即匹配过程。检测重复记录的算法有基本的字段匹配算法、递归字段匹配算法等。4、纠正发现的错误根据不同的“脏”数据存在形式的不同,执行相应的数据清洗和转换步骤解决原始数据源中存在的质量问题。需要注意的是,对原始数据源进行数据清洗时,应该将原始数据源进行备份,以防需要撤销清洗操作。为了便于处理单数据源、多数据源以及单数据源与其他数据源合并的数据质量问题,一般需要在各个数据源上进行数据转换操作。5、干净数据回流当数据被清洗后,干净的数据替代原始数据源中的“脏”数据,这样可以提高信息系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。

数据清理流程的流程是

数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。1、数据分析数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。2、定义数据清洗的策略和规则根据数据分析出的数据源个数和数据源中的“脏”数据程度定义数据清洗策略和规则,并选择合适的数据清洗算法。3、搜寻并确定错误实例搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。手工检测数据集中的属性错误需要花费大量的时间、精力以及物力,并且该过程本身很容易出错,所以需要使用高效的方法自动检测数据集中的属性错误,主要检测方法有基于统计的方法、聚类方法和关联规则方法。4、纠正发现的错误根据不同的“脏”数据存在形式的不同,执行相应的数据清洗和转换步骤解决原始数据源中存在的质量问题。需要注意的是,对原始数据源进行数据清洗时,应该将原始数据源进行备份,以防需要撤销清洗操作。5、干净数据回流当数据被清洗后,干净的数据替代原始数据源中的“脏”数据,这样可以提高信息系统的数据质量。数据清理的主要类型:1、残缺数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。2、错误数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。3、重复数据对于这一类数据特别是维表中会出现这种情况,将重复数据记录的所有字段导出来,让客户确认并整理。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件。