数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据预处理概述
## 数据预处理概述 ### 7.0.1 问题提出 - ==数据的爆炸性增长与形式多样==。大数据时代下,人们积累的数据越来越多,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐。 - ==通过数据挖掘获取信息的需求==。激增的数据背后隐藏着许多重要信息,如何对其进行更高层次的分析,以便使数据能够转化成有用的信息和知识。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识解决“数据爆炸但知识贫乏”问题,人们努力寻求各种新方法和技术以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生。 - ==数据挖掘面临“脏数据”问题==。现实中的数据是错综复杂的,不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这样的数据简称为“脏数据”,根据“垃圾进垃圾出”原理,错误的数据不仅会导致昂贵的操作费用和漫长的响应时间,产生错误的分析结果,影响信息服务的质量。 因此,在从数据集中挖掘知识与信息之前,必须对其进行一系列的预处理工作。大量的事实证表明,在数据挖掘系统中,`数据预处理所占的工作量达到了整个工作量的60%至80%`。 ### 7.0.2 相关概念 **1. 数据对象与属性类型** - 对数据基本知识的认知是进行数据预处理的基础,在获取原始数据之后需对数据组织形式、数据属性以及数据值等进行分析,并依据不同的数据特征选择不同的方法进行数据预处理。 **数据对象:** - 数据是对主观事实的概括或客观事物记录的结果,是信息的一种表现形式,也是信息的载体。大量数据对象的集合形成数据集,一个数据对象(又称为样本、实例、数据点或记录)代表一个实体,并用数据属性来描述数据对象或实体。数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性。例如,在学生管理系统中,数据库中的每一行代表一个学生,每一列代表学生的一种属性(例如性别、学号、选修课程等)。 **数据属性:** - 属性,有时又称维度(Dimension)、特征(Feature)、变量(Variance),主要用来描述数据对象特征。属性类型由该属性可能取值的集合决定,具体分为:标称属性、二元属性、序数属性和数值属性等。 **标称属性(nominal attribute):** 代表某种类别、编码或者状态。比如头发颜色:黑色、棕色、黄色等。标称属性值不具有有意义的序且并不是定量。 **二元属性(binary attribute):** 该属性只有两类:0或1,或者对应于true和false,又称为布尔属性。如果两种状态具有同等价值且携带相同的权重,则称该二元属性是对称的;如果两种状态不是同等重要的,比如艾滋病病毒的阴性和阳性,那么称该二元属性是非对称的。 **序数属性(ordinal attribute):** 属性值之间具有有意义的序(ranking),相继值之间的差未知。比如标称属性size中的大、中、小,具有有意义的先后次序,但是无法描述大和中、中和小之间相差具体多少。序数属性也可以将数值量的值域划分成有限有序类别,将数值属性离散化得到。 **数值属性(numeric attribute):** 属性值可用整数或者实数值表示,数值属性可以使用区间标度或比率标度。区间标度可以计算出不同值之间的准确差值,但是不能简单描述一个值和另一个值的倍数问题,。如温度、日期等。比率标度是具有固定零点的数值属性,可以描述一个值和另一个值的倍数关系。 **2. 数据质量** - 数据如果能满足其实际的应用需求,则它就是高质量的,数据预处理的主要目标就是将现实世界中低质量的数据依据数据分析目标将其转化为高质量数据。评判数据的质量通常涉及诸多因素,其中包括有效性、精确性、完整性、一致性、时效性、可信性与可解释性等。 **数据的有效性:** 指数据的取值应遵循预定的语法规则,是否符合其定义,常从值域、长度、内容规范等方面进行约束。比如“授信额度”取值范围应大于等于 0,“金融机构编码”在《人民银行金融机构编码规范》中规定长度为14位,“存款账号”应仅含数字,如果出现字母或其他非法字符,则不是一个 有效的“存款账号。 **数据的精确性:** 指数据的内容、粒度和精度,符合需求原则,能够准确表示真实世界的能力,经常采用对同一对象的重复测量时所得到不同数据间的接近程度来反映,且精度越高要求数据采集的粒度越细,误差的容忍程度越低,比如测量人的身高,精确到厘米,多次测量差异只会在厘米级别。采用的测量方法和手段直接影响数据的精确性。 **数据的完整性:** 指数据的属性、内容、关系的全面性,能够完整描述客观事实以适用于统计模型、数据挖掘模型和数据库等。常见的数据不完整性问题包括:模型设计不完整,例如:唯一性约束不完整数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的一类问题。 **数据的一致性:** 指用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。常见的一致性主要有:取值一致、存在一致与逻辑一致等。取值一致性指不同数据集同一对象数据取值应相同,比如保单表和理赔表中同一主体的保单号应相同。存在一致性指一个数据对象不同属性之间具有一定的关联性,比如:某个主体的投保状态为已投保,则投保日期不应为空;逻辑一致性一个数据对象不同属性取值满足某种逻辑关系(如大于、小于等),主要强调的是字段间的互相约束关系。例如:投保开始时间小于等于投保结束时间。 **数据的时效性:** 指数据集在预期时段里特定应用的及时程度和可用程度。有些数据收集后就开始老化.使用老化后的数据进行数据分析、数据挖掘,将会产生错误的分析结果。 **数据的可信性(Credibility)与可解释性(Interpretability):** 可信性反映了有多少数据是用户信赖的,而可解释性了反映数据是否容易理解。例如,某一销售数据库在某一时刻存在错误,虽然之后数据库的错误被及时修正,但过去的错误使得销售部门不再信任该数据。同时数据还存在许多会计编码,销售部门很难读懂。即便该数据库经过修正后是正确的、完整的、一致的、时效性强的,但由于很差的可信性和可解释性,销售部门可能把它当作低质量数据。 ------------
张龙
2024年8月13日 09:00
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码