数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据清理
## 7.1.1 缺失数据 - 缺失数据产生的原因:造成数据缺失可能有多种原因,分为`人为原因`和`设备原因`。 - 人为原因:是人的主观失误、历史局限或有意隐瞒造成的数据缺失,如操作人员由于某种原因没有将数据录入系统、由于理解错误导致相关数据没有记录等。 - 设备原因:是硬件设备导致的数据收集或保存失败造成的数据缺失,如设备故障、存储设备损坏、硬件故障导致某段时间的数据未能收集。 > d 注意,在某些情况下,缺失值并不意味数据错误。例如,在申请银行卡时,可能要求申请人提供驾驶证号,没有驾驶证的申请者填写无驾照或不填写该字段,不能提供驾驶证号。 缺失数据处理方法:缺失数据处理主要分为`删除缺失数据`和`插补缺失数据`。 - #### 删除法: 是处理缺失数据的常用方法。如果包含缺失数据的记录规模所占比例不大,则可以简单地将小部分数据缺失的记录删除。如果某个变量的数据缺失较多,一般会将该变量删除,或者若数据量非常庞大,并且变量数值缺失的实例记录数量远小于信息表所包含的记录数,数据缺失的实例记录删除对信息影响微弱。 当`缺失数据的记录较多`时,以近似插补值代替缺失数据比完全删除实例记录更好。 - #### 插补法: 插补法是对缺失数值或实例记录进行估计,赋予缺失数据替代值。观测数据和插补数据构成“拟完全数据集”,便于构建统计模型和数据挖掘模型。插补值越接近缺失数据的实际值越好。常用均方误差(mean-squareerro,MSE)或根均方误差(root-mean-squareerro,RMSE)述插补值的准确度。 令$${\widehat y}_i$$、$$y_i$$分别为缺失数据的插补值和实际值,$$n_M$$为缺失记录个数,MSE和RMSE分别定义为: > ```latex MSE\;=\;{\textstyle\sum_{i\;=\;1}^{n_M}}\frac{{({\displaystyle\widehat y}_i\;-\;y_i)}^2}{n_M}; RMSE\;=\;\sqrt{{\textstyle\sum_{i\;=\;1}^{n_M}}\frac{{({\displaystyle\widehat y}_i\;-\;y_i)}^2}{n_M}} ``` - MSE或RMSE越小,插补值与实际值之间的差异越小,插补法准确度越高。 - 按照选用插补值个数,插补方式可分为单重插补和多重插补。 单重插补:是为每个缺失数据赋予单一数值,该插补方式简单易行,操作性强。 多重插补:是为每个缺失数据赋予多个数值。 - 目前,常用插补法有均值插补法、基于回归模型的插补法、热插补法、冷插补法等。 - 1.均值插补法: 用非缺失数据的平均值作为缺失数据的插补值。该插补法操作简便,应用广泛。均值插补法只能生成一个插补值。如果多个实例同一属性数据缺失,所有缺失属性数据都用同一值代替。令$$y_i$$为实例的i的实际值,n为实例数,$$\{y_R}$$为非缺失实例数值均值,$$n_R$$为非缺失实例数。若第j个实例数值$$y_j$$缺失。采用均值插补法,用均值$$\{y_R}$$代替$$y_j$$,记为$$y_j^M$$,即$$y_j^M = \{y_R}$$ 例1:给定含缺失数据的一组实例数据,试采用均值插补法计算表中缺失数据。 | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | --- | --- | --- | --- | --- | --- | --- | | 数值 | 140 | 190 | N/A | 100 | 110 | 160 | N/A | 采用均值插补法替代缺失数值,根据表1的数据,有 ```latex {\overset\_y}_R\;=\;\frac{140\;+\;190\;+\;100\;+\;110\;+\;160}5\;=\;140 ``` - 缺失的第3个实例数值替代为: > ```latex y_3^M\;=\;{\overset\_y}_R\;=\;140 ``` - 缺失的第7个实例数值替代为: > ```latex y_7^M\;=\;{\overset\_y}_R\;=\;140 ``` - 2.条件均值插补法: 又称类均值插补法或分层均值插补法。该方法先对单元分层,再用每层已观测单元均值代替该层缺失属性数值。相对于均值插补法,条件均值插补法选择层内单元具有更好的同质性,有利于提高插补准确度。 例2:给定如下一组大学生生理特征数据,采用条件均值法对缺失数据进行插值。 | 学号 | 性别 | 体重(kg) | 身高(cm) | | --- | --- | --- | --- | | 1 | 男 | 61 | 176 | | 2 | 男 | 59 | 172 | | 3 | 女 | 46 | 166 | | 4 | 女 | 43 | 159 | | 5 | 女 | N/A | 168 | | 6 | 女 | 52 | 171 | | 7 | 男 | 67 | 180 | | 8 | 女 | 49 | 162 | | 9 | 女 | 56 | 174 | | 10 | 男 | 58 | 170 | 从上述数据表可知,男学生体重普遍要高于女学生体重,通过采用分组平均值可以更好拟合缺失数据,因此对本例中女学生缺失体重数据可采用其他所有女学生体重的平均值进行替代。 - 根据表2的数据,女大学生的平均体重: ```latex \;{\overset\_y}_{RF}\;\;=\;\frac{46\;+\;43\;+\;52\;+\;49\;+\;56}5\;=\;49 ``` - 缺失的第5个实例数值替代为: > ```latex y_5^M\;=\;{\overset\_y}_R\;=\;49 ``` - 3.众数插补法: 对于离散型数据的缺失,利用非缺失的离散型数据的众数代替缺失数据的过程称为众数插补法。 - 4.同类均值插补法: 先用层次聚类模型判断缺失数据的类型,利用该类型的非缺失数据均值代替缺失实例数值的过程称为同类均值插补法。 - 5.基于回归模型的插补法: 该方法利用非缺失实例数据建立缺失变量的回归模型,用回归模型预测值代替缺失数据。基于回归模型的插补法主要有线性回归插补法。例如,考虑n个样本的调查项目$$Y_1, Y_2, ..., Y_{k-1}, Y_{k+1}, ..., Y_n$$,其中第k个数据缺失,令含$$Y_k$$变量关于变量$$Y_1, ..., Y_n$$的回归模型为: > ```latex y_k\;=\;\beta_0\;+\;{\textstyle\sum_{j=1}^{k-1}}\beta_jy_j\;+\;\varepsilon ``` - 其中$$\beta_0$$为截距项估计值,$$\beta_1, ..., \beta_{k-1}$$是回归系数。 利用非缺失数据估计回归模型为: > ```latex {\widehat y}_k\;=\;{\widehat\beta}_0\;+\;\sum_{j=1}^{k-1}\;{\widehat\beta}_jy_j ``` 变量$$Y_k$$个数据缺失,其补差值为: ```latex y_{nk}^M\;=\;{\widehat\beta}_0\;+\;\sum_{j=1}^{k-1}\;{\widehat\beta}_jy_{nj} ``` 其中,$$y_{n1}, ..., y_{n(k-1)}$$为其他变量的第n个变量,均值插补法可以看作线性回归插补法的特殊情况。 例3:仍以大学生生理特征数据为例,采用回归模型的插补法对缺失数据进行插值。 | 学号 | 性别 | 体重(kg) | 身高(cm) | | --- | --- | --- | --- | | 1 | 男 | 61 | 176 | | 2 | 男 | 59 | 172 | | 3 | 女 | 46 | 166 | | 4 | 女 | 43 | 159 | | 5 | 女 | N/A | 168 | | 6 | 女 | 52 | 171 | | 7 | 男 | 67 | 180 | | 8 | 女 | 49 | 162 | | 9 | 女 | 56 | 174 | | 10 | 男 | 58 | 170 | 分别以女学生体重和身高数据为因变量和自变量进行线性回归得到回归方程:体重 = 身高 * 2.6 + 41.4,然后将5号女学生的身高数据168cm输入回归方程即可得到该学生体重的插补值。 ```latex w = 1.68 \times 2.6 + 41.4 = 45.768 kg = 46 kg ``` - 6.基于Logistic回归模型的插补法: 若含缺失数据的变量$$Y_k$$是分类变量,基于非缺失实例数据,估计Logistic回归模型。 ```latex \log it(P(Y_k\;=\;j))\;=\;\log it({\widehat p}_k)\;=\;{\widehat\beta}_0\;+\;{\widehat\beta}_1Y_1\;+\;...\;+\;{\widehat\beta}_{k-1}Y_{k-1} ``` ```latex \log it(P(Y_k\;=\;j))\;=\;\log(\frac{P(Y_k\;=\;j)}{P(Y_k\;=\;J)}) ``` 其中,$$Y_1, Y_2, ..., Y_{k-1}$$为其他变量,不含缺失数据。 ```latex \;{\widehat\beta}_0, \;{\widehat\beta}_1, ..., \;{\widehat\beta}_{k-1}为模型参数估计值。 ``` 为模型参数估计值。如果变量$$Y_k$$的第n个样本的缺失数据,可计算其缺失概率,也称为倾向得分为: ```latex \log it(P(Y_{nk}\;=\;j))\;=\;\log it({\widehat p}_{nk})\;=\;{\widehat\beta}_0\;+\;{\widehat\beta}_1Y_{n1}\;+\;...\;+\;{\widehat\beta}_{k-1}Y_{nk-1} ``` 依据各类别中倾向得分取值的大小,缺失数据代替为相应类别。 - 7.热插补法: 从非缺失数据实例中随机抽取数据实例代替缺失数值的过程称为热插补法。分层热插补法是先利用辅助变量对实例分层,使层内实例的数量特征差异尽可能小,从含缺失数据所在层中随机抽取非缺失数据的实例构造插补值的过程。 - 8.冷插补法: 利用数据集外其他来源信息,如前期调查数据、历史数据、同类调查数据或 官方数据等构造插补值的过程称为冷插补法。 除了上述插补法外,还有很多其他插补法,不同插补法各有优点和局限性,由于数据缺失问题的复杂性,没有一种插补法总是最优的,在实际应用中,`多种插补法组合运用`也可能得到更好的插补值。 ## 7.1.2 噪声数据 - 噪声数据: 从数据技术角度,噪声数据是指数据集中偏离实际值的错误数据、虚假数据、重复数据或异常数据等。噪声数据不是正确实际值,其产生原因有很多种。例如,数据采集设备出现故障;数据输入人员或计算机产生错误;数据传输过程中发生错误;命名约定或所用数据代码不一致,或输入变量格式不一致等。噪声数据会影响数据分析结果的可信度。目前,噪声数据的常用处理技术是数据平滑技术,主要有`分箱、回归、聚类等`。 - 1. 分箱技术:将收集的数据划分到一些箱中,用每个箱中的数据局部平滑,包括按箱平均值平滑、按箱中值平滑和按箱边界平滑。 例4:收集的一组数据见下表,试采用分箱技术的按箱平均值平滑法剔除噪声。 | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 数值 | 14 | 17 | 10 | 12 | 13 | 15 | 19 | 13 | 16 | 15 | 19 | 17 | 将表3中12个数值由小到大依次排列为: | 10 | 12 | 13 | 14 | 15 | 15 | 16 | 17 | 17 | 19 | 19 | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | 采用分箱技术,分为3箱,每箱4个数值,见下表。  - 2. 回归平滑法: 构建收集数据的适当回归函数,用回归函数预测值平滑数据的过程称为口归平滑法。 - 3. 聚类平滑技术: 将收集数据划分成群或“聚类”,落在聚类集合之外的数值被视为噪声数据,用类均值平滑噪声数据。 ------------
张龙
2024年8月14日 16:19
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码