数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据变换
## 7.4.1 基础概念 - 在数据经过清理、集成与归约等步骤后,很可能需要进一步将数据进行规范化、离散化、分层化等操作,以提高模型拟合的程度,或使原始属性能够被更抽象或更高层次的概念代替。这些方法统一可以称为数据变换(Data Transform)。 - ==数据变换==: 数据变换是采用线性或非线性的数学变换方法,将数据从一种表示形式变为另一种表现形式,以适合于各种数据挖掘模式的过程,使数据挖掘的过程更有效、数据挖掘的模式更容易理解。 - 数据变换的常用技术包括`数据标准化、数据离散化和概念分层`等。 ## 7.4.2 数据变化技术 ### 1. 数据标准化 标准化也称为规范化,数据标准化是将属性数据按比例映射到特定范围中。例如,将工资收入属性数值映射到特定区间[‐1,1]中。图像数据标准化是将图像数据按比例进行缩放,使之落入标准化后的特定区域,去除图像数据的度量单位限制,转化为无量纲的图像数据,便于图像特征的比较或加权。常用的标准化技术有z‐score标准化、Min‐Max最大最小标准化和小数定标法。 - (1) **z‐score标准化**是最常用的标准化方法,是用属性数据减去其平均值,再除以标准差的方法。z‐score标准化公式为: ```latex x_i\;=\;\frac{x_i\;-\;\mu}\delta ``` 其中,$$x_i$$为属性数据;$$\mu$$为属性数据的平均值;$$\delta$$为属性数据的标准差。 > 例7:已知属性数据的均值为1500,标准差为200。给定数据见下表。 | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | --- | --- | --- | --- | --- | --- | --- | | 数值 | 1400 | 1650 | 1500 | 1300 | 1600 | 1450 | 1550 | > 试采用z‐score标准化变换表7中数据。解依据题意,变化方法采用z‐score标准化。均值$$\mu=1500$$,标准 差$$\delta = 200$$,根据z‐score标准化公式,有第1个数值变换为: ```latex x_1\;=\;\frac{1400\;-\;1500}{200}\;=\;-0.50 ``` 其他数据变换过程类似,采用z‐score变换后的数据见下表。 | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | --- | --- | --- | --- | --- | --- | --- | | 数值 | 1400 | 1650 | 1500 | 1300 | 1600 | 1450 | 1550 | - (2) **Min‐Max最大最小标准化**是将原始数据取值统一映射到区间[0,1]上。将原始数据减去属性最小值,再除以属性最大值与属性最小值之差,即可将原始数据统一映射到区间[0,1]中。Min‐Max最大最小标准化公式为: ```latex x_i\;=\;\frac{x_i\;-\;min(x)}{max(x)\;-\;min(x)} ``` 其中,$$x_i$$为属性数据;max(x)和min(x)分别为属性数据的最大值和最小值。为了将原始数据统一变换到区间[min,max]中,Min‐Max最大最小标准化公式为: ```latex x_i\;=\;\frac{x_i\;-\;min(x)}{max(x)\;-\;min(x)}(max - min) + min ``` - 其中,max和min分别为区间上限和区间下限。 > 例8:给定一组数据,见下表,试采用Min‐Max最大最小标准化方法将表11中的数据标准化到区间[‐1,1]上。 | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | --- | --- | --- | --- | --- | --- | --- | | 数值 | 1400 | 1650 | 1500 | 1300 | 1600 | 1450 | 1550 | 依据题意,变化方法采用Min‐Max最大最小标准化,区间上限max=1,区间下限min=‐1。表11中数据 的最大值max(x)=2000,最小值min(x)=1000,根据$$x_i = \frac{x_i - min(x)}{max(x)-min(x)}(max - min) + min$$ 第1个数值变换为$$x_1 = \frac{1400 - 1000}{2000 - 1000}(1 - (-1)) + (-1) = -0.20$$ 第2个数值变换为$$x_1 = \frac{1900 - 1000}{2000 - 1000}(1 - (-1)) + (-1) = 0.80$$ 其他数据变换过程类似,采用Min‐Max最大最小标准化的数据见下表: | 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | --- | --- | --- | --- | --- | --- | --- | --- | | 标准化数值 | -0.20 | 0.80 | 0.50 | 0.80 | -1.00 | -0.38 | 1.00 | - (3) **小数定标法**是移动原始数据小数点位置的数据变换过程。小数点移动多少位取决于 属性取值的最大绝对值。小数定标法的计算公式为: ```latex x^’\;=\;\frac x{10^{\;j}} ``` 即将数据的小数点统一向左移动$$j$$位。 ### 2. 数据离散化: 数据离散化是将原始数据划分为多个区间,用区间标号替代属性数值。数据离散化技术可以减少连续属性的取值个数。 - 数据离散化对决策树等分类数据挖掘方法非常重要。数据挖掘算法大多是递归算法,大量计算时间用于每一步的数据排序,待排序离散数值越少,算法运算速度越快。 - 数据离散化包括`无监督离散化和监督离散化`: #### 1)无监督离散化: - 无监督在离散化过程中不考虑类别属性,其输入数据集仅含有待离散化属性的值。 等宽算法,又称分箱离散化,根据用户指定的区间数目K,将属性的值域$$[X_{min}, X_{max}]$$划分成K个区间,并使每个区间的宽度相等,即都等于$$\frac {X_{min} + X_{max}}K$$,等宽算法的缺点是`容易受离群点的影响`而使性能不佳。 等频算法,根据用户自定义的区间数目将属性的值域划分成K个小区间,该算法要求落在每个区间的对象数目相等。例如,属性的取值区间内共有M个点,则等频区间所划分的K个小区域内,每个区域含有M/K个点 #### 2)监督离散化: - 监督离散化方法适用于数据包括类别信息(类标号),效果比无监督好。例如患者症状(属性)数据集,其中每个患者具有一个诊断结论类标号,类分布信息可用于计算属性区间划分点。 ->(1) 决策树分裂算法: 一种自上而下的划分算法,其主要思想是依据类别信息(类标号)选择划分点,使得同一个分区包含尽可能多的同类元组(或个体)。熵是常用于确定划分点的度量,比如,为了离散化数值属性A,选择使最小化熵的A的值作为划分点,不断划分直到直到满足某种停止条件。 -> (2) ChiMerge算法: 一种基于卡方值的自下而上的离散化方法,递归寻找最邻近区域区间,然后将其合并,形成较大区间,其基本思想是,如果两个相邻区域具有非常类似的类分布,则将这两个区间合并;否则,应当保持分开。 ### 3. 概念分层: 常用的数据离散化技术,给定连续属性数据,用较高层概念(以年龄属性为例,如青年、中年和老年三类)代替较低层概念(如年龄数值,减少年龄属性取值个数)。 - 概念分层也可以用于数据归约。概念分层虽损失了属性数据的一些精度,但数据更有实际意义、更容易解释,所需存储空间少,数据挖掘算法效率更高、效果更好。 - 概念分层结构有用户或专家模式定义分层结构和部分属性集分层结构等。 ------------
张龙
2024年8月14日 16:38
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码