数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据规约
## 7.3.1 基础概念 - 数据规约: > 是指依据数据挖掘模型和数据应用目标,寻找数据代表性特征,压缩数据规模,在保持数据原有特征的前提下,最大限度地精简数据量。也就是说,在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。 - 数据规约的意义在于: >s 1. 降低无效、错误数据对建模的影响,提高建模的准确性。 >i 2. 少量且具代表性的数据将大幅缩减数据挖掘所需的时间。 >w 3. 降低存储数据的成本。 ## 7.3.2 数据规约技术 常用的数据归约技术包括`维归约、属性子集选择和数值归约`: - 1. 维归约: 针对属性数量大的数据集,把原始数据变换或投影到较小空间,减少属性个数的过程称为维归约。例如,图像数据集包含大量特征和成千上万的属性,图像数据挖掘需要提取图像的有用信息。维归是采用代数特征抽取方法等提取图像特征的降维技术。常用的技术包括`主成分分析、独立成分分析`。 - 主成分分析是搜索最能代表数据集的一组正交向量,正交向量个数小于原始数据维数,使原始数据投影到低维数据集上,实现维归约。主成分分析属于线性代数技术,其主成分是原来属性的线性组合,能够解释据最大变差,是非常有用的降维技术。 - 独立成分分析是一种降维方法,是将多维属性划分成统计独立的属性组合结构,在属性之间最小化统计依赖的线性变换方法 - 2. 属性子集选择: 收集的数据集包含大量属性,对数据分析目标有意义的属性只是其中一部分。此时,需要进行属性子集选择,在`机器学习中`,属性子集选择也称为特征子集选择。 (1) 逐步向前选择: 该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的属性中最好的属性添加到该集合中。 (2) 逐步向后删除: 该过程由整个属性集开始,每一步都删除掉尚在属性集中的最坏属性。 (3) 向前选择和向后删除: 向前选择和向后删除的方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。 (4) 决策树归纳: 决策树算法(如 ID3、C4.5和CART)最初是用于分类的,决策树归纳构造一个类似于流程图的结构,其每个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部(树叶)结点表示一个类预测。在每个结点,算法选择“最好”的属性,将数据划分成类 - 3. 数值归约: 指用替代的、较小的数据表示形式替换原数据。具体技术主要分为`参数化数据规约和非参数数据规约`。 - 参数化数据规约: 主要采用回归和对数线性模型可以用来近似给定的数据,使得最终存储数据只需要存储模型参数,而不是实际数据。 - 非参数数据规约主要包括聚类法、抽样法和直方图等。 - 1)聚类法: 聚类技术把数据元组看作对象,将对象划分为群或簇,使得在一个簇中的对象相互相似,而与其他簇中的对象相异,通过用数据的簇替换实际数据实现数据规约。 - 通常相似性基于距离函数,用对象在空间中的接近程度定义。簇的质量用直径表示,直径是簇中两个对象的最大距离。形心距离是簇质量的另一种度量,定义为簇中每个对象到簇形中(表示平均对象,或簇空间中的平均点)的平均距离 - 2)抽样法: 抽样可以作为一种数据归约技术使用,因为它允许用比数据小得多的随机样本(子集)表示大型数据集。常用的抽样又可分为:简单随机抽样、聚类抽样和分层抽样。 - `简单随机抽样`,又称纯随机抽样,数据集中每个元组被选择的概率相同,而一个元组被抽取后是否被放回又可分为不放回简单随机抽样和有放回简单随机抽样,通过随机抽取元组对数据进行规约。 - `聚类随机抽样`,首先将数据集中的元组被分组放入K个互不相交的类,然后从K个类中随机抽取S(S<K)个类,即聚类抽样不对元组进行抽样而是随机选择类得到元组的类样本,由此得到数据的归约表示。 - `分层随机抽样`,首先根据一些共同属性将数据集进行分组,然后分别对分组数据集进行随机抽样。特别是当数据倾斜时,这可以帮助确保样本的代表性。例如,对于顾客数据集,对每个年龄组的顾客数据进行随机抽样,具有最少顾客数目的年龄组也能能够被样本数据代表。 - 3)直方图: 直方图使用分箱来近似数据分布,是一种流行的数据归约形式。属性A的直方图(Histogram)将A的数据分布划分为不相交的子集或桶,用直方图数据的桶来替代其包含的邻近数据样本。 ------------
张龙
2024年8月13日 09:18
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码