数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
第七章 数据预处理技术
```mindmap # 数据预处理技术 ### 数据预处理概述 ### 数据清理 ### 数据集成 ### 数据规约 ### 数据变换 ``` ### 数据预处理概述 数据预处理是一系列用于提高数据质量的技术和方法。它包括`数据清洗`、`数据集成`、`数据规约`、`数据变换`等步骤,目的是确保数据的`准确性`、`一致性`和`可用性`。 ### 数据清理 数据清理是识别和纠正数据中的错误和不一致的过程,包括: 1. **处理缺失值:**通过`删除`、`填充`或`估计缺失数据`。 2. **识别和处理异常值:**识别异常或离群点,并决定如何处理它们。 3. **纠正错误:**修正数据录入错误或格式问题。 ### 数据集成 数据集成是将来自不同来源的数据合并成一个统一的数据存储的过程,涉及: 1. **确定数据源:**识别不同数据源及其相关性。 2. **数据融合:**合并相似的数据字段,解决数据冲突。 3. **构建一致的数据视图:**确保集成后的数据在整个数据集中保持一致。 ### 数据规约 数据规约是减少数据集大小同时尽量保留重要信息的技术,包括: 1. **维度规约:**减少数据的维度,例如通过`主成分分析(PCA)`。 2. **数量化:**减少数据的精度,例如将`连续数据离散化`。 3. **数据抽样:**从大数据集中选择代表性的子集。 ### 数据变换 数据变换是改变数据形式以满足特定需求的过程,包括: 1. **标准化:**调整数据的尺度,使其具有零均值和单位方差。 2. **归一化:**将数据缩放到特定的范围,如0到1之间。 3. **编码:**将分类数据转换为数值形式,如使用独热编码。
张龙
2024年8月14日 16:29
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码