数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据集成
## 7.2.1 基础概念 - 数据集成:是将分散存储在不同数据集中的数据,逻辑地或物理地将互相关联且分散的异构数据源集成到统一的数据集中,使用户能够便捷地访问数据。数据集成包括内容集成和结构集成 - 数据集成的数据源包括各类数据库管理系统,以及目前大数据环境下广泛使用的各类XML(extensible markup language,可扩展标记语言)文档、HTML(hyper text markup language,超文本标记语言)文档、电 子邮件、普通文件等结构化数据、半结构化数据。数据源异构性是数据集成难点,主要表现在语法异构和 语义异构上。 - 语法异构一般指源数据和目标数据之间命名规则及数据类型不同。例如,数据库的命名规则是字段到字段、记录到记录的映射,解决了命名冲突和数据类型冲突。 - 语义异构要比语法异构复杂,往往是破坏字段原意,直接处理数据内容。 ## 7.2.2 数据集成技术 为了将互相关联且分散的异构数据集成到统一的数据集中,常用的数据集成技术有`实体识别、属性冗余识别、数据冲突检测与处理`。 - 1. 实体识别 来源于多个数据源的数据按照等价实例进行“匹配”。比如,在多个数据源中用户名字的表示形式不同,数据集成需要先将不同形式的用户名字匹配识别,再整合数据结构。 例5:共有8位考生,他们的面试成绩和笔试成绩分别见下表,试把考生成绩集成到一张数据表中。   依据题意,将两个表中的数据集成,表格中姓名相同代表同一人。按照实体识别,表5中**“*****” 与“考生孙”匹配,表中“*****”**与“考生吴”匹配。数据集成结果见下表:  - 2. 属性冗余识别 冗余是数据集成的另一个重要问题。一个属性(如年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致数据集中的冗余。 - 有些冗余可以被相关分析检测到。例如,给定两个属性,根据可用的数据,这种分析可以度量一个属性能在多大程度上蕴涵另一个。对标称数据,我们使用卡方检验;对数值属性,我们使用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。 例6:比如说咖啡店,不同职业的人偏好不同口味的咖啡,老板想知道职业这个变量与不同口味咖啡是否独立。数据如下表所示,在显著性为$$\alpha\=0.01$$下,检验职业与口味是否独立性。检验结果卡方值为138.2050,其概率p值=0.0000,即拒绝了职业与咖啡口味偏好相互独立的原假设,表明咖啡购买数据蕴含了消费者的职业信息。  - 3. 数据冲突检测与处理 来自不同数据源的某种属性或约束存在冲突,导致数据集成无法进行。 例如,质量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。再如,不同学校交换信息时,每个学校有自己的课程设置和等级模式。一个大学可能采用季度制,数据库系统中存在3门课程,等级从A+到F。另一个可能采用学期制,数据库系统中提供2门课程,等级从1到10。很难制定两所大学精确的课程和等级之间的转换规则,交换信息很困难。 ------------
张龙
2024年8月14日 16:27
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码