数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据仓库
## 5.4.1 数据仓库概述 - 1988年IBM的德夫林(Devlin)和墨菲(Murphy)在“业务和信息系统架构”论文中,提出“业务数据仓库”(Business data warehouse)概念。试图解决业务规模较大的用户在基于多个日常业务信息系统进行相应多目标决策时,会存在从不同数据源搜集处理大量相同数据的问题。数据仓库力图提供一个用于支持决策的统一数据流架构模型,以便降低冗余数据和成本。 - 1992年恩门(Bill Inmon)给出数据仓库进一步界定。`数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。` - `数据仓库性质:` 面向决策者建模与分析主题的,按主题(如顾客、供应商、产品和销售组织行为)分类的数据集合。 数据集成性(integrated)指数据进入数据仓库之前,必须经统一性加工,将原数据结构向主题转变。 相对稳定性(non-volatile)指数据仓库反映历史数据,不是日常事务处理数据,数据经加工集成进入数据仓库后极少或根本不修改。 时变性(time variant)指需要标明历史数据时间,并以满足决策分析需要为保存时限。 应当指出,数据仓库是数据库技术的应用。目前数据仓库普遍采用关系数据库管理系统管理数据。数据仓库主要采用1998年恩门提出的CIF(Corporation Information Factory)架构构建。 ## 5.4.2 数据仓库架构 >- 数据仓库的逻辑设计存在两条技术路径。 `• 采用维度建模方法(dimensional modeling)。` `• 采用关系规范化标准的3NF模型方法。` 两种模型都是与关系表连接的,区别在于规范化程度(normal forms)。 - 1、`维度建模方法` 数据被划分为“事实”(如交易数据)和注释事实的“维度”。 >- 例如:销售交易分解为产品订购数量和产品支付总价等事实,以及以订单日期、客户名称、产品编号、订单收货方及其人员等维度。 >- 优点:事实与维度是用户业务流程的直接反映,相应数据仓库具有易于用户理解和使用,方便用户查询。 >- 问题:为保持事实和维度完整性,将来自不同数据库系统的数据加载到数据仓库操作非常复杂,导致规范化程度低。数据仓库结构固化,调整修改较困难。 - 2、`3NF模型方法` 该方法遵循数据库规范化3NF(第三范式)规则进行逻辑设计,需要基于用户决策分析目标构建关系表。 关系按对象(如客户、产品、财务等)领域分组,相应分析应用可能需要构建多个关系表支撑。在大型应用中,数十个表往往通过连接链接在一起。 优点:直接将信息添加到数据库中。 问题:涉及的表格数量众多,用户难以将不同来源数据合并为有意义的信息,并在难以准确了解数据来源的情况下访问信息。 ## 5.4.3 多维数据模型中数据操作 - 基于关系型数据库的信息系统,主要执行联机事务和查询处理。系统需要立即响应用户的处理请求。这类系统称为联机事务处理(On-Line Transaction Processing,OLTP)。与OLTP相对应,基于数据仓库的多维数据操作通常是满足多维分析(Multi-Dimentional Analysis,MDA)中复杂的查询计算,用于商业智能(Business Intelligence,BI)或分析报告,侧重对决策人员的支持。这类系统称为联机分析处理(On-Line Analytical Process-ing,OLAP)。 使用OLAP,用户能够从多个角度交互式分析多维数据。 包含三个基本分析操作:`上卷、下钻以及切片和切块。` 上卷指可以在一维或多维中累积和计算数据。 向下钻取是一种允许用户浏览详细信息的技术。 切片和切块是用户可以取出(切片)OLAP多维数据集的一组特定数据的功能,并从不同角度查看(切割)切片。 ## 5.4.4 数据仓库中的数据构建 - 数据构建指按照分析主题对各种来源数据进行整合时,采用抽取、转换、加载(Extract, Transform, Load,ETL )方法将数据从一个或多个来源复制到目标系统的一般过程。 `数据抽取:`ETL过程最重要的第一步。一般数据仓库项目利用来自不同源系统的数据。各系统可能使用不同数据组织或格式。提取过程同时需要进行数据验证,以确认从源中提取的数据在给定域中是否具有正确/预期的值。 `数据转换:`指将一系列规则用于提取的数据,以便将其加载到最终目标中。转换的一个功能是数据清理,即将“正确”的数据传递给目标。 `数据加载:`指将数据加载到数据仓库中。根据数据组织要求,此过程有很大差异。一些数据仓库可能会用不同时间(天、周、月)累积信息覆盖现有信息。有的数据仓库(甚至同一数据仓库的某部分)可能定期(如每小时)以历史形式添加新数据。替换或附加的时间和范围取决于决策分析选择的需要。
张龙
2024年7月15日 13:39
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码