数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据科学应用体系框架
## 1.3数据技术应用通识体系框架 ### 1.3.1 体系构建思路 - 数据素质培养知识体系构建的“汽车驾照”思路。 - 驾驶员不需要弄懂汽车机械电气原理,但一定要按标准掌握汽车驾驶技术与道路行驶规则。同时需要尽可能了解一些诸如汽车发动机、刹车、灯光、安全等主要系统功能的相关概念知识,以便保障安全流畅驾驶。·类似驾照,理论上数据素质不需要弄懂计算机底层硬件、系统软件、网络与安全等专项技术,以及数学和统计学等相关理论。只需要学习掌握或理解数据技术相关基础概念与操作规则。 - 针对现实中因数据技术应用存在多样性场景,长流程,多维技术工具组合,技术快速变化,以及参与活动的各领域人员具有不同教育背景等一系列复杂因素,影响学习主体对相关知识掌握或理解的问题,采用如下应对办法。 - 基于数据概念形成的相关逻辑。提出数据技术概念,提示社会经济领域数据技术应用存在有效性边界。 - 建立数据生成、数据组织管理与数据信息汲取三个模块构成的数据技术应用全流程体系框架。 - 复杂的计算机信息系统、抽样技术与数据库系统是数据技术应用的基础。数据预处理与可视化原理涉及面广,但受篇幅限制。通过相关技术原理的概念化解读方式,突破复杂技术理解与篇幅限制瓶颈。 - 选择经典而非最新的代表技术构建各模块。以技术提出的作用意义,相关理论基本概念,以及技术操作规则,建立分层讲授逻辑。明确该技术是为解决什么问题而提出的,基本思路与技术路线,所得结论的意义及其有效性边界,以及技术现状及其发展等知识。可满足读者自主选择学习内容的要求。 - 提供系统及其专项技术操作示例,作为加深理解基础概念和相关规则的重要手段。明确示例仅服务学习,没有实际应用参考价值的考虑。 ### 1.3.2 数据生成框架 - 数据技术应用,首先面对数据从何而来的问题。实际问题复杂,资源投入很大。目前有多种获取数据的场景。通过统计调查获取原数据,称数据搜集;通过计算机信息系统自动获取原数据,称数据采集;以及从公共网络中“抓取”原数据,从原专题数据中按新主题要求再次获取的原数据等。 - 数据生成表达应用主题数据从无到有的生长、形成、构建等意义。与搜集或采集相比,其强调原数据是用户基于主题认知设计构建的。`暗含对所谓数据客观性要求的否定`。 数据生成是采用相关技术完成的。目标是高效低成本获取真实可靠的原数据。 - 原数据是相关行为规则与技术规则合成的产物。大数据可解读为行为主体按规则行为的充分记录。其中“充分记录”表达数据生成技术规则的作用。这是原数据意义及其真实可靠性评价的基础。 - 数据生成模块由三章构成,分别表达三类现实经典技术。 #### 第2章,计算机信息系统。 - 信息处理与科学计算同为计算机的早期应用领域。其打开计算机社会应用空间,驱动相关技术进步 - 计算机信息系统构成。其是集数据自动采集、存储、网络传输和系统安全等模块为一体的大系统。信息系统是各模块技术规则交互作用的统一表达。本节通过精选的各模块功能,给出相关技术规则的概念式解读。 - 传感器技术是所有数字技术系统的数据源:数据库是定义数据类型、组织数据处理的技术:网络传输通过构建一系列标准实现数据交互的技术;安全技术则为数据顺利应用提供保障。 - 信息系统运行的分布式技术路线。给出理解当前支撑信息系统应用场景的基本技术思路。一是基于系统资源共享与效率提升的客户端/服务器与浏览器/服务器网络架构。服务器功能概念式解读。是支撑大数据应用场景的分布式系统软件平台,代表性系统软件*Hadoop*,一种分布计算编程模型*Map Reduce* 系统的概念式解读。提供了理解信息系统思想的核心方法。 #### 第3章,抽样技术。 - 现代数据概念是基于抽样技术形成的。理论上人类事物认知都是基于部分信息推断总体的。但直至1802年拉普拉斯的人口抽样调查,“部分信息推断总体”才专门化为科学命题。驱动相关理论方法研究的数理统计学兴起。数据也从数学论证依据,演化为表达一般事物总体推定所依据的部分(样本)信息的概念。 - 把握样本与总体概念及其关系是学习的核心。 - 抽样指获取代表部分的样本技术。有效与稳健性是样本获取的质量标准,这一规则理论上也适用于大数据应用。"复杂的大数据应用场景中,承担补充完善数据信息的抽样技术仍不可或缺。 - 给出基于事物遵从随机变化认知前提,构建抽样技术应用规则的概念化解读。 - 给出网络调查与电话调查的操作规则。 - 给出抽样学习概念及其相应规则的概念式解读, #### 第4章,网络爬虫与文本数据生成。 - 爬虫是获取信息系统外溢性价值数据的一种实用技术, - 爬取的主要是文本数据。 ### 1.3.3 数据组织管理框架 - 指对原数据生成及其方便有效获取所需信息开展的数据存储、检索以及预处理等技术活动。 - 数据组织管理是信息系统乃至计算机技术的核心组成。贯穿数据处理全过程的专门研究领域。为数据组织管理提供理论基础与操作规则。 - 2000年以来基于数据库技术迅速发展,数据组织管理边界急速扩展。出现分布式数据组织管理系统,以去中心化分布式账本为特征的区块链(Blockchain)技术等。 - 基于技术路线考虑,将分布式数据组织管理系统技术概念纳入信息系统介绍。 - 区块链技术是结合加密技术的去中心化数据存储管理技术。当前该技术及其应用处于快速发展变化之中,暂不纳入该模块体系。 - 数据组织管理模块包括三章。 #### 第5章,数据库技术 - 数据库技术高度参与数据生成与信息获取技术的决定。存储与检索规则影响数据的生成与使用。。 - 数据与程序分离独立处理是数据库创立的背景。 - 数据库技术路径,基于事物认知的统计表传统,建立行与列二维集合表刻画数据关系。结构化数据。 - 关系数据库相关理论概念。 #### 第6章,SQL语言 - 关系数据库构建与操作的实用工具。具有很高复杂数据应用价值。 #### 第7章,数据预处理 - 指基于应用主题要求,统一规范数据的技术。占应用90%工作量,已成行业。 ### 1.3.4 数据信息汲取框架 - 数据信息汲取框架指从数据中获取问题解决所需信息的技术。 -> `需要解决的问题,技术作用及边界`。 其一,数据应用所需信息。指问题解决过程中,驱动相关参与因素行为的条件信号 数据应用包括,现象发现与认知检验,数字系统构建,经济社会的行动决策等。 -> 其二,驱动行为信号表现为数据分类信息。 分类指对事物区分比较,发现差别或联系的活动。任何问题的解决过程,都可抽象为针对不同信息需要采取哪些行动对应。 以`性质、层次以及数量特征区分事物的分类信息`,以便分类施策。 复杂问题的解决信息及行动对应存在层次性,切忌混淆 -> 其三,分类要基于标准。发现分类标准是数据信息获取技术的基本作用。 一是,科学问题的分类标准来自相关理论,社会经济问题的分类标准管理目标,技术问题的分类标准来自操作规则。 二是,现实中没有硬性理论规则约束的活动,或处于分类理论或规则标准边缘,或标准约束边界模糊,难以落实。需要基于相关数据发现可行分类标准,进而实现分类信息获取。 -> 其四,发现数据分类标准的技术路线, 一是问题导向路线。第8章回归模型、第9章Logistic建模技术。 - 以统计理论优势构建数据分析模型。具有假设条件严格,数学表述严谨,注重数据分析结果的问题因果关系合理性等特征。习惯上又称这类技术为统计建模技术。 #### 数据导向路线 ```mindmap # 第11章决策树分类规则 ## 第12章K-平均聚类 ### 第13章神经网络 #### 第14章支持向量机 ##### 第15章集成学习 ###### 第16章数据可视化 ``` - 具有不强调假设条件,以发现有价值问题为目标,以速度和精度表示模型优良性,采用试错方法优选信息等特征。习惯上称这类技术为数据挖掘或机器学习算法技术。 - 数据挖掘意指从大数据中发掘知识,其分析技术是依赖机器学习与统计的。 - 机器学习。基于图灵(Turing,1950) 提出机器学习概念。通过特定数据分类的计算机学习,归纳一定规律,采用算法模型刻画,再将算法用于其他数据分类。这是一个人工智能过程。 - 以信息论为基础,以最小信息熵为目标,模拟人类对概念判定的树形流程的决策树数据挖掘技术(Quinlan,1986;Hunt, Marin, Stone, 1966); - 基于神经网络连接主义的神经网络技术(Rosenbiatt,1959); - 基于统计学习理论的支持向量机技术(Vapnik,1963;1968); - 基于多层神经网络概念的深度学习技术等。 - 可视化技术应用。
张龙
2024年8月12日 15:49
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码