数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
数据技术
## 1.2 数据技术 ### 1.2.1 相关概念 一般而言,数据技术是在一系列计算机信息相关技术基础上形成的一个宽泛概念。相关技术概念主要包括: #### 1.大数据 - 1998年美国SGI公司马西(Mashey)基于数据快速增长现象提出,必将出现数据难理解、难获取、难处理和难组织等四个问题,并以“Big Data”描述这一挑战。 - 2007年图灵奖获得者格雷(Gray)认为,大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径:指出在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来“数据探索”的第四范式,以“数据密集型科学发现”,开启从科研视角审视大数据的热潮。 - 2012年牛津大学舍恩伯格(Schönberger)和库克耶(Cukier)发表《大数据时代》,提出数据分析将从“随机采样”“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”“近似求解”和“只看关联不问因果”的新模式,引发商业经济领域强烈反响。 - 2014年后大数据认知趋于理性。大数据相关技术、产品、应用和标准不断发展。形成数据资源与应用程序接口(application programming interface,API)、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据技术生态系统。发展热点从技术向应用、再向治理迁移。 - 大数据兴起,源于其给出的事物近似总体信息,改变传统数据认知范式,涌现巨大外溢价值。 - 目前大数据认识集中于传统数据技术区分。如其具有海量性、多样性、时效性及可变性等。 - `基于应用语境的大数据可定义:“行为主体按照规则行为的充分记录` - 行为规则来自领域活动要求。表达数据的信息价值。 - 充分记录表达相关技术的规则。 #### 2.数据科学 - 出自计算机和统计对其学科定位的再认识。 - 1974年丹麦图灵奖获得者诺尔(Naur)针对计算机基本功能是数据处理,提出数据科学(DataScience)概念,认为“数据科学是一门基于数据处理解决问题的科学”,建议其替代计算机科学称谓。· 1985年美国华裔统计学家吴建福访问中国科学院时提出,数据科学反映统计学研究现状,可以改变对统计学不够精确的认识偏误,建议统计学改称数据科学。 - 2000年后大数据陡起。统计学与计算机科学力图为大数据现象寻找一个科学解释框架,目光聚焦数据科学概念。出现大量以统计或计算机与大数据现象挂钩方式论证数据科学的文章 。其中2012年帕蒂尔(Patil)和达文波特(Davenport)发表“数据科学家:21世纪最时髦职业”一文,及其 2015年美国白宫聘请帕蒂尔担任第一任首席数据科学家的举动,将数据科学的社会影响推向高潮。 - 由此派生出基于统计与计算机等方面的数据科学概念解读 - 统计学提出,数据科学是搜集、处理和应用数据的科学。 - 计算机科学提出,数据科学是通过挖掘数据、处理与分析数据,从而获取数据中信息的技术。 - 其他数据科学概念的界定。数据科学是一门利用数据学习知识的学科;数据科学是统一统计,数据分析及其相关方法概念等等。 - 2016年我国开设数据科学与大数据技术本科专业。 ### 1.2.2 数据技术概率 #### 1. 数据技术概念形成相关背景 - 历史上出现大量服务各领域问题解决,归属相应领域的数据获取与处理技术。例如天文学的天象观测技术,气象学的气象观测技术,物理学的物质运动观测技术,生物医学的显微观测技术,社会经济的统计调查技术等等。可以说几乎自然与社会各领域都存在用于数据认知的相关技术。 - 因数据技术概念过于宽泛笼统,计算机领域并不采用。 大数据涌现导致数据技术脱离领域专属,成为独立普适性技术,形成新的社会分工。 - 大数据富含的信息具有解决一系列复杂社会经济问题的巨大价值,导致涌现出大量从大数据中获取高额应用价值信息的技术。从计算机技术及其相应应用领域中逐步分离,形成一个专门研究开发的技术领域和服务业态,这就是大数据技术及其服务业态。 - 2015年我国在《促进大数据发展行动纲要》中提出大数据技术概念。 - 纲要指出大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。大数据应用能够揭示传统技术方式难以展现的关联关系。我国已经在大数据部分关键技术研发取得突破,但仍然需要加大大数据关键技术研发,加强专业人才培养,建立健全多层次、多类型的大数据人才培养体系 - 2016年教育部新增“数据科学与大数据技术”本科专业,将基于大数据技术的社会专业分工制度 #### 2. 数据技术概念的形成逻辑 - 数据技术概念是对应非数据技术专业领域人才的数据素质培养而提出的。 - 基于素质培养知识定位,依据三个逻辑层次形成数据技术概念。 一是,大数据技术概念内涵数据技术存在。 二是,自然科学研究与社会经济活动早已存在获取数据信息的数学与统计学理论方法、基本思想、概念及其操作规则,已成为数据认知处理的基础与表达范式。体现在计算机数据处理技术之中。大数据应用场景也需要利用统计方法补充其他数据。 三是,技术被认为是解决问题的手段、技巧和方法。对应操作。操作就是执行规则。狄德罗(1772)定义技术“为某一目的共同协作组成的各种工具和规则体系”。其中规则指有效衔接相关工具组合及其实际操作的规定性。 - 以数据素质培养的非技术专业性,需要学习的是基础概念与基本操作为出发点。基于计算机数据技术、数学与统计思想理论方法,以及数字经济与数字治理需要。 - “数据技术”可定义为,`以计算机技术,数学与统计学思想方法为基础,从数据中获取解决问题所需信息的各种工具和规则体系。` - 数据技术可分为三个技术功能模块。`解决数据从何而来的数据生成模块。解决数据统一规范与有效存储。检索的数据组织管理模块。解决利用模型算法得到所需信息的数据信息汲取模块。` - 数据技术概念提出目的是与计算机系统硬件和系统软件做出区分,强调其在计算机技术系统的分层设计中,作为与用户交瓦的表层定位。 - 数据技术一般可采用针对用户的应用软件表达。 - 应用软件表达的数据技术高度商业化,本教材给出相关概念的标准化表达。 ### 1.2.3 欧几里得数据推定原理 #### 1. 数据概念提出的历史大背景 - 人类先祖创造出数及计算的数字语言,以及在生活生产中利用其刻画、交流、记录存储事物数字信息方法。数据概念是公元前约600年开始的古希腊科学与数学创建活动中出现的。“科学”(science)一词来自希腊语e'Emotnuec”(episteme 知识)。科学哲学史认为,探寻世界万物纷繁变化背后的确定性是科学创建的动因。·古希腊大数学哲学家泰勒斯(Thales,约公元前640年~前约546年)提出“万物源于水”,创立了将事物多样性划归为单一性实体构成的思想传统,被称为科学的开端。其后德谟克利特(Democritus,约公元前460--公元前370)提出实体构成原子论模型。 - 泰勒斯基于古埃及尼罗河泛滥后耕地重新丈量划分创造出几何学。几何学原自希腊语yeouetpua(geometria)其中geo为大地,metria为测量之意。但几何学的点没有大小,线没有粗细,面没有厚薄,是一种脱离现实,由概念逻辑蕴含空间“本身”内在性关系的知识。标志`抽象理性思维的开始`。 #### 2. 相关历史大背景 - 古希腊大数学哲学家毕达哥拉斯(Pythagoras,公元前约580年~前490年)提出,同一物质构成的事物,因其“数”的构成比例不同而不同的“万物皆数”认知 。开辟了事物形式构成主义传统。 - 毕达哥拉斯创造数学概念。“数学(mathematics)”来自希腊语μa0nua(mathema)意为“能学习的(学问)”。以学习对象含义定义数学,创造出事物以数学语言描述,用数学方式度量的思想。 - 古希腊大哲学家苏格拉底(Socrates,公元前470年~前399年)以“一般本质”定义事物确定性,“本质”就是存在者存在的“根据”和变化“规律”。称科学为对事物“一般本质”“认识”的知识,规定了事物的科学认知目的。这样一来,知识成为“认识”的结果。知识与事物确定性认识等价。 #### 3. 相关大背景 - 古希腊大哲学家柏拉图(Plato公元前427年-347年)提出“事物本质”仅存在于超越现实,以数学规则构成的“理念(eidos)”世界。柏拉图通过造物主采用几何学方法创造宇宙的故事,为后世提供了自然界是数学构造的范本。对近代科学的出现产生巨大影响。17世纪伽利略、笛卡尔和牛顿等近代科学开拓者遵从帕拉图,将上帝定位于伟大数学家,按数学逻辑创造出世界万物。`推动科学数学化`。 - 古希腊大哲学家亚里十多德(Aristotle 公元前384-322)强调事物本质内在于事物之中而非之外。提出探究事物“自身”“本质”的自然哲学。古希腊“自然(physis)”概念是以“依靠自身力量涌现”意义表达对“存在”的领悟。完全不同于当今与“人文社会”领域区分的自然概念。自然哲学则指追问“什么是自然(本质)”的知识,就是科学。 #### 4. 欧几里得的《数据》 - 古希腊亚历山大时期的大数学家欧几里得(Euclid,公元前330年~前275年)完成《几何原本》后,又写出部用于辅导《几何原本》学习的著作《数据》。迄今发现的第一部出现“数据”概念的文献。 - 数据(data)一词来自古希腊语réxvn(art)技术,意指建筑装饰艺术品的制作技术。毕达哥拉斯将数学划分为算术、几何、天文学和声学4部分,柏拉图等称这4部分为数学“四艺” - 《`data`》给出一组依据已知变量按一定规则推定所需未知变量的案例。为其后数据延伸出一系列与未知推定关联的含义开了个头。 - 公元4世纪古希腊亚历山大时期大数学家帕普斯(Pappus)将《数据》收录于《数学汇编》,给出注释。指出《数据》作为《几何原本》的补充,是以几何逻辑形式给出的变量转换代数关系的论证。 - “变量”概念是古希腊大数学家欧多克索斯(Eudoxus 公元前408年~前355年)规避无理数创造的。变量不简单与整数对应,而是用于表示诸如线段、角、面积、体积、时间这样能够连续变动的事物。 #### 5. 数据推定原理 - 数据关系推定模型。帕普斯认为“当给定或求出某些变量后,定理就确定其他别的变量”的逻辑是《数 据》的核心。这是数据关系推定模型。结合当前认知解读,型至少包括4个要点。 ①数据对应以变量表示的事物,数据推定即为事物特征信息推定。事物认知可通过数据认知表达。 ②由已知数据方可推定未知数据。定义“已知”数据为数据认知的起点。预置(假设)构建的已知空间,。 ③数据推定依据定理工具,而定理则是已经得到证明的法则。表达现实认知是基于原有认知的。给出数据认知的时序逻辑。 ④数据推定以发现与验证变量(事物)关系(规律)为目的。规定数据认知目的。 - 按当今数据应用要求,数据推定模型已构成数据信息获取技术的内核,具备了数据认知工具的作用。 ### 1.2.4 近代数据概念的数量化表达 - 欧几里得的数据概念表达的是变量的数学逻辑信息,而非数量信息,属于理性知识。受古希腊理性科学的知行分离,及数学发展限制,其无法突破几何学,难以应用于其他场景没有得到广泛应用。 - 经过2000年漫长历史, 17世纪近代科学出现,在“征服自然,造福人类”(弗朗西斯·培根 1620)的科学实用化日标驱动下,自然现象的确定性数量表达也成为事物“一般本质”“认识”的知识。不仅事物发生因果本质逻辑关系的认识,而且事物确定性数量表达也进入科学知识范畴,数据概念进入角色转换时期。 - 事物的确定性数量规律是伽利略在1589-1591年通过细致观察,以`v = 32t`表达物体自由落体加速度数量开创的(1638 关于两门新科学的对话)。其利用数学公式表达一个关于物体如何降落的量的叙事,并以其作为公理,得到另外一些相关量的知识的推论。这是将研究定位于证明运动若干性质,而不管其原因。开创了与原因问题分开,仅仅发现现象物理性质的实证实验科学。 - 科学数学化。指基于事物变量数学关系认知,定义科学命题并表达相应结论。数据从辅助推证事物“本质”逻辑关系命题的依据,扩展为辅助推证事物数量命题的依据。 参阅M·Kline著,张理京、张锦炎、江泽涵译.2014.古今数学思想:第一册.上海科技出版社 参阅伽利略著,武际可译,2006.两门新科学对话,北京大学出版社(p153) *中世纪数据作为依据概念的讨论。 - 1662年格朗特(John Graunt 1620-1674)发现人口数量规律的《对死亡表的自然观察与政治观察》,1676配第(w.Petty,1623-1687)在《政治算术》中提出国家经济实力测度的理论,标志数据应用扩展到社会经济领域。康令(H.Conring,1606-1681)将国家问题研究称为“国势学”,1749年阿亨瓦尔改称其为“统计学(Statistics)”。可以说,这是通过提出社会数据测度方法,创建出“社会实验科学”,此为数据社会价值的历史源头 - 1802年拉普拉斯的人口抽样又将“从部分得到事物完整信息”专门化成科学认知命题 - 1897年数据开始表达“以备将来参考的数字事实” - 1946年出现Data-processing数据处理概念,用于执行计算机操作的可传输和可存储信息意义的表达 - 1954出现data-base 基干数据的---,database 数据库。 - 1962出现structure data结构化数据。 `datum n.数据,资料;[测]基点,基线,基面;论据,作为论据的事实:[数]已知数` `datums n.材料;论据;已知数` `datum line n. 基准线` ### 1.2.5 数据技术应用边界 - 数据认知的边界命题。随着科学与数学推进,相关数据技术也不断进步。当前,人们一般将对事物数量信息表达功能作为理解数据概念的基本点。但这一理解弱化了数据作为推证依据的本质。实际应用中,数量信息的形成,即对事物认识的逻辑能否作为科学合理依据,决定数据信息的使用价值。 - 欧几里得的《数据》将几何定理作为数据推定工具的规定,是一种把数据认知纳入数学体系的操作。其后随着数学发展与科学数学化,一系列数学原理与数学化的科学原理成为数据推定工县定理,大大丰富了数据技术的构成,推动其发展。 - 应该注意,无论对自然科学还是社会经济问题的数据认知来说,其依据的数据推定“定理”工具,存在定理是否反映事物本质的理论问题,以及基于主观偏好选择理论的影响。其决定问题数据认知的价值取向与有效性。 - 近期火爆 Chat GPT、AI、“虚拟现实”等概念,表达“数据构建事实”。提示数据存在如何应用的边界
张龙
2024年8月12日 15:47
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码