数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
抽样技术概述
## 3.1.1 样本推断总体命题 - 人类对世界的认识是从自然与社会事物的一部分开始的。在漫长的历史过程中,事物的部分构成及事物构成部分对事物的决定,是部分与整体关系认识的关注点。`而长期中,如何从事物的一部分得到其完整信息似乎并没有明确成为专门化问题`。 `17世纪,人类进入近代科学时代`。理论上,`伽利略`的科学实验研究方法已内含从事物一部分得到其完整信息的思想,而将其专门化提出则又经历了这样一个过程。科学数学化在欧洲掀起了人们对自然与社会的数量认知热潮。 - `牛顿`刻画世界物质运动的著作《自然哲学数学原理》极大推动了自然科学进程。 `威廉·配第与约翰·格朗特`提出的通过数量测度认识国家经济实力的“政治算数”与人口实力“政治观察”概念,以及其理论方法则在社会经济中产生重要影响。 `阿亨瓦尔`将具有国家情况意义的意大利文Stato引入,称国家显著事项的学问为`Statistics,即统计学`。 于是,基于国情数据实现国家间竞争目标的现实,导致存在几千年的国情记录通过统计学概念变成一门满足政府数据需求的学问,创建出通过调查补充政府行政记录数据的方法。 - 1802年,`法国数学界拉普拉斯`接受法国人口普查任务。受到时间与工作量限制,采用对一部分人调查来推断法国人口总体情况的办法,`提出并开启抽样调查的探索`。同时也将“如何从事物的一部分得到其完整信息”专门化成一个认知命题。这是标志人类认知能力又一次飞跃的创新。样本推断总体的理论技术的构建也成为驱动统计学发展的重要动力。 经过200多年的探索,这一逻辑在各领域认知中显示出巨大作用,成为当代认识自然与社会经济事物的通用概念。其现实意义还在于,即使大数据提供了认识事物比较充分的近似总体信息,但从事物长期发展变化的视角,其仍然难以摆脱一个时点,即以时间界定的样本属性。深刻哲学思想贯通其中。 ## 3.1.2 样本总体概念与概率统计表达工具 - ### 总体 `一般将需要认识的目标世界定义为事物总体,简称总体。`具体说,总体是由个体组成的,需要去认识了解的目标事物。其中,认识事物就是指认识事物内在的本质规定性,而“本质”就是事物存在与变化的“根据”。对不同事物本质的区分及关联性探索,则是认识事物的基本方式。理论上,需要认识的事物可通过定义数字或符号标识区分。 例如,当需要了解某学校在读学生基本情况时,该校全部在读学生为总体,其中每位在读学生是个体。但当需要了解某学校在读学生基本情况时,该校在读学生的成绩是总体,而每位在读学生的成绩是个体。 - ### 样本 `将事物总体中的一部分个体组成称为样本。` 样本由事物总体一部分个体定义,意味着样本推断总体逻辑存在两个阶段:首先,如何基于对事物总体认知需求,从总体中获取样本;其次,再由样本信息推断出总体信息。 目前存在多种工具用于表达基于部分(样本)数据的总体推断逻辑。其中统计是从总体中抽取样本操作的经典工具。而统计又是基于数学概率论建立的,相关概念及关联逻辑的思路要义为: >① 统计学将研究定位在事物的随机性变化规律。现实中,事物变化存在`确定性、随机性,以及不确定性`。 ②以`变量表示事物`。称事物(变量)变化并出现某结果为发生一个事件。排除认知干扰,定义事件发生是随机的,称为随机事件。事物发生等价于随机事件。若从随机事件发生视角反推,则可将事物(变量)称为随机变量。 ③`判断事件随机发生的可能性是认识事物(随机变量)的基本信息要求`。其中,可能性称为概率,其一般是以随机变量出现一次结果,与出现所有可能结果的比例定义的。也就是说,随机变量概率分布是对事物基本特征的刻画,随机变量概率分布变化反映的是事物变化的规律。 ④`事物变化总是受到一些因素影响而发生的`。统计学引进表示变量一般逻辑关系的数学函数,借助不同数学函数形式,表示随机变量如何被影响因素决定,以及不同随机变量之间的交互关系信息。 ## 3.1.3 抽样调查发展简要回顾 - 抽样调查基于三个优势得到广泛应用。 >其一,当不能对目标总体普查或全面观测,又需要知道总体数量特征时,`具有调查可操作优势。` 其二,抽样方法只对目标总体一部分单元调查,`具有调查员培训、调查工具使用等方面更严格、更科学,抽样调查数据质量较高等优势。` 其三,相比全面调查,抽样调查方法`具有人力财物低成本、调查周期短、数据分析时效性好的优势。` - 第一阶段:`抽样调查应用探索与方法提出。`这一阶段探索的核心集中在样本代表性问题上。其本质是抽样调查是否可行。 >(1)1895年丹麦人凯尔(A.N.Kaier)在`第五次国际统计学会`上提出了“代表性调查”的概念,他认为调查结果的准确性并不取决于样本量的多少,而在与获取样本的正确代表性的方法。 (2)1894~1914年,凯尔开展了`对退休年金和疾病保险政策制定`,以及全国家庭和婚姻情况等项目的调查。当时对"代表性调查"存在支持与否定两派意见。否定派意在否定抽样调查。 (3)1903年`第九次国际统计学会议上`,研究代表性方法的小组委员会一致认为,建议采用代表性调查方法,但在公布结果时,要将选择观察的单位的条件加以详细说明。经过100多年的探索,抽样调查思想与方法得到统计学及社会各界的认可。 - 第二阶段:抽样调查基本理论形成。`当抽样方法的思想被接受后,问题的焦点转向使用随机抽选还是有目的抽选方法获取样本。` >(1)`1906年,英国统计学家鲍莱提出了使用随机样本的观点,`并指出概率抽样在统计调查中的必要性。而他1926年的另一篇文章《抽样精确度的测定》还提出了分层抽样中按比例分配的思想,奠定了抽样调查的理论基础。 (2)`1934年,奈曼(Neyman)提出了分层抽样中的最优分配、比估计和回归估计等方法。`奈曼工作的重要意义在于,一是从理论上说明了随机抽样的科学性和合理性,二是提出了不等概率抽样的有效性,突破了每个样本必须是等概率抽取的传统观点。 (3)`1919~1933年著名统计学家费舍尔在试验设计中提出的随机化、可重复和分区组三原则也对抽样理论的发展提供了理论基础`。 (4)`20世纪30年代,马哈拉诺比斯认识到在统计调查中同时考虑抽样误差和非抽样误差的必要性。`1944年,其提出费用函数、方差函数概念,为抽样调查实践和理论做出了重要贡献。 (5)`20世纪40年代前后`,美国抽样调查的实践也大大推动了抽样理论的发展与完善,概率抽样也成为美国政府调查的主要方法,如汉森和霍维茨对美国失业状况的劳动力调查。 - 第三阶段:抽样技术广泛应用,复杂抽样技术不断发展。 >从20世纪60年代开始至今,抽样调查的研究重心在模型化推断、模型辅助推断、小域估计以及对非抽样误差的分析与处理等复杂抽样问题。`适应性的、序贯性的抽样方法,基于事件的抽样方法以及非概率抽样方法成为新研究热点。` ## 3.1.4 应用抽样技术的基本步骤 - `从总体中抽取样本的过程称为抽样。` 根据从总体中抽取样本的方法,抽样可分为概率抽样和非概率抽样。概率抽样也称为随机抽样,依据随机原则严格按照事前给定的概率抽取样本。对于概率抽样,其能够得到总体未知参数的估计和抽样误差。非概率抽样方法很多,它们的共同特点是抽取样本时不是按照随机 化原则进行的。非概率抽样方法的优点是快速、便利,缺点是对总体参数进行估计和推断时很难描述其误差。 >(1)`明确调查目标。`问卷的设计、抽样技术方法的选择和调查的实施等工作都要`围绕调查目标开展和组织。` (2)`确定进行抽样的总体。`明确调查目标后,需要`确定研究对象的目标总体`,这是指所有调查对象的集合。但实际调查中往往不能覆盖全部目标总体。抽取的样本所覆盖的总体称为抽样总体。 (3)`编制抽样框`。将有限总体划分为互不重叠且可穷尽的有限个个体,`每个个体称为抽样单元。`抽样框就是一份包含所有抽样单元的名单。一个好的抽样框应尽可能覆盖目标总体,抽样单元不遗漏、不重复,尽可能多地包含抽样单元的有用的辅助信息。 (4)`计量方法的选择`。对于待研究的目标总体,可以选择不同的测量工具或调查方式。目前常用的调查方式`包括邮寄问卷、电话调查、面访、网络调查等。` (5)`确定样本量。`样本量的确定需要`综合考虑决策者对调查精度的要求以及可提供的调查成本。` (6)`抽选样本`。抽选样本工作首先需要结合实际情况,选择`最适合的抽样技术方法`,如简单随机抽样、分层随机抽样、两级抽样等。 (7)`组织与实施调查。`进行大范围实践调查时会遇到各种问题,往往要求调查员和督导员必须在调查前接受严格的调查培训,这有助于她们更好地`了解调查目标,正确使用调查工具。` (8)`调查数据的综合分析`。对收集的调查数据进行`汇总、编辑,进而构造估计量,估计总体特征,并给出重要估计量的抽样误差估计。`
张龙
2024年7月15日 13:33
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码