数据技术应用概论
第一章 绪论
数据素质培养意义
数据技术
数据科学应用体系框架
第二章 计算机信息系统
计算机信息系统的构成
计算机信息系统技术路线
第三章 抽样技术
抽样技术概述
网络调查和社会调查
抽样学习
抽样技术的基本概念
第四章 网络爬虫与文本数据生成
网络爬虫概述
网络爬虫技术操作
文本数据生成
第五章 数据库技术
数据库技术概述
数据库系统开发
关系数据库
数据仓库
第六章 SQL语言
SQL概述
SQL关系定义
SQL查询基本结构
数据库修改
视图
第七章 数据预处理技术
数据预处理概述
数据清理
数据集成
数据规约
数据变换
第八章 回归模型
回归模型的基础知识
最小二乘法
其他常用回归模型
第九章 Logistic建模技术
基础知识
梯度上升算法
第十章 关联规则挖掘
关联规则挖掘的基础知识
关联规则挖掘的 Apriori 算法
其它常用关联规则挖掘算法
第十一章 决策树分类规则
决策树分类规则的基础知识
决策树分类规则挖掘的ID3算法
几种常用的决策树
第十二章 K-平均聚类
基础知识
基于划分的K‐平均聚类算法
其他常用的聚类
第十三章 神经网络模型
神经网络模型的基础知识
误差逆传播算法
其他常用的神经网络算法
第十四章 支持向量机
支持向量机的基础知识
支持向量机的SMO算法
其他常用的支持向量机算法
第十五章 集成学习算法
集成学习算法的基础知识
随机森林算法
其他常用的集成学习算法
第十六章 数据可视化
数据可视化的基础知识
可视化设计基础
数据可视化工具
-
+
首页
抽样学习
- `近年来,抽样技术的应用不再局限于数据采集,已经扩展到数据挖掘和机器学习的算法和过程,成为其必不可少的环节和关键技术。这些技术的应用超越传统抽样调查的范畴,我们这里称之为抽样学习。接下来将介绍抽样学习的数据抽取和特征抽取的主要方法。` ## 3.3.1 训练集和测试集的构造 - 目前,很多机器学习算法的不同参数配置会产生不同的模型。通常,采用实验测试对机器学习的泛化误差进行评估和模型选择。实验测试需要使用"测试集" 来测试学习算法对样本的判别能力,用测试集的“测试误差”作为泛化误差的替代。测试集是从样本集合中抽样得到的。假设样本集是包含N个样本点的数据集 ```latex D\;=\;\{(x_1,\;y_1),\;(x_2,\;y_2),\;...,\;(x_N,\;y_N)\} ``` 将D划分为训练集S和测试集T。构造训练集和测试集的常用方法有留出法、交叉验证法和自助法。 - 在实际应用中,很多原始数据是类别不平衡的。类别不平衡是指分类任务中不同类别的训练样例数量差别很大。例如,信用不良的用户远少于信用良好的用户,诈骗网站远少于正常网站,癌症患者远远少于非癌症患者等。容量少类别的样例具有较大的研究价值。针对类别不平衡数据的选择方法主要是抽样方法。用抽样方法解决样本类别不平衡问题主要有两种方法:`欠采样法`和`过采样法`。 >- 欠采样法是对数据集中容量大的类别进行“欠采样”,使得类别样本容量接近。欠采样法不能随机丢弃样例,易丢失重要的信息。其代表性算法是简易集成算法。 >- 过采样法是对训练集中容量小的类别进行“过采样”,使得类别样本容量接近。过采样法不能简单地重复采样,否则会导致严重的过拟合。其代表性算法是合成少数类过采样算法。 ## 3.3.2 集成学习算法的抽样方法 >• Bagging是并行式集成学习方法,其基本思想是基于`自助抽样法`,等概率有放回地抽取T个容量为m的训练集,利用每个训练集训练一个基学习器,并组合所有基学习器,得到最终的预测模型。 >• 随机森林是Bagging的扩展。随机森林`以决策树为基学习器,构建Bagging集成学习方法。`决策树的训练过程引入了随机属性选择。随机森林算法通过抽样方法在构建决策树过程中引入样本扰动和属性扰动,增加个体学习器之间的差异度,实现基学习器的多样性,提升模型泛化性能。 >• Boosting是一种可将`弱学习器提升为强学习器的算法`,其基本思想为:从初始训练集训练出一个基学习器,根据基学习器的性能对训练集进行调整,使得上一步基学习器分类错误的训练样本受到更多关注,再训练下一个基学习器;如此重复进行,直至基学习器达到事先设定的数量T,将T个基学习器进行加权结合得到最终模型。 >• AdaBoost算法`在第一步建立决策树,用Bootstrap方法抽样得到训练集`。接下来的每棵决策树的训练集都是采用自适应抽样方法,抽样概率根据前一棵决策树的错分率重新调整,并以调整后的样本概率分布进行有放回抽样,得到新训练集用于构建新决策树。
张龙
2024年7月17日 15:09
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码