人工智能训练师(四级)
模块0 人工智能训练师职业认知
学习单元1 人工智能概论
学习单元2 人工智能训练师岗位认知
模块1 数据采集和处理
课程1-1 业务数据采集
学习单元1 文本与图片数据采集(爬虫)
学习单元2 视频数据采集
学习单元3 语音数据采集
课程1-2 业务数据处理
学习单元1 文本数据清洗
学习单元2 图像数据清洗
模块2 原始数据标注
学习单元1 文本数据标注
学习单元2 图像数据标注
学习单元3 语音数据标注
模块3 使用Excel进行分类统计
模块4 数据归类和定义
学习单元1 聚类分析
学习单元2 回归分析
学习单元3 关联分析
模块5 标注数据审核
学习单元1 标注数据质量检验基础知识
学习单元2 图像和视频标注数据质量检验
学习单元3 语音标注数据质量检验
学习单元4 文本标注数据质量检验
模块6 智能系统运维
学习单元1 智能系统运维基础
学习单元2 系统功能日志维护
学习单元3 常见智能系统介绍
学习单元4 使用Docker进行系统安装部署
附加0 工作中常用的人工智能软件
-
+
首页
学习单元1 文本与图片数据采集(爬虫)
- #### 以下练习使用本平台在线工具进行学习。 ## 地址:首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】"),点击 _1717661367.png) 按钮,登录即可 ## 1. 数据采集方法 ```mindmap # 数据采集方法 ### requests库 ### 正则表达式 ### 网络爬虫 ### API调用 ### 手动输入 ``` ## 2. requests库的使用 **2.1 requests库的安装** 安装requests库:在终端中输入 ```python pip install requests ``` 验证安装:在Python脚本中导入requests库,如果没有出现错误,说明安装成功。 ```python # 导入requests库 import requests ``` 使用requests库:使用requests.get()等方法进行网络请求。 ```python import requests url = "https://movie.douban.com/chart" requests.get(url) ``` **2.2 发送HTTP请求** GET请求:可以向服务器发送GET请求,获取网页内容。示例代码见上 POST请求:可以向服务器发送POST请求,提交表单数据。 ```python import requests url = "https://movie.douban.com/chart" # 表单数据 data = { 'username': 'your_username', 'password': 'your_password' } response = requests.post(url, data=data) ``` HEAD请求:可以向服务器发送HEAD请求,获取网页头部信息。 ```python import requests # 目标URL url = 'https://movie.douban.com/chart' # 发送HEAD请求 requests.head(url) ``` 处理响应结果 使用json()方法将响应结果解析为JSON格式,以便于提取和处理数据。 ```python import requests url = "https://movie.douban.com/chart" data = { 'username': 'your_username', 'password': 'your_password' } response = requests.post(url, data=data) result = response.json() print(result) ``` ## 3. 正则表达式的应用 - 正则表达式:是一种用于匹配和处理字符串的规则,广泛应用于文本数据采集、数据分析等领域。 - 正则表达式的语法包括字符类、量词、分组、边界等,通过这些语法可以构建出复杂的匹配规则。 - 在文本数据采集中,正则表达式可以用于提取特定格式的数据,如提取网页中的链接、提取文本中的电话号码等。 ```mindmap # 匹配模式 ### 字符匹配:匹配特定的字符,如字母、数字、特殊字符等。 ### 位置匹配:匹配字符在文本中的位置,如开头、结尾、单词边界等。 ### 重复匹配:匹配字符的重复次数,如恰好出现一次、至少出现一次、出现多次等。 # 常用模式 ### 查找匹配:快速查找和匹配文本中的特定模式,如电话号码、电子邮件地址等。 ### 替换文本:替换文本中的特定模式,如将文本中的电话号码替换为星号等。 ### 分割文本:将文本按照特定的模式进行分割,如将文本中的单词按照空格进行分割等。 ``` ```python # 导入需要的包 import re # 设置要匹配的内容 pattern = 'notebooks' # 原字符串 string = 'http://localhost:8888/notebooks/%E' # 使用正则表达式进行匹配 result = re.search(pattern, string) # 打印匹配结果 print(result) ``` ## 4. 数据采集注意事项 ```mindmap # 遵守法律法规 ## 数据隐私保护 ## 数据版权问题 ## 数据安全 # 尊重网站权益 ## 尊重网站规定 ## 获取授权 ## 保护用户隐私 # 数据采集效率与准确性 ## 数据采集效率 ## 数据准确性 ## 数据完整性 ``` ## 5. 数据采集案例分析 ```mindmap # 爬取网页数据 ## 数据采集工具:使用Python的BeautifulSoup库,可以方便地爬取网页上的数据。 ## 数据清洗:爬取到的数据需要进行清洗,包括去除重复数据、填充缺失值等。 ## 数据存储:将清洗后的数据存储到数据库或数据仓库中,以便于后续的分析和处理。 ``` ## 6. 数据采集的未来趋势 - 自动化与智能化:自动化工具智能化分析,人机协同 - 数据采集的未来趋势:大数据技术的应用 - 数据安全与隐私保护:数据加密,数据脱敏,数据隔离 ## 7. 补充学习,请观看下列视频 
张龙
2024年7月22日 14:11
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码