人工智能训练师(五级)
模块0 人工智能训练师职业认知
学习单元1 人工智能概论
学习单元2 人工智能训练师岗位认知
模块1 数据采集和处理
课程1-1 业务数据采集
学习单元1 文本与图片数据采集(爬虫)
学习单元2 视频数据采集
学习单元3 语音数据采集
课程1-2 业务数据处理
学习单元1 文本数据清洗
学习单元2 图像数据清洗
模块2 原始数据标注
学习单元1 文本数据标注
学习单元2 图像数据标注
学习单元3 语音数据标注
模块3 Excel的运用技巧
模块4 智能系统运维
学习单元1 智能系统运维基础
学习单元2 常见智能系统介绍
学习单元3 系统功能日志维护
附加0 工作中常用的人工智能软件
-
+
首页
学习单元1 文本与图片数据采集(爬虫)
- #### 以下练习使用本平台在线工具进行学习。 ## 地址:首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】"),点击 _1717661367.png) 按钮,登录即可 ## 1. 数据采集方法 ```mindmap # 数据采集方法 ### requests库 ### 正则表达式 ### 网络爬虫 ### API调用 ### 手动输入 ``` ## 2. requests库的使用 **2.1 requests库的安装** 安装requests库:在终端中输入 ```python pip install requests ``` 验证安装:在Python脚本中导入requests库,如果没有出现错误,说明安装成功。 ```python # 导入requests库 import requests ``` 使用requests库:使用requests.get()等方法进行网络请求。 ```python import requests url = "https://movie.douban.com/chart" requests.get(url) ``` **2.2 发送HTTP请求** GET请求:可以向服务器发送GET请求,获取网页内容。示例代码见上 POST请求:可以向服务器发送POST请求,提交表单数据。 ```python import requests url = "https://movie.douban.com/chart" # 表单数据 data = { 'username': 'your_username', 'password': 'your_password' } response = requests.post(url, data=data) ``` HEAD请求:可以向服务器发送HEAD请求,获取网页头部信息。 ```python import requests # 目标URL url = 'https://movie.douban.com/chart' # 发送HEAD请求 requests.head(url) ``` 处理响应结果 使用json()方法将响应结果解析为JSON格式,以便于提取和处理数据。 ```python import requests url = "https://movie.douban.com/chart" data = { 'username': 'your_username', 'password': 'your_password' } response = requests.post(url, data=data) result = response.json() print(result) ``` ## 3. 正则表达式的应用 - 正则表达式:是一种用于匹配和处理字符串的规则,广泛应用于文本数据采集、数据分析等领域。 - 正则表达式的语法包括字符类、量词、分组、边界等,通过这些语法可以构建出复杂的匹配规则。 - 在文本数据采集中,正则表达式可以用于提取特定格式的数据,如提取网页中的链接、提取文本中的电话号码等。 ```mindmap # 匹配模式 ### 字符匹配:匹配特定的字符,如字母、数字、特殊字符等。 ### 位置匹配:匹配字符在文本中的位置,如开头、结尾、单词边界等。 ### 重复匹配:匹配字符的重复次数,如恰好出现一次、至少出现一次、出现多次等。 # 常用模式 ### 查找匹配:快速查找和匹配文本中的特定模式,如电话号码、电子邮件地址等。 ### 替换文本:替换文本中的特定模式,如将文本中的电话号码替换为星号等。 ### 分割文本:将文本按照特定的模式进行分割,如将文本中的单词按照空格进行分割等。 ``` ```python # 导入需要的包 import re # 设置要匹配的内容 pattern = 'notebooks' # 原字符串 string = 'http://localhost:8888/notebooks/%E' # 使用正则表达式进行匹配 result = re.search(pattern, string) # 打印匹配结果 print(result) ``` ## 4. 数据采集注意事项 ```mindmap # 遵守法律法规 ## 数据隐私保护 ## 数据版权问题 ## 数据安全 # 尊重网站权益 ## 尊重网站规定 ## 获取授权 ## 保护用户隐私 # 数据采集效率与准确性 ## 数据采集效率 ## 数据准确性 ## 数据完整性 ``` ## 5. 数据采集案例分析 ```mindmap # 爬取网页数据 ## 数据采集工具:使用Python的BeautifulSoup库,可以方便地爬取网页上的数据。 ## 数据清洗:爬取到的数据需要进行清洗,包括去除重复数据、填充缺失值等。 ## 数据存储:将清洗后的数据存储到数据库或数据仓库中,以便于后续的分析和处理。 ``` ## 6. 数据采集的未来趋势 - 自动化与智能化:自动化工具智能化分析,人机协同 - 数据采集的未来趋势:大数据技术的应用 - 数据安全与隐私保护:数据加密,数据脱敏,数据隔离 ## 7. 补充学习,请观看下列视频 
张龙
2024年7月24日 16:50
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码