学习单元1　文本与图片数据采集（爬虫）

- #### 以下练习使用本平台在线工具进行学习。
## 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可

## 1. 数据采集方法
```mindmap
# 数据采集方法
### requests库
### 正则表达式
### 网络爬虫
### API调用
### 手动输入
```

## 2. requests库的使用
**2.1 requests库的安装**
安装requests库：在终端中输入
```python
pip install requests
```
验证安装：在Python脚本中导入requests库，如果没有出现错误，说明安装成功。
```python
# 导入requests库
import requests
```
使用requests库：使用requests.get()等方法进行网络请求。
```python
import requests
url = "https://movie.douban.com/chart"
requests.get(url)
```

**2.2 发送HTTP请求**
GET请求：可以向服务器发送GET请求，获取网页内容。示例代码见上
POST请求：可以向服务器发送POST请求，提交表单数据。
```python
import requests
url = "https://movie.douban.com/chart"
# 表单数据
data = {
    'username': 'your_username',
    'password': 'your_password'
}
response = requests.post(url, data=data)
```
HEAD请求：可以向服务器发送HEAD请求，获取网页头部信息。
```python
import requests
# 目标URL
url = 'https://movie.douban.com/chart'
# 发送HEAD请求
requests.head(url)
```
处理响应结果
使用json()方法将响应结果解析为JSON格式，以便于提取和处理数据。
```python
import requests
url = "https://movie.douban.com/chart"
data = {
    'username': 'your_username',
    'password': 'your_password'
}
response = requests.post(url, data=data)
result = response.json()
print(result)
```

## 3. 正则表达式的应用
- 正则表达式：是一种用于匹配和处理字符串的规则，广泛应用于文本数据采集、数据分析等领域。
- 正则表达式的语法包括字符类、量词、分组、边界等，通过这些语法可以构建出复杂的匹配规则。
- 在文本数据采集中，正则表达式可以用于提取特定格式的数据，如提取网页中的链接、提取文本中的电话号码等。
```mindmap
# 匹配模式
### 字符匹配：匹配特定的字符，如字母、数字、特殊字符等。
### 位置匹配：匹配字符在文本中的位置，如开头、结尾、单词边界等。
### 重复匹配：匹配字符的重复次数，如恰好出现一次、至少出现一次、出现多次等。
# 常用模式
### 查找匹配：快速查找和匹配文本中的特定模式，如电话号码、电子邮件地址等。
### 替换文本：替换文本中的特定模式，如将文本中的电话号码替换为星号等。
### 分割文本：将文本按照特定的模式进行分割，如将文本中的单词按照空格进行分割等。
```
```python
# 导入需要的包
import re
# 设置要匹配的内容
pattern = 'notebooks'
# 原字符串
string = 'http://localhost:8888/notebooks/%E'
# 使用正则表达式进行匹配
result = re.search(pattern, string)
# 打印匹配结果
print(result)
```

## 4. 数据采集注意事项
```mindmap
# 遵守法律法规
## 数据隐私保护
## 数据版权问题
## 数据安全
# 尊重网站权益
## 尊重网站规定
## 获取授权
## 保护用户隐私
# 数据采集效率与准确性
## 数据采集效率
## 数据准确性
## 数据完整性
```

## 5. 数据采集案例分析
```mindmap
# 爬取网页数据
## 数据采集工具：使用Python的BeautifulSoup库，可以方便地爬取网页上的数据。
## 数据清洗：爬取到的数据需要进行清洗，包括去除重复数据、填充缺失值等。
## 数据存储：将清洗后的数据存储到数据库或数据仓库中，以便于后续的分析和处理。
```

## 6. 数据采集的未来趋势
- 自动化与智能化：自动化工具智能化分析，人机协同
- 数据采集的未来趋势：大数据技术的应用
- 数据安全与隐私保护：数据加密，数据脱敏，数据隔离

## 7. 补充学习，请观看下列视频
![=video](https://obs-cq.cucloud.cn/zeno-videofile/files/20240402/349e2de3-69ad-43f2-a819-9f7bf14b790f.mp4)

学习单元1 文本与图片数据采集（爬虫）

学习单元1　文本与图片数据采集（爬虫）