学习单元2　图像数据清洗

- #### 以下练习使用本平台在线工具进行学习。
## 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可

## 1.图像数据的常见特征
**像素**：颜色、亮度、位置
**色彩**：RGB色彩模型、灰度图像、HSV色彩模型
**分辨率**：图像分辨率、图像尺寸、图像格式
**文件格式**：JPEG格式、PNG格式、GIF格式
## 2.图像清洗的重要性
#### 提高图像质量：去除噪声、增强图片细节、提高图像识别率
#### 便于后续处理：数据质量、算法性能、应用效果
#### 保证数据准确性：去除噪声、处理缺失值、纠正异常值

## 3.图像清洗的具体内容
```mindmap
# 图像清洗
### 文件可读性检查
#### 检查文件格式
#### 检查文件完整性
#### 检查文件大小
### 图像变形失真校正
#### 几何校正
#### 色彩校正
#### 噪声消除
### 图像清晰度增强
#### 图像去噪
#### 图像锐化
#### 图像对比度增强
```
#### 下面是一个实例
> **去噪**
```
import cv2
import numpy as np

# 读取图像
image = cv2.imread('image.jpg')

# 应用高斯滤波去噪
denoised_image = cv2.GaussianBlur(image, (5, 5), 0)

# 显示去噪后的图像
cv2.imshow('Denoised Image', denoised_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

```
> **去除背景**
```
# 转为灰度图像
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 应用二值化处理
_, binary_image = cv2.threshold(gray_image, 127, 255, cv2.THRESH_BINARY)

# 显示二值化后的图像
cv2.imshow('Binary Image', binary_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

```
> **图像修复**
```
# 创建一个掩码，标记出需要修复的区域
mask = np.zeros(image.shape[:2], dtype=np.uint8)
mask[100:150, 100:150] = 255  # 假设修复区域在(100, 100)到(150, 150)

# 应用图像修复
restored_image = cv2.inpaint(image, mask, 3, cv2.INPAINT_TELEA)

# 显示修复后的图像
cv2.imshow('Restored Image', restored_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

```
> **尺寸标准化**
```
# 调整图像尺寸
resized_image = cv2.resize(image, (256, 256))

# 保存为统一格式
cv2.imwrite('resized_image.png', resized_image)

```
> **颜色矫正**
```
# 转为YUV颜色空间
yuv_image = cv2.cvtColor(image, cv2.COLOR_BGR2YUV)

# 对Y通道应用直方图均衡化
yuv_image[:, :, 0] = cv2.equalizeHist(yuv_image[:, :, 0])

# 转回BGR颜色空间
corrected_image = cv2.cvtColor(yuv_image, cv2.COLOR_YUV2BGR)

# 显示颜色校正后的图像
cv2.imshow('Corrected Image', corrected_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

```
> **数据增强**
```
from tensorflow.keras.preprocessing.image import ImageDataGenerator

datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# 加载图像并扩展维度
image = np.expand_dims(image, axis=0)

# 生成增强后的图像
for batch in datagen.flow(image, batch_size=1):
    augmented_image = batch[0].astype('uint8')
    cv2.imshow('Augmented Image', augmented_image)
    cv2.waitKey(0)
    break  # 只显示一个增强后的图像

```
## 4.图像高度相似与重复图片的处理
#### 4.1图像相似度检测
- 图像特征提取
- 图像特征提取
- 图像特征提取

#### 4.2重复图片识别与删除
 ```mindmap

# 图像相似度计算
## 重复图片删除
### 图像数据清洗
```
## 5.图像清洗的挑战与解决方案
#### 5.1复杂背景下的图像清洗:
- `光线变化`：在复杂光照条件下，图像清洗需要处理阴影、反光等问题，以保持图像的清晰度和对比度。
- `噪声干扰`:在复杂背景下，图像清洗需要去除噪声干扰，如模糊、颗粒等，以提高图像的质量和清晰度。
- `物体遮挡`:在复杂背景下，图像清洗需要处理物体遮挡问题，如树叶、建筑物等，以提取出有用的图像信息。
#### 5.2大规模图像数据的清洗
- `数据量大`在大规模图像数据清洗中,需要处理大量的图像数据,这对计算资源和处理速度提出了很高的要求。
- `数据质量差`在大规模图像数据清洗中,由于数据来源广泛,数据质量参差不齐,需要采取有效的清洗方法,提高数据质量。
- `数据多样性`在大规模图像数据清洗中,图像数据的多样性也是一个挑战。不同的图像数据可能具有不同的特征和属性,需要采取不同的清洗方法。
## 6.补充学习，请观看下列视频
![=video](https://obs-cq.cucloud.cn/zeno-videofile/files/20240402/fec7565a-0dc2-4c09-8799-7cbcbc002de6.mp4)

学习单元2 图像数据清洗

学习单元2　图像数据清洗