# deep-learning-for-image-processing

**Repository Path**: netweather/deep-learning-for-image-processing

## Basic Information

- **Project Name**: deep-learning-for-image-processing
- **Description**: deep learning for image processing including classification and object-detection etc.
- **Primary Language**: Unknown
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2024-11-03
- **Last Updated**: 2024-11-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 241026

* 编解码器

在原模型编码器

```python
def make_features(cfg: list):
    layers = []
    #编码器部分
    in_channels = 3   #因为输入的是RGB彩色图片
    for v in cfg:
        #如果是M就表示是最大池化层
        if v == "M":
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)] #VGG中所有的最大池化下采样的池化核大小和步距都是2
        else:
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1) #这几个参数的作用分别是输入通道数、输出通道数、卷积核大小、填充大小。
            layers += [conv2d, nn.ReLU(True)]
            in_channels = v        

    #此处加解码器===========================

    return nn.Sequential(*layers)

cfgs = {
    'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
```


基础上增加解码器：
```python
    for v in [512, 512, 512, 512, 512, 512, 256, 256, 256,128, 128 ,64, 64]:
    # for v in [512, 512, 512, 512, 512, 512, 256, 256]:
        layers += [
            nn.ConvTranspose2d(in_channels, v, kernel_size=3, stride=2, padding=1, output_padding=1),
            nn.ReLU(True)
        ]
        in_channels = v
```

训练时爆显存：
```
torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 12.25 GiB. GPU 0 has a total capacity of 15.56 GiB of which 10.15 GiB is free. Including non-PyTorch memory, this process has 5.40 GiB memory in use. Of the allocated memory 4.98 GiB is allocated by PyTorch, and 251.37 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
```
将batch_size从32递减至1、
使用多卡进行训练，
依旧无法解决。
```python
    # 使用 DataParallel 进行多 GPU 训练
    if torch.cuda.device_count() > 1:
        print("Let's use", torch.cuda.device_count(), "GPUs!")
    # 将模型包装在 DataParallel 中
        net = nn.DataParallel(net)
```
* 涉及文件：
>[model.py](./pytorch_classification/Test3_vggnet/model.py)  
>[train.py](./pytorch_classification/Test3_vggnet/train.py)


## 241025
* 自训练权重识别效果：

|分类|预测|
|--|--|
|对于图片[sunflower2.jpg](./pytorch_classification/Test3_vggnet/predict_demo/sunflower2.jpg)|预测结果：|
|分类: daisy        |概率: 0.00689|
|分类: dandelion    |概率: 0.277|
|分类: roses        |概率: 0.00516|
|分类: **sunflowers**   |概率: **0.698**   √|
|分类: tulips       |概率: 0.0127|
|对于图片[daisy2.jpg](./pytorch_classification/Test3_vggnet/predict_demo/daisy2.jpg)|预测结果：|
|分类: **daisy**        |概率: **0.999**       √|
|分类: dandelion    |概率: 0.000496|
|分类: roses        |概率: 2.19e-05|
|分类: sunflowers   |概率: 2.61e-05|
|分类: tulips       |概率: 4.24e-06|
|对于图片[dandelion1.jpg](./pytorch_classification/Test3_vggnet/predict_demo/dandelion1.jpg)|预测结果：|
|分类: daisy        |概率: 0.0192|
|分类: **dandelion**    |概率: **0.963**     √|
|分类: roses        |概率: 0.01|
|分类: sunflowers   |概率: 0.00309|
|分类: tulips       |概率: 0.00441|
|对于图片[tulips1.jpg](./pytorch_classification/Test3_vggnet/predict_demo/tulips1.jpg)|预测结果：|
|分类: daisy        |概率: 0.00132|
|分类: dandelion    |概率: 0.000501|
|分类: roses        |概率: 0.146|
|分类: sunflowers   |概率: 0.00369|
|分类: **tulips**       |概率: **0.848**     √|
|对于图片[rose3.jpg](./pytorch_classification/Test3_vggnet/predict_demo/rose3.jpg)|预测结果：|
|分类: daisy        |概率: 0.00105|
|分类: dandelion    |概率: 0.000177|
|分类: **roses**        |概率: **0.309**|
|分类: sunflowers   |概率: 0.00194|
|分类: tulips       |概率: 0.688   √|


## 241025
* 阅读理解train.py和model.py
* 尝试使用不同参数进行训练
* 默认train脚本只调用1张卡，尝试使用如下代码调用多张GPU：
  ```python
  # 使用 DataParallel 进行多 GPU 训练
  if torch.cuda.device_count() > 1:
      print("Let's use", torch.cuda.device_count(), "GPUs!")
      # 将模型包装在 DataParallel 中
      net = nn.DataParallel(net)  
  ```
  但训练速度没有提升，反倒有少许降低。

  遂增加 batch_size: 32 → 128   、 增加 lr: 0.0001 → 0.0004

  训练速度有所提升，但模型始终无法收敛。

  > batch_size 、 lr 、epoch 的最优化设置？
  
  > 如何高效利用多卡训练？

* 最后采用默认的batch_size=32  、 lr=0.0001  、 单卡训练


## 241025
* 于服务器部署VGG及其他相关项目
* 理解和调试predict.py

* ~~运行时报错待解决：~~
```sh
(VGG) (base) wbw@gpuadmin-2288H-V6:~/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet$ /home/wbw/anaconda3/envs/VGG/bin/python /home/wbw/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet/predict.py
Current working directory: /home/wbw/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet
/home/wbw/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet/predict.py:56: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
  model.load_state_dict(torch.load(weights_path, map_location=device),strict=False) #strict=False 表示在加载状态字典时不严格匹配键的名称。
Traceback (most recent call last):
  File "/home/wbw/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet/predict.py", line 80, in <module>
    main()
  File "/home/wbw/Arcadias_exercises/deep-learning-for-image-processing/pytorch_classification/Test3_vggnet/predict.py", line 56, in main
    model.load_state_dict(torch.load(weights_path, map_location=device),strict=False) #strict=False 表示在加载状态字典时不严格匹配键的名称。
  File "/home/wbw/anaconda3/envs/VGG/lib/python3.8/site-packages/torch/nn/modules/module.py", line 2215, in load_state_dict
    raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format(
RuntimeError: Error(s) in loading state_dict for VGG:
        size mismatch for classifier.6.weight: copying a param with shape torch.Size([1000, 4096]) from checkpoint, the shape in current model is torch.Size([5, 4096]).
        size mismatch for classifier.6.bias: copying a param with shape torch.Size([1000]) from checkpoint, the shape in current model is torch.Size([5]).
```
> ~~疑似是因为权重文件的版本和当前的pytorch版本不匹配导致？~~
> ~~模型的输出层的参数尺寸与加载的权重不匹配,模型当前期望的输出为` 5 `类，而加载的权重是为` 1000 `类（通常是用于 ImageNet 数据集的权重）。~~
> >使用自训练的权重文件，可正常预测


<!-- # 深度学习在图像处理中的应用教程

## 前言
* 本教程是对本人研究生期间的研究内容进行整理总结，总结的同时也希望能够帮助更多的小伙伴。后期如果有学习到新的知识也会与大家一起分享。
* 本教程会以视频的方式进行分享，教学流程如下：  
1）介绍网络的结构与创新点  
2）使用Pytorch进行网络的搭建与训练  
3）使用Tensorflow（内部的keras模块）进行网络的搭建与训练 
* 课程中所有PPT都放在`course_ppt`文件夹下，需要的自行下载。


## 教程目录，点击跳转相应视频（后期会根据学习内容增加）

* 图像分类
  * LeNet（已完成）
    * [Pytorch官方demo(Lenet)](https://www.bilibili.com/video/BV187411T7Ye)
    * [Tensorflow2官方demo](https://www.bilibili.com/video/BV1n7411T7o6)

  * AlexNet（已完成）
    * [AlexNet网络讲解](https://www.bilibili.com/video/BV1p7411T7Pc)
    * [Pytorch搭建AlexNet](https://www.bilibili.com/video/BV1W7411T7qc)
    * [Tensorflow2搭建Alexnet](https://www.bilibili.com/video/BV1s7411T7vs)

  * VggNet（已完成）
    * [VggNet网络讲解](https://www.bilibili.com/video/BV1q7411T7Y6)
    * [Pytorch搭建VGG网络](https://www.bilibili.com/video/BV1i7411T7ZN)
    * [Tensorflow2搭建VGG网络](https://www.bilibili.com/video/BV1q7411T76b)

  * GoogLeNet（已完成）
    * [GoogLeNet网络讲解](https://www.bilibili.com/video/BV1z7411T7ie)
    * [Pytorch搭建GoogLeNet网络](https://www.bilibili.com/video/BV1r7411T7M5)
    * [Tensorflow2搭建GoogLeNet网络](https://www.bilibili.com/video/BV1a7411T7Ht)

  * ResNet（已完成）
    * [ResNet网络讲解](https://www.bilibili.com/video/BV1T7411T7wa)
    * [Pytorch搭建ResNet网络](https://www.bilibili.com/video/BV14E411H7Uw)
    * [Tensorflow2搭建ResNet网络](https://www.bilibili.com/video/BV1WE41177Ya)

  * ResNeXt (已完成)
    * [ResNeXt网络讲解](https://www.bilibili.com/video/BV1Ap4y1p71v/)
    * [Pytorch搭建ResNeXt网络](https://www.bilibili.com/video/BV1rX4y1N7tE)

  * MobileNet_V1_V2（已完成）
    * [MobileNet_V1_V2网络讲解](https://www.bilibili.com/video/BV1yE411p7L7)
    * [Pytorch搭建MobileNetV2网络](https://www.bilibili.com/video/BV1qE411T7qZ)
    * [Tensorflow2搭建MobileNetV2网络](https://www.bilibili.com/video/BV1NE411K7tX)

  * MobileNet_V3（已完成）
    * [MobileNet_V3网络讲解](https://www.bilibili.com/video/BV1GK4y1p7uE)
    * [Pytorch搭建MobileNetV3网络](https://www.bilibili.com/video/BV1zT4y1P7pd)
    * [Tensorflow2搭建MobileNetV3网络](https://www.bilibili.com/video/BV1KA411g7wX)

  * ShuffleNet_V1_V2 (已完成)
    * [ShuffleNet_V1_V2网络讲解](https://www.bilibili.com/video/BV15y4y1Y7SY)
    * [使用Pytorch搭建ShuffleNetV2](https://www.bilibili.com/video/BV1dh411r76X)
    * [使用Tensorflow2搭建ShuffleNetV2](https://www.bilibili.com/video/BV1kr4y1N7bh)

  * EfficientNet_V1（已完成）
    * [EfficientNet网络讲解](https://www.bilibili.com/video/BV1XK4y1U7PX)
    * [使用Pytorch搭建EfficientNet](https://www.bilibili.com/video/BV19z4y1179h/)
    * [使用Tensorflow2搭建EfficientNet](https://www.bilibili.com/video/BV1PK4y1S7Jf)

  * EfficientNet_V2 (已完成)
    * [EfficientNetV2网络讲解](https://b23.tv/NDR7Ug)
    * [使用Pytorch搭建EfficientNetV2](https://b23.tv/M4hagB)
    * [使用Tensorflow搭建EfficientNetV2](https://b23.tv/KUPbdr)
  
  * RepVGG（已完成）
    * [RepVGG网络讲解](https://www.bilibili.com/video/BV15f4y1o7QR)

  * Vision Transformer(已完成)
    * [Multi-Head Attention讲解](https://b23.tv/gucpvt)
    * [Vision Transformer网络讲解](https://www.bilibili.com/video/BV1Jh411Y7WQ)
    * [使用Pytorch搭建Vision Transformer](https://b23.tv/TT4VBM)
    * [使用tensorflow2搭建Vision Transformer](https://www.bilibili.com/video/BV1q64y1X7GY)

  * Swin Transformer(已完成)
    * [Swin Transformer网络讲解](https://www.bilibili.com/video/BV1pL4y1v7jC)
    * [使用Pytorch搭建Swin Transformer](https://b23.tv/vZnpJf)
    * [使用Tensorflow2搭建Swin Transformer](https://b23.tv/UHLMSF)

  * ConvNeXt(已完成)
    * [ConvNeXt网络讲解](https://www.bilibili.com/video/BV1SS4y157fu)
    * [使用Pytorch搭建ConvNeXt](https://b23.tv/gzpCv5z)
    * [使用Tensorflow2搭建ConvNeXt](https://b23.tv/zikVoch)

  * MobileViT(已完成)
    * [MobileViT网络讲解](https://www.bilibili.com/video/BV1TG41137sb)
    * [使用Pytorch搭建MobileViT](https://www.bilibili.com/video/BV1ae411L7Ki)

* 目标检测
  * Faster-RCNN/FPN（已完成）
    * [Faster-RCNN网络讲解](https://www.bilibili.com/video/BV1af4y1m7iL)
    * [FPN网络讲解](https://b23.tv/Qhn6xA)
    * [Faster-RCNN源码解析(Pytorch)](https://www.bilibili.com/video/BV1of4y1m7nj)

  * SSD/RetinaNet (已完成)
    * [SSD网络讲解](https://www.bilibili.com/video/BV1fT4y1L7Gi)
    * [RetinaNet网络讲解](https://b23.tv/ZYCfd2)
    * [SSD源码解析(Pytorch)](https://www.bilibili.com/video/BV1vK411H771)

  * YOLO Series (已完成)
    * [YOLO系列网络讲解(V1~V3)](https://www.bilibili.com/video/BV1yi4y1g7ro)
    * [YOLOv3 SPP源码解析(Pytorch版)](https://www.bilibili.com/video/BV1t54y1C7ra)
    * [YOLOV4网络讲解](https://b23.tv/WLptQ7Q)
    * [YOLOV5网络讲解](https://www.bilibili.com/video/BV1T3411p7zR)
    * [YOLOX 网络讲解](https://www.bilibili.com/video/BV1JW4y1k76c)
  
  * FCOS（已完成）
    * [FCOS网络讲解](https://www.bilibili.com/video/BV1G5411X7jw)

* 语义分割 
  * FCN (已完成)
    * [FCN网络讲解](https://www.bilibili.com/video/BV1J3411C7zd)
    * [FCN源码解析(Pytorch版)](https://www.bilibili.com/video/BV19q4y1971Q)

  * DeepLabV3 (已完成)
    * [DeepLabV1网络讲解](https://www.bilibili.com/video/BV1SU4y1N7Ao)
    * [DeepLabV2网络讲解](https://www.bilibili.com/video/BV1gP4y1G7TC)
    * [DeepLabV3网络讲解](https://www.bilibili.com/video/BV1Jb4y1q7j7)
    * [DeepLabV3源码解析(Pytorch版)](https://www.bilibili.com/video/BV1TD4y1c7Wx)

  * LR-ASPP (已完成)
    * [LR-ASPP网络讲解](https://www.bilibili.com/video/BV1LS4y1M76E)
    * [LR-ASPP源码解析(Pytorch版)](https://www.bilibili.com/video/bv13D4y1F7ML)
  
  * U-Net (已完成)
    * [U-Net网络讲解](https://www.bilibili.com/video/BV1Vq4y127fB/)
    * [U-Net源码解析(Pytorch版)](https://b23.tv/PCJJmqN)
  
  * U2Net (已完成)
    * [U2Net网络讲解](https://www.bilibili.com/video/BV1yB4y1z7mj)
    * [U2Net源码解析(Pytorch版)](https://www.bilibili.com/video/BV1Kt4y137iS)

* 实例分割
  * Mask R-CNN（已完成）
    * [Mask R-CNN网络讲解](https://www.bilibili.com/video/BV1ZY411774T)
    * [Mask R-CNN源码解析(Pytorch版)](https://www.bilibili.com/video/BV1hY411E7wD)

* 关键点检测
  * DeepPose（已完成）
    * [DeepPose网络讲解](https://www.bilibili.com/video/BV1bm421g7aJ)
    * [DeepPose源码解析(Pytorch版)](https://www.bilibili.com/video/BV1bm421g7aJ)

  * HRNet（已完成）
    * [HRNet网络讲解](https://www.bilibili.com/video/BV1bB4y1y7qP)
    * [HRNet源码解析(Pytorch版)](https://www.bilibili.com/video/BV1ar4y157JM)

**[更多相关视频请进入我的bilibili频道查看](https://space.bilibili.com/18161609/channel/index)**

---

## 所需环境
* Anaconda3（建议使用）
* python3.6/3.7/3.8
* pycharm (IDE)
* pytorch 1.10 (pip package)
* torchvision 0.11.1 (pip package)
* tensorflow 2.4.1 (pip package)

欢迎大家关注下我的微信公众号（**阿喆学习小记**），平时会总结些相关学习博文。    

如果有什么问题，也可以到我的CSDN中一起讨论。
[https://blog.csdn.net/qq_37541097/article/details/103482003](https://blog.csdn.net/qq_37541097/article/details/103482003)

我的bilibili频道：
[https://space.bilibili.com/18161609/channel/index](https://space.bilibili.com/18161609/channel/index) -->