Обмен технологиями

Pytorch (примечания 8 нейронной сети nn)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

1、nn.Модуль

torch.nn — это модуль, специально разработанный для глубокого обучения. Базовой структурой данных torch.nn является модуль, который представляет собой абстрактное понятие, которое может представлять либо определенный уровень нейронной сети, либо нейронную сеть, содержащую множество слоев. На практике наиболее распространенным подходом является наследование nn.Module и написание собственной сети/слоя. Давайте сначала посмотрим, как использовать nn.Module для реализации собственного полносвязного слоя.Y=AX+B

import torch as t
import torch.nn as nn

class network(nn.Module):
    def __init__(self, input, output):
        super().__init__()
        # 定义权重矩阵a,它是一个可训练的参数,形状为(input, output)
        self.a = nn.Parameter(t.randn(input, output))
        # 定义偏置向量b,它也是一个可训练的参数,形状为(output,)
        # 注意:偏置向量的长度应与输出特征的维度相匹配
        self.b = nn.Parameter(t.randn(output))

    def forward(self, x):
        """
        定义前向传播过程

        参数:
            x (torch.Tensor): 输入数据,形状应为(batch_size, input)

        返回:
            torch.Tensor: 输出数据,形状为(batch_size, output)
        """
        # 首先,使用权重矩阵a对输入x进行线性变换
        # [email protected]执行矩阵乘法,x的每一行与a相乘,结果形状为(batch_size, output)
        x = x @ self.a
        # 然后,将偏置向量b扩展(通过broadcasting)到与x相同的形状,并加到x上
        # self.b.expand_as(x)将b的形状从(output,)扩展到(batch_size, output)
        # x + self.b.expand_as(x)将偏置加到每个样本的输出上
        x = x + self.b.expand_as(x)
        # 返回变换后的输出
        return x


a = network(4, 3)
# 创建输入数据,形状为(6, 4),表示有6个样本,每个样本有4个特征
input = t.rand(6, 4)
# 通过网络前向传播得到输出
output = a(input)
# 打印输出,形状应为(6, 3),表示有6个样本,每个样本的输出特征维度为3
print(output)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • Сеть пользовательского уровня должна наследовать nn.Module, а конструктор nn.Module необходимо вызывать в его конструкторе, то есть super().в этом() или nn.Модуль.в этом(самостоятельно), рекомендуется первое использование;
  • В конструкторе __init__ вы должны сами определить обучаемые параметры и инкапсулировать их в параметры. Например, в этом примере мы инкапсулируем w и b в параметры. Параметр — это специальный тензор, но по умолчанию он требует производных (requires_grad
    = Верно)
  • Функция прямого распространения реализует процесс прямого распространения, и ее входными данными может быть один или несколько тензоров;
  • Нет необходимости писать функцию обратного распространения ошибки. nn.Module может использовать autograd для автоматической реализации обратного распространения ошибки, что намного проще, чем функция;
  • Изучаемые параметры в модуле могут возвращать итератор через Name_parameters() или параметры(). Первый вариант прикрепляет имя к каждому параметру, чтобы сделать его более идентифицируемым.

2. Часто используемые слои нейронных сетей

2.1 Слой, связанный с изображением

Слои, связанные с изображением, в основном включают слои свертки (Conv), слои пула (Pool) и т. д. При фактическом использовании эти слои можно разделить на одномерные (1D), двумерные (2D) и трехмерные (3D). Метод объединения также делится на средний пул (AvgPool), максимальный пул (MaxPool), адаптивный пул (AdaptiveAvgPool) и т. д. В дополнение к обычно используемой прямой свертке, слой свертки также имеет обратную свертку (TransposeConv) и так далее. Пример будет приведен ниже.

  • Извлечение признаков
  • Поддерживать структуру пространства данных
  • Введение в нелинейное преобразование. После операции свертки обычно применяется функция активации (например, ReLU, Sigmoid или Tanh) для введения нелинейного преобразования. Эти функции активации могут увеличить выразительную силу CNN и позволить ей изучать более сложные нелинейные отношения.
  • Повышение эффективности вычислений Благодаря комбинированному использованию операций свертки и слоев объединения слой свертки может уменьшить пространственный размер карты объектов, тем самым уменьшая объем вычислений и повышая вычислительную эффективность модели. В то же время уровень объединения может также повысить трансляционную инвариантность объектов, делая модель более устойчивой к небольшим изменениям во входных данных.

слой свертки

В глубоком обучении наиболее важной сетевой структурой, связанной с обработкой изображений, является сверточный уровень (Conv). Суть сверточной нейронной сети заключается в суперпозиции сверточных слоев, слоев пула, слоев активации и других слоев. Поэтому чрезвычайно важно понимать принцип работы сверточного слоя. Ниже приведен пример конкретного процесса. операция свертки.
Вставьте сюда описание изображения

# 导入PyTorch库  
import torch  
import torch.nn as nn  
  
# 从torchvision.transforms导入ToTensor和ToPILImage,用于图像张量和PIL图像之间的转换  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL(Python Imaging Library,Pillow是其一个分支)导入Image模块,用于处理图像文件  
from PIL import Image  
  
# 使用PIL的Image.open函数打开指定路径的图片文件,并通过.convert("L")将其转换为灰度图像(单通道)  
img = Image.open("H:\PYTHON_Proj\handlearnpytorch\OIP-C.jpg").convert("L")  
  
# 实例化ToTensor转换对象,用于将PIL图像转换为PyTorch张量  
to_tensor = ToTensor()  
  
# 实例化ToPILImage转换对象,用于将PyTorch张量转换回PIL图像  
to_PIL = ToPILImage()  
  
# 使用to_tensor将PIL图像转换为PyTorch张量,并通过.unsqueeze(0)在批次大小维度上增加一个维度,使其形状变为(1, 1, H, W)  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个3x3的卷积核(滤波器),初始时所有元素都被设置为-1/9,然后将中心元素设置为1  
kernel = torch.ones(3, 3) / (-9.0)  
kernel[1][1] = 1  
  
# 创建一个Conv2d层,指定输入通道数为1(因为是灰度图像),输出通道数也为1,卷积核大小为3x3,步长为1,填充为1(保持输出尺寸与输入相同),且不使用偏置项  
conv = nn.Conv2d(1, 1, 3, 1, 1, bias=False)  
  
# 将之前定义的卷积核赋值给Conv2d层的权重,注意要调整形状以匹配Conv2d层的期望(out_channels, in_channels, kernel_size[0], kernel_size[1])  
conv.weight.data = kernel.reshape(1, 1, 3, 3)  
  
# 对图像应用卷积操作,此时img是一个四维张量,Conv2d层会处理它并返回一个新的四维张量  
img = conv(img)  
  
# 使用to_PIL将卷积后的PyTorch张量转换回PIL图像,并通过.squeeze(0)移除批次大小维度  
img = to_PIL(img.squeeze(0))  
  
# 使用PIL的.show()方法显示图像  
img.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40

Слой объединения

Слой объединения можно рассматривать как специальный слой свертки, который в основном используется для понижения разрешения. Добавление слоя объединения может уменьшить количество параметров, сохранив при этом основные функции, тем самым в определенной степени предотвращая переобучение. Слой объединения не имеет обучаемых параметров, и его вес фиксирован. В набор инструментов torch.nn включены различные уровни пула. К общим относятся максимальный пул (MaxPool) и средний пул (AvgPool). Уровень пула играет очень важную роль в сверточной нейронной сети (CNN). Основные области его применения можно резюмировать следующим образом:

  • Уменьшение размерности (уменьшение объема вычислений). Слой объединения уменьшает объем вычислений и количество параметров последующих слоев за счет уменьшения пространственного размера данных (т. е. высоты и ширины). Это очень полезно для предотвращения переоснащения и ускорения вычислений.
  • Инвариантность объектов. Слой объединения может позволить модели изучить более надежное представление объектов, то есть инвариантное к небольшим изменениям во входных данных (таким как сдвиг, вращение и т. д.). Это связано с тем, что операции объединения (такие как максимальное объединение, среднее объединение и т. д.) выбирают репрезентативные объекты в пределах области, а не полагаются на конкретную информацию о местоположении.
  • Извлечение основных функций: с помощью операции объединения можно извлечь наиболее важные функции изображения, игнорируя некоторые несущественные детали. Это полезно для последующих сверточных слоев для дальнейшего извлечения функций высокого уровня.
  • Расширение рецептивного поля: по мере увеличения количества сетевых слоев слой объединения может постепенно расширять входную область (т. е. рецептивное поле), соответствующую каждому нейрону в последующих слоях. Это помогает сети узнать больше информации о глобальных функциях.
  • Уменьшите переобучение: поскольку слой объединения уменьшает количество параметров за счет уменьшения пространственной размерности данных, это может в определенной степени снизить сложность модели, тем самым помогая предотвратить переобучение.

Общие операции объединения включают в себя:

  • Максимальное объединение: выберите максимальное значение в окне объединения в качестве выходного значения. Этот подход помогает сохранить информацию о краях и текстуре изображения.
  • Объединение средних значений: вычисление среднего значения всех значений в окне объединения в качестве выходных данных. Такой подход помогает сохранить фоновую информацию изображения.
  • Стохастическое объединение: на основе значения каждого элемента в окне объединения элементы выбираются в качестве выходных случайным образом в соответствии с вероятностью. Этот метод сочетает в себе преимущества максимального и среднего пулов, но имеет более высокую вычислительную сложность.

Короче говоря, уровень пула является неотъемлемой частью сверточной нейронной сети. Он обеспечивает способность к обучению и производительность всей сети за счет уменьшения пространственной размерности данных, извлечения основных функций, расширения рецептивного поля и предотвращения переобучения. поддерживать.

# 导入PyTorch库  
import torch  
  
# 导入PyTorch的神经网络模块,用于构建和训练神经网络  
import torch.nn as nn  
  
# 从torchvision.transforms模块导入ToTensor和ToPILImage,这两个转换工具用于图像数据的预处理和后处理  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL库导入Image模块,用于图像的打开、显示等操作  
from PIL import Image  
  
# 创建一个ToTensor的实例,用于将PIL图像或numpy.ndarray转换为FloatTensor,并归一化到[0.0, 1.0]  
to_tensor = ToTensor()  
  
# 创建一个ToPILImage的实例,用于将Tensor或ndarray转换为PIL图像  
to_pil = ToPILImage()  
  
# 使用PIL的Image.open方法打开指定路径的图像文件,并将其转换为灰度图像('L'模式)  
img = Image.open("H:\PYTHON_Proj\handlearnpytorch\OIP-C.jpg").convert('L')  
  
# 使用PIL的show方法显示图像  
img.show()  
  
# 使用ToTensor转换将PIL图像转换为Tensor,并增加一个维度使其成为[1, H, W]形状,即增加一个批次维度  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个平均池化层实例,使用2x2的窗口大小和步长为2进行池化  
pool = nn.AvgPool2d(2, 2)  
  
# 对图像Tensor应用平均池化层,然后移除批次维度(squeeze(0)),使其变回[H', W']形状  
img = pool(img).squeeze(0)  
  
# 将Tensor转换回PIL图像以便显示  
img = to_pil(img)  
  
# 再次使用PIL的show方法显示经过池化处理的图像  
img.show()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38

другие слои

Помимо сверточных слоев и слоев пула, в глубоком обучении также часто используются следующие слои:

  • Линейный: полностью связный слой;
  • BatchNorm: слой пакетной нормализации, разделенный на 1D, 2D и 3D. Помимо стандартного слоя BatchNorm, существует также слой InstanceNorm, который обычно используется при миграции стилей;
  • Dropout: Слой Dropout, используемый для предотвращения переобучения, также разделен на 1D, 2D и 3D.

3. Стратегия инициализации

Инициализация параметров очень важна при глубоком обучении. Хорошая инициализация может ускорить сходимость модели и достичь более высокого уровня, тогда как плохая инициализация может привести к быстрому разрушению модели. Параметры модуля nn.Module в PyTorch используют более разумную стратегию инициализации, поэтому нам обычно не нужно ее учитывать. Конечно, мы также можем использовать пользовательскую инициализацию, чтобы заменить инициализацию системы по умолчанию. Когда мы используем параметр, пользовательская инициализация особенно важна. Это связано с тем, что torch.Tensor() возвращает в память случайное число, которое, скорее всего, будет иметь максимальное значение, что приведет к переполнению или переполнению в реальной обучающей сети. Градиент исчезает. . Модуль nn.init в PyTorch — это модуль, специально разработанный для инициализации, который реализует часто используемые стратегии инициализации. Если определенная стратегия инициализации nn.init не предусмотрена, пользователи также могут инициализировать ее самостоятельно.

import torch  
from torch.nn import init  
from torch import nn  
  
# 创建一个线性层,其权重和偏置会被随机初始化(与torch.manual_seed无关,因为这是在调用torch.manual_seed之前发生的)  
linear = nn.Linear(3, 4)  
  
# 打印层创建时默认初始化的权重  
print("默认初始化的权重:")  
print(linear.weight)  
  
# 设置随机数生成的种子,以确保接下来的随机数生成是可重复的  
torch.manual_seed(2021)  
  
# 使用Xavier正态分布重新初始化权重  
# 这个初始化是受torch.manual_seed(2021)影响的  
init.xavier_normal_(linear.weight)  
  
# 打印重新初始化后的权重  
print("Xavier正态分布初始化后的权重:")  
print(linear.weight)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21