Introducción al modelo pruning

Introducción a la poda de modelos.

2024-07-12

Árbitro:https://www.cnblogs.com/el-arte-de-la-inteligencia-inteligente/p/17500399.html

1. Introducción a los antecedentes

Los modelos de aprendizaje profundo han logrado resultados notables en el reconocimiento de imágenes, el procesamiento del lenguaje natural, el reconocimiento de voz y otros campos, pero estos modelos a menudo requieren una gran cantidad de recursos informáticos y espacio de almacenamiento. Especialmente en entornos con recursos limitados, como dispositivos móviles y sistemas integrados, el tamaño y la complejidad computacional de estos modelos a menudo se convierten en cuellos de botella que limitan su aplicación. Por lo tanto, cómo reducir el tamaño y la complejidad computacional del modelo tanto como sea posible mientras se mantiene la precisión del modelo se ha convertido en una dirección de investigación importante.

La tecnología de poda de modelos es un método eficaz para resolver este problema.Al optimizar la estructura y reducir los parámetros del modelo de aprendizaje profundo, el modelo tiene un tamaño más pequeño y una velocidad de ejecución más rápida mientras mantiene la precisión, adaptándose así mejor a diferentes tareas y entornos.。

2. Principios básicos

La tecnología de poda de modelos se refiere a una tecnología para la optimización estructural y la reducción de parámetros de modelos de aprendizaje profundo. .La tecnología de poda se puede dividir enPoda estructuralyPoda de parámetrosDos formas.

La poda estructural se refiere a la eliminación de algunosunidad estructural innecesaria , como neuronas, núcleos de convolución, capas, etc., para reducir la complejidad computacional y el espacio de almacenamiento del modelo. Los métodos de poda estructural comunes incluyen: poda de canales, poda de capas, poda de nodos, poda de filtros, etc.

La poda de parámetros se refiere a la extracción de datos de modelos de aprendizaje profundo.Eliminar algunos parámetros de peso innecesarios , para reducir el espacio de almacenamiento y la complejidad computacional del modelo mientras se mantiene la precisión del modelo. Los métodos comunes de poda de parámetros incluyen: regularización L1, regularización L2, poda de clasificación, poda hash sensible a la localidad, etc.

3. Principios técnicos

La idea central de la tecnología de poda de modelos es reducir el espacio de almacenamiento y la complejidad computacional del modelo tanto como sea posible mientras se mantiene la precisión del modelo.Dado que las unidades estructurales y los parámetros como neuronas, núcleos de convolución y parámetros de peso en los modelos de aprendizaje profundo a menudo tienen partes redundantes e innecesarias, se puede utilizar tecnología de poda para reducir estas partes redundantes, reduciendo así el volumen del modelo y el efecto de la complejidad computacional.

Específicamente, la implementación de la tecnología de poda de modelos se puede dividir en los siguientes pasos:

(1) Inicialice el modelo; primero, inicialice un modelo de aprendizaje profundo y entrénelo para obtener un modelo de referencia;

(2) Seleccionar métodos y estrategias de cuantificación de poda; seleccionar métodos y estrategias de poda apropiados en función de escenarios y necesidades de aplicación específicos. Los métodos simples comunes incluyen:Poda estructural y poda de parámetros.;Las estrategias comunes incluyen: poda global y poda iterativa;

(3) Modelo de poda; según el método y la estrategia de poda seleccionados, realice operaciones de poda en el modelo de aprendizaje profundo; específicamente, elimine algunas unidades estructurales y parámetros de peso innecesarios, o configúrelos en 0 o valores muy pequeños;

(4) Volver a entrenar el modelo; las operaciones de poda pueden hacer que la precisión del modelo disminuya, por lo que es necesario volver a entrenar el modelo podado para restaurar la precisión del modelo;

(5) Ajustar el modelo; después del reentrenamiento, ajustar el modelo para mejorar aún más la precisión del modelo;

Código:


import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
 
# 定义一个简单的卷积神经网络
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 4, kernel_size=3, padding=1)  # 4个输出通道
        self.conv2 = nn.Conv2d(4, 8, kernel_size=3, padding=1)  # 8个输出通道
        self.fc1 = nn.Linear(8 * 7 * 7, 64)
        self.fc2 = nn.Linear(64, 10)
 
    def forward(self, x):
        x = F.relu(self.conv1(x))  # 卷积层1 + ReLU激活函数
        x = F.max_pool2d(x, 2)  # 最大池化层，池化核大小为2x2
        x = F.relu(self.conv2(x))  # 卷积层2 + ReLU激活函数
        x = F.max_pool2d(x, 2)  # 最大池化层，池化核大小为2x2
        x = x.view(x.size(0), -1)  # 展平操作，将多维张量展平成一维
        x = F.relu(self.fc1(x))  # 全连接层1 + ReLU激活函数
        x = self.fc2(x)  # 全连接层2，输出10个类别
        return x
 
# 实例化模型
model = SimpleCNN()
 
# 打印剪枝前的模型结构
print("Model before pruning:")
print(model)
 
# 加载数据
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize((0.1307,), (0.3081,))  # 归一化
])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)  # 加载训练数据集
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)  # 创建数据加载器
 
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器
 
# 训练模型
model.train()  # 将模型设置为训练模式
for epoch in range(1):  # 训练一个epoch
    running_loss = 0.0
    for data, target in train_loader:
        optimizer.zero_grad()  # 清零梯度
        outputs = model(data)  # 前向传播
        loss = criterion(outputs, target)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        running_loss += loss.item() * data.size(0)  # 累加损失
 
    epoch_loss = running_loss / len(train_loader.dataset)  # 计算平均损失
    print(f'Epoch {epoch + 1}, Loss: {epoch_loss:.4f}')
 
# 通道剪枝
# 获取卷积层的权重
conv1_weights = model.conv1.weight.data.abs().sum(dim=[1, 2, 3])  # 计算每个通道的L1范数
 
# 按照L1范数对通道进行排序
sorted_channels = torch.argsort(conv1_weights)
 
# 选择需要删除的通道
num_prune = 2  # 假设我们要删除2个通道
channels_to_prune = sorted_channels[:num_prune]
 
print("Channels to prune:", channels_to_prune)
 
# 删除指定通道的权重和偏置
pruned_weights = torch.index_select(model.conv1.weight.data, 0, sorted_channels[num_prune:])  # 获取保留的权重
pruned_bias = torch.index_select(model.conv1.bias.data, 0, sorted_channels[num_prune:])  # 获取保留的偏置
 
# 创建一个新的卷积层，并将剪枝后的权重和偏置赋值给它
model.conv1 = nn.Conv2d(in_channels=1, out_channels=4 - num_prune, kernel_size=3, padding=1)
model.conv1.weight.data = pruned_weights
model.conv1.bias.data = pruned_bias
 
# 同时我们还需要调整conv2层的输入通道
# 获取conv2层的权重并调整其输入通道
conv2_weights = model.conv2.weight.data[:, sorted_channels[num_prune:], :, :]  # 调整输入通道的权重
 
# 创建一个新的卷积层，并将剪枝后的权重赋值给它
model.conv2 = nn.Conv2d(in_channels=4 - num_prune, out_channels=8, kernel_size=3, padding=1)
model.conv2.weight.data = conv2_weights
 
# 打印剪枝后的模型结构
print("Model after pruning:")
print(model)
 
# 定义新的优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)
 
# 重新训练模型
model.train()  # 将模型设置为训练模式
for epoch in range(1):  # 训练一个epoch
    running_loss = 0.0
    for data, target in train_loader:
        optimizer.zero_grad()  # 清零梯度
        outputs = model(data)  # 前向传播
        loss = criterion(outputs, target)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        running_loss += loss.item() * data.size(0)  # 累加损失
 
    epoch_loss = running_loss / len(train_loader.dataset)  # 计算平均损失
    print(f'Epoch {epoch + 1}, Loss: {epoch_loss:.4f}')
 
# 加载测试数据
test_dataset = datasets.MNIST('./data', train=False, transform=transform)  # 加载测试数据集
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1000, shuffle=False)  # 创建数据加载器
 
# 评估模型
model.eval()  # 将模型设置为评估模式
correct = 0
total = 0
with torch.no_grad():  # 关闭梯度计算
    for data, target in test_loader:
        outputs = model(data)  # 前向传播
        _, predicted = torch.max(outputs.data, 1)  # 获取预测结果
        total += target.size(0)  # 总样本数
        correct += (predicted == target).sum().item()  # 正确预测的样本数
 
print(f'Accuracy: {100 * correct / total}%')  # 打印准确率

Para mejorar el rendimiento y la eficiencia de la tecnología de poda, se pueden considerar los siguientes aspectos de optimización:

Elija estrategias de poda y algoritmos de poda adecuados para mejorar el efecto y la precisión de la poda.
Ajuste o aprenda incrementalmente el modelo podado para mejorar aún más la precisión y el rendimiento del modelo.
Utilice computación paralela y tecnología de computación distribuida para acelerar el proceso de poda y capacitación.

Compartir tecnología

Introducción a la poda de modelos.

Perfil personal

Mi información de contacto