Εισαγωγή στο μοντέλο pruning

Εισαγωγή στο κλάδεμα μοντέλων

2024-07-12

Αναφ:https://www.cnblogs.com/the-art-of-ai/p/17500399.html

1. Ιστορική εισαγωγή

Τα μοντέλα βαθιάς μάθησης έχουν επιτύχει αξιοσημείωτα αποτελέσματα στην αναγνώριση εικόνας, την επεξεργασία φυσικής γλώσσας, την αναγνώριση ομιλίας και άλλα πεδία, αλλά αυτά τα μοντέλα συχνά απαιτούν μεγάλο όγκο υπολογιστικών πόρων και αποθηκευτικού χώρου. Ειδικά σε περιβάλλοντα με περιορισμούς πόρων, όπως κινητές συσκευές και ενσωματωμένα συστήματα, το μέγεθος και η υπολογιστική πολυπλοκότητα αυτών των μοντέλων συχνά γίνονται σημεία συμφόρησης που περιορίζουν την εφαρμογή τους. Ως εκ τούτου, το πώς να μειωθεί το μέγεθος και η υπολογιστική πολυπλοκότητα του μοντέλου όσο το δυνατόν περισσότερο, διατηρώντας παράλληλα την ακρίβεια του μοντέλου, έχει γίνει μια σημαντική ερευνητική κατεύθυνση.

Η τεχνολογία κλαδέματος μοντέλου είναι μια αποτελεσματική μέθοδος για την επίλυση αυτού του προβλήματος.Με τη βελτιστοποίηση της δομής και τη μείωση των παραμέτρων του μοντέλου βαθιάς εκμάθησης, το μοντέλο έχει μικρότερο μέγεθος και μεγαλύτερη ταχύτητα λειτουργίας, διατηρώντας παράλληλα την ακρίβεια, επομένως προσαρμόζεται καλύτερα σε διαφορετικές εργασίες και περιβάλλοντα.。

2. Βασικές αρχές

Η τεχνολογία κλαδέματος μοντέλων αναφέρεται σε μια τεχνολογία δομικής βελτιστοποίησης και μείωσης παραμέτρων των μοντέλων βαθιάς μάθησης. .Η τεχνολογία κλαδέματος μπορεί να χωριστεί σεδομικό κλάδεμακαιΚλάδεμα παραμέτρωνΔύο μορφές.

Το δομικό κλάδεμα αναφέρεται στην αφαίρεση ορισμένωνπεριττή δομική μονάδα , όπως νευρώνες, πυρήνες συνέλιξης, επίπεδα κ.λπ., για μείωση της υπολογιστικής πολυπλοκότητας και του αποθηκευτικού χώρου του μοντέλου. Οι συνήθεις μέθοδοι δομικού κλαδέματος περιλαμβάνουν: κλάδεμα καναλιών, κλάδεμα στρώματος, κλάδεμα κόμβων, κλάδεμα φίλτρου κ.λπ.

Το κλάδεμα παραμέτρων αναφέρεται στην εξαγωγή δεδομένων από μοντέλα βαθιάς μάθησηςΑφαιρέστε ορισμένες περιττές παραμέτρους βάρους , για να μειώσει τον αποθηκευτικό χώρο και την υπολογιστική πολυπλοκότητα του μοντέλου διατηρώντας παράλληλα την ακρίβεια του μοντέλου. Οι συνήθεις μέθοδοι κλαδέματος παραμέτρων περιλαμβάνουν: τακτοποίηση L1, κανονικοποίηση L2, κλάδεμα ταξινόμησης, κλάδεμα κατακερματισμού ευαίσθητο στην τοποθεσία κ.λπ.

3. Τεχνικές αρχές

Η βασική ιδέα της τεχνολογίας κλαδέματος μοντέλων είναι να μειωθεί όσο το δυνατόν περισσότερο ο χώρος αποθήκευσης και η υπολογιστική πολυπλοκότητα του μοντέλου, διατηρώντας παράλληλα την ακρίβεια του μοντέλου.Δεδομένου ότι οι δομικές μονάδες και οι παράμετροι όπως οι νευρώνες, οι πυρήνες συνέλιξης και οι παράμετροι βάρους στα μοντέλα βαθιάς μάθησης έχουν συχνά περιττά και περιττά μέρη, η τεχνολογία κλαδέματος μπορεί να χρησιμοποιηθεί για τη μείωση αυτών των περιττών τμημάτων, μειώνοντας έτσι τον όγκο του μοντέλου και την επίδραση της υπολογιστικής πολυπλοκότητας.

Συγκεκριμένα, η εφαρμογή της τεχνολογίας κλαδέματος μοντέλου μπορεί να χωριστεί στα ακόλουθα βήματα:

(1) Αρχικοποιήστε το μοντέλο πρώτα, αρχικοποιήστε ένα μοντέλο βαθιάς μάθησης και εκπαιδεύστε το ώστε να αποκτήσει ένα βασικό μοντέλο.

(2) Επιλέξτε μεθόδους και στρατηγικές ποσοτικού κλαδέματος, επιλέξτε κατάλληλες μεθόδους κλαδέματος και στρατηγικές που βασίζονται σε συγκεκριμένα σενάρια και ανάγκες.Δομικό κλάδεμα και παραμετρικό κλάδεμα;Οι κοινές στρατηγικές περιλαμβάνουν: ολικό κλάδεμα και επαναληπτικό κλάδεμα.

(3) Μοντέλο κλαδέματος με βάση την επιλεγμένη μέθοδο κλαδέματος και συγκεκριμένα, διαγράψτε ορισμένες περιττές δομικές μονάδες και παραμέτρους βάρους ή ρυθμίστε τις σε 0 ή πολύ μικρές τιμές.

(4) Επανεκπαίδευση του μοντέλου μπορεί να προκαλέσει μείωση της ακρίβειας του μοντέλου, επομένως, το κλαδευμένο μοντέλο πρέπει να επανεκπαιδευτεί για να αποκατασταθεί η ακρίβεια του μοντέλου.

(5) Βελτιώστε το μοντέλο μετά την επανεκπαίδευση, βελτιώστε περαιτέρω την ακρίβεια του μοντέλου.

Κώδικας:


import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
 
# 定义一个简单的卷积神经网络
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 4, kernel_size=3, padding=1)  # 4个输出通道
        self.conv2 = nn.Conv2d(4, 8, kernel_size=3, padding=1)  # 8个输出通道
        self.fc1 = nn.Linear(8 * 7 * 7, 64)
        self.fc2 = nn.Linear(64, 10)
 
    def forward(self, x):
        x = F.relu(self.conv1(x))  # 卷积层1 + ReLU激活函数
        x = F.max_pool2d(x, 2)  # 最大池化层，池化核大小为2x2
        x = F.relu(self.conv2(x))  # 卷积层2 + ReLU激活函数
        x = F.max_pool2d(x, 2)  # 最大池化层，池化核大小为2x2
        x = x.view(x.size(0), -1)  # 展平操作，将多维张量展平成一维
        x = F.relu(self.fc1(x))  # 全连接层1 + ReLU激活函数
        x = self.fc2(x)  # 全连接层2，输出10个类别
        return x
 
# 实例化模型
model = SimpleCNN()
 
# 打印剪枝前的模型结构
print("Model before pruning:")
print(model)
 
# 加载数据
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize((0.1307,), (0.3081,))  # 归一化
])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)  # 加载训练数据集
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True)  # 创建数据加载器
 
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器
 
# 训练模型
model.train()  # 将模型设置为训练模式
for epoch in range(1):  # 训练一个epoch
    running_loss = 0.0
    for data, target in train_loader:
        optimizer.zero_grad()  # 清零梯度
        outputs = model(data)  # 前向传播
        loss = criterion(outputs, target)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        running_loss += loss.item() * data.size(0)  # 累加损失
 
    epoch_loss = running_loss / len(train_loader.dataset)  # 计算平均损失
    print(f'Epoch {epoch + 1}, Loss: {epoch_loss:.4f}')
 
# 通道剪枝
# 获取卷积层的权重
conv1_weights = model.conv1.weight.data.abs().sum(dim=[1, 2, 3])  # 计算每个通道的L1范数
 
# 按照L1范数对通道进行排序
sorted_channels = torch.argsort(conv1_weights)
 
# 选择需要删除的通道
num_prune = 2  # 假设我们要删除2个通道
channels_to_prune = sorted_channels[:num_prune]
 
print("Channels to prune:", channels_to_prune)
 
# 删除指定通道的权重和偏置
pruned_weights = torch.index_select(model.conv1.weight.data, 0, sorted_channels[num_prune:])  # 获取保留的权重
pruned_bias = torch.index_select(model.conv1.bias.data, 0, sorted_channels[num_prune:])  # 获取保留的偏置
 
# 创建一个新的卷积层，并将剪枝后的权重和偏置赋值给它
model.conv1 = nn.Conv2d(in_channels=1, out_channels=4 - num_prune, kernel_size=3, padding=1)
model.conv1.weight.data = pruned_weights
model.conv1.bias.data = pruned_bias
 
# 同时我们还需要调整conv2层的输入通道
# 获取conv2层的权重并调整其输入通道
conv2_weights = model.conv2.weight.data[:, sorted_channels[num_prune:], :, :]  # 调整输入通道的权重
 
# 创建一个新的卷积层，并将剪枝后的权重赋值给它
model.conv2 = nn.Conv2d(in_channels=4 - num_prune, out_channels=8, kernel_size=3, padding=1)
model.conv2.weight.data = conv2_weights
 
# 打印剪枝后的模型结构
print("Model after pruning:")
print(model)
 
# 定义新的优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)
 
# 重新训练模型
model.train()  # 将模型设置为训练模式
for epoch in range(1):  # 训练一个epoch
    running_loss = 0.0
    for data, target in train_loader:
        optimizer.zero_grad()  # 清零梯度
        outputs = model(data)  # 前向传播
        loss = criterion(outputs, target)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数
        running_loss += loss.item() * data.size(0)  # 累加损失
 
    epoch_loss = running_loss / len(train_loader.dataset)  # 计算平均损失
    print(f'Epoch {epoch + 1}, Loss: {epoch_loss:.4f}')
 
# 加载测试数据
test_dataset = datasets.MNIST('./data', train=False, transform=transform)  # 加载测试数据集
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1000, shuffle=False)  # 创建数据加载器
 
# 评估模型
model.eval()  # 将模型设置为评估模式
correct = 0
total = 0
with torch.no_grad():  # 关闭梯度计算
    for data, target in test_loader:
        outputs = model(data)  # 前向传播
        _, predicted = torch.max(outputs.data, 1)  # 获取预测结果
        total += target.size(0)  # 总样本数
        correct += (predicted == target).sum().item()  # 正确预测的样本数
 
print(f'Accuracy: {100 * correct / total}%')  # 打印准确率

Προκειμένου να βελτιωθεί η απόδοση και η αποτελεσματικότητα της τεχνολογίας κλαδέματος, μπορούν να ληφθούν υπόψη οι ακόλουθες πτυχές βελτιστοποίησης:

Επιλέξτε κατάλληλες στρατηγικές κλαδέματος και αλγόριθμους κλαδέματος για να βελτιώσετε το αποτέλεσμα και την ακρίβεια κλαδέματος.
Βελτιώστε ή μάθετε σταδιακά το κλαδευμένο μοντέλο για να βελτιώσετε περαιτέρω την ακρίβεια και την απόδοση του μοντέλου.
Χρησιμοποιήστε παράλληλους υπολογιστές και τεχνολογία κατανεμημένων υπολογιστών για να επιταχύνετε τη διαδικασία κλαδέματος και εκπαίδευσης.

Κοινή χρήση τεχνολογίας

Εισαγωγή στο κλάδεμα μοντέλων

Προσωπικό προφίλ

τα στοιχεία επικοινωνίας μου