Points de connaissances sur la distillation notes

Notes sur les points de connaissance en matière de distillation

2024-07-12

Distillation

La distillation de modèle est une méthode permettant d'optimiser les performances des petits modèles en transférant les connaissances d'un grand modèle (modèle enseignant) vers un petit modèle (modèle étudiant). La distillation comprend généralement les formes suivantes :

1. Distillation d’étiquettes souples

Le modèle étudiant est formé via les étiquettes logicielles du modèle enseignant, de sorte que le modèle étudiant apprenne la distribution de sortie du modèle enseignant.

import torch
import torch.nn as nn

# 定义教师模型和学生模型
teacher_model = ...
student_model = ...

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 反向传播和优化
loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

2. Distillation des fonctionnalités

Apprenez des modèles d'enseignants en laissant les modèles d'élèvescouche du milieureprésentation des fonctionnalités pour optimiser les performances du modèle étudiant.

class FeatureExtractor(nn.Module):
    def __init__(self, model):
        super(FeatureExtractor, self).__init__()
        self.features = nn.Sequential(*list(model.children())[:-1])
    
    def forward(self, x):
        return self.features(x)

teacher_feature_extractor = FeatureExtractor(teacher_model)
student_feature_extractor = FeatureExtractor(student_model)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)

# 定义特征蒸馏损失
feature_distillation_loss = nn.MSELoss()(student_features, teacher_features)

# 反向传播和优化
feature_distillation_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

3. Distillation combinée

Combinant la distillation d'étiquettes douces et la distillation de caractéristiques, en utilisant la distribution de sortie du modèle d'enseignant etReprésentation des caractéristiquespour former le modèle étudiant.

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')
mse_loss = nn.MSELoss()

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
soft_label_loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)
feature_loss = mse_loss(student_features, teacher_features)

# 组合损失
total_loss = soft_label_loss + alpha * feature_loss

# 反向传播和优化
total_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Grâce à la technologie de distillation ci-dessus, il est possible de filtrer efficacementModèle d'optimisationstructure, réduisez la surcharge de calcul et améliorez la vitesse d'inférence et l'efficacité de déploiement du modèle tout en maintenant les performances du modèle.

Partage de technologie

Notes sur les points de connaissance en matière de distillation

Distillation

1. Distillation d’étiquettes souples

2. Distillation des fonctionnalités

3. Distillation combinée

Profil personnel

mes coordonnées