Pontos de conhecimento sobre destilação notas

Notas sobre pontos de conhecimento de destilação

2024-07-12

Destilação

A destilação de modelos é um método para otimizar o desempenho de modelos pequenos, transferindo o conhecimento de um modelo grande (modelo de professor) para um modelo pequeno (modelo de aluno). A destilação geralmente inclui as seguintes formas:

1. Destilação Soft Label

O modelo do aluno é treinado por meio dos rótulos flexíveis do modelo do professor, para que o modelo do aluno aprenda a distribuição de saída do modelo do professor.

import torch
import torch.nn as nn

# 定义教师模型和学生模型
teacher_model = ...
student_model = ...

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 反向传播和优化
loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

2. Destilação de recursos

Aprenda com os modelos dos professores, permitindo que os modelos dos alunoscamada médiarepresentação de recursos para otimizar o desempenho do modelo do aluno.

class FeatureExtractor(nn.Module):
    def __init__(self, model):
        super(FeatureExtractor, self).__init__()
        self.features = nn.Sequential(*list(model.children())[:-1])
    
    def forward(self, x):
        return self.features(x)

teacher_feature_extractor = FeatureExtractor(teacher_model)
student_feature_extractor = FeatureExtractor(student_model)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)

# 定义特征蒸馏损失
feature_distillation_loss = nn.MSELoss()(student_features, teacher_features)

# 反向传播和优化
feature_distillation_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

3. Destilação Combinada

Combinando destilação soft label e destilação característica, usando a distribuição de saída do modelo do professor eRepresentação de recursospara treinar o modelo do aluno.

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')
mse_loss = nn.MSELoss()

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
soft_label_loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)
feature_loss = mse_loss(student_features, teacher_features)

# 组合损失
total_loss = soft_label_loss + alpha * feature_loss

# 反向传播和优化
total_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Através da tecnologia de destilação acima, é possível efetivamenteModelo de otimizaçãoestrutura, reduza a sobrecarga computacional e melhore a velocidade de inferência e a eficiência de implantação do modelo, mantendo o desempenho do modelo.

Compartilhamento de tecnologia

Notas sobre pontos de conhecimento de destilação

Destilação

1. Destilação Soft Label

2. Destilação de recursos

3. Destilação Combinada

Perfil pessoal

minhas informações de contato