Distillationis scientia puncta notes

Notae in distillationibus cognitionis punctorum

2024-07-12

Distillatio

Exemplar distillationis methodus est ad optimize faciendum exempla parva per translationem cognitionis magni exemplaris (magistri exemplar) ad exemplar parvum (exemplar studiosum). Distillationes plerumque sequentes formas includit:

1. mollis Label Distillation

Discipulus exemplar per mollia pittacia docentis exemplar exercetur, ut discipulus exemplar discat exemplar output distributionis magistri.

import torch
import torch.nn as nn

# 定义教师模型和学生模型
teacher_model = ...
student_model = ...

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 反向传播和优化
loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

2. Feature Distillation

Disce a magister exempla inmisso discipulo exemplamedium tabulatumpluma repraesentatio ad optimize discipulus exemplar faciendum.

class FeatureExtractor(nn.Module):
    def __init__(self, model):
        super(FeatureExtractor, self).__init__()
        self.features = nn.Sequential(*list(model.children())[:-1])
    
    def forward(self, x):
        return self.features(x)

teacher_feature_extractor = FeatureExtractor(teacher_model)
student_feature_extractor = FeatureExtractor(student_model)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)

# 定义特征蒸馏损失
feature_distillation_loss = nn.MSELoss()(student_features, teacher_features)

# 反向传播和优化
feature_distillation_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

3. Combinatae quaevis Distillation

Coniungendo pittacium molle distillationis et plumae distillationis, utens output distributionis exemplar magistri etPluma representationstudiosum instituendi exemplar.

# 定义损失函数
criterion = nn.KLDivLoss(reduction='batchmean')
mse_loss = nn.MSELoss()

# 教师模型生成软标签
teacher_model.eval()
with torch.no_grad():
    teacher_outputs = teacher_model(inputs)
soft_labels = torch.softmax(teacher_outputs / temperature, dim=1)

# 学生模型预测
student_outputs = student_model(inputs)
soft_label_loss = criterion(torch.log_softmax(student_outputs / temperature, dim=1), soft_labels)

# 获取特征表示
teacher_features = teacher_feature_extractor(inputs)
student_features = student_feature_extractor(inputs)
feature_loss = mse_loss(student_features, teacher_features)

# 组合损失
total_loss = soft_label_loss + alpha * feature_loss

# 反向传播和优化
total_loss.backward()
optimizer.step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Per technologiam superius distillationem efficaciter fieri potestOptimization exemplarstructuram, computationale caput minuere, et exemplar consequentiae celeritatis et efficaciam instruere, servato exemplari effectu, emendare.

Technology sharing

Notae in distillationibus cognitionis punctorum

Distillatio

1. mollis Label Distillation

2. Feature Distillation

3. Combinatae quaevis Distillation

Personal profile

mihi contactus notitia