2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
एआइजीसी-क्षेत्रे "LoRA" इति विशेषः पदः बहुधा दृश्यते, एतत् किञ्चित् व्यक्तिस्य नाम इव ध्वन्यते, परन्तु एतत् आदर्शप्रशिक्षणस्य पद्धतिः अस्ति । LoRA इत्यस्य पूर्णं नाम Low-Rank Adaptation of Large Language Models इति अस्ति, यत् चीनीभाषायां कथ्यतेबृहत्भाषाप्रतिमानानाम् निम्नस्तरीयः अनुकूलनम् . अधुना स्थिरप्रसारणे अस्य उपयोगः बहुवारं भवति ।
बृहत्भाषाप्रतिमानानाम् विशालसङ्ख्यायाः कारणात् अनेकेषां बृहत्कम्पनीनां कृते कतिपयान् मासान् यावत् प्रशिक्षणस्य आवश्यकता वर्तते अतः न्यूनसंसाधनस्य उपभोगयुक्ताः विविधाः प्रशिक्षणविधयः प्रस्ताविताः सन्ति, तेषु LoRA अपि अन्यतमः अस्ति
अस्मिन् लेखे LoRA सिद्धान्तस्य विस्तरेण परिचयः भविष्यति तथा च लघुमाडलस्य LoRA प्रशिक्षणं कार्यान्वितुं PyTorch इत्यस्य उपयोगः भविष्यति ।
अधिकांशं मॉडल् प्रशिक्षणं अधुना ग्रेडिएण्ट् डिसेण्ट् एल्गोरिदम् इत्यस्य उपयोगं करोति । ढाल-अवरोह-अल्गोरिदम् निम्नलिखित-४ चरणेषु विभक्तुं शक्यते ।
रेखीयप्रतिरूपं उदाहरणरूपेण गृहीत्वा आदर्शमापदण्डाः W, निवेशः निर्गमः च x, y, हानिकार्यं च औसतवर्गदोषः भवति । ततः प्रत्येकस्य चरणस्य गणना निम्नलिखितरूपेण भवति ।
L=MSE(Wx,y)L = MSE(Wx, y)L=MSE(Wx,y)
हानिं ज्ञात्वा L वर्सेस् W इत्यस्य ढालस्य गणनां कृत्वा dW प्राप्तुं शक्यते:
dW=∂L∂WdW = frac{आंशिक L}{आंशिक W}dW=∂W∂L
dW एकः आकृतिः अस्ति या यत्र L शीघ्रतया उत्तिष्ठति तस्याः दिशि सूचयति, परन्तु अस्माकं लक्ष्यं L पतनं करणीयम् अस्ति, अतः W इत्यनेन dW न्यूनीकृत्य भवतु । अद्यतनस्य गतिं समायोजयितुं एकं शिक्षणदरं η अपि गुणितं भवति, यस्य गणना निम्नलिखितरूपेण भवति ।
W′=W−ηdWW' = W - ηdWW′=W−ηdW
अन्ते सर्वदा पुनः पुनः कुर्वन्तु। उपर्युक्तेषु त्रयेषु सोपानेषु छद्मसङ्केतः यथा भवति ।
# 4、重复1、2、3
for i in range(10000):
# 1、正向传播计算损失
L = MSE(Wx, y)
# 2、反向传播计算梯度
dW = gradient(L, W)
# 3、利用梯度更新参数
W -= lr * dW
अद्यतनं समाप्तं कृत्वा नूतनं पैरामीटर् W' प्राप्यते । यदा वयम् अस्मिन् समये मॉडल् पूर्वानुमानस्य उपयोगं कुर्मः तदा गणना निम्नलिखितरूपेण भवति ।
pred=W′xpred = W'xpred=W′x
W तथा W' इत्येतयोः सम्बन्धस्य विषये चिन्तयितुं शक्नुमः । W प्रायः मूलभूतप्रतिरूपस्य मापदण्डान् निर्दिशति, मूलप्रतिरूपस्य आधारेण अनेकमात्रिकसंयोजनहरणयोः अनन्तरं W' प्राप्यते । कल्पयतु यत् प्रशिक्षणप्रक्रियायाः कालखण्डे १० वारं अद्यतनं भवति, तथा च प्रत्येकं dW dW1, dW2,..., dW10 भवति, ततः सम्पूर्णं अद्यतनप्रक्रिया एकं क्रियारूपेण लिखितुं शक्यते:
W′=W−ηdW1−ηdW2−...−ηdW10 चलो: dW=∑i=110dWiW′=W−ηdWW' = W - ηdW_1 - ηdW_2 - ... - ηdW_{10} \ चलो: dW = sum_{i=1} ^{10}dW_i \ W' = W - ηdW W′=W−ηdW1 −ηdW2 −...−ηdW10 चलो: dW=i=1∑10 dWi W′=W−ηdW
यत्र dW W' इत्यस्य समानाकारस्य आकृतिः अस्ति । वयं -ηdW इत्येतत् matrix R इति लिखामः, ततः अद्यतनं पैरामीटर्स् सन्ति :
W′=W+RW' = W + RW′=W+R
अस्मिन् समये प्रशिक्षणप्रक्रिया मूलमात्रिकायाः प्लस् अन्यस्य आकृतिस्य R इत्यस्मै सरलीकृता भवति । परन्तु R इति आकृतिसमाधानं सरलतरं नास्ति, अस्मिन् समये LoRA इत्यस्य विचारः प्रवर्तते ।
पूर्णतया प्रशिक्षितं आकृतिः प्रायः पूर्णपदवीं भवति अथवा मूलतः श्रेणीं तृप्तं करोति, अर्थात् आकृतौ कोऽपि स्तम्भः अनावश्यकः नास्ति । "Scaling Laws for Neural Language Model" इति पत्रे आँकडासमूहस्य पैरामीटर् आकारस्य च सम्बन्धः प्रस्तावितः अस्ति यदि एषः सम्बन्धः सन्तुष्टः भवति तथा च प्रशिक्षणं उत्तमं भवति तर्हि परिणामी मॉडल् मूलतः पूर्णपदवी भवति यदा मॉडल् इत्यस्य सूक्ष्म-समायोजनं कुर्मः तदा वयं आधार-प्रतिरूपं चिनोमः, यत् मूलतः पूर्ण-क्रमाङ्कः अस्ति । आकृति R इत्यस्य श्रेणी अद्यतनीकरणस्य स्थितिः का अस्ति ?
वयं कल्पयामः यत् R-मात्रिका निम्न-पदवी-मात्रिकायां बहवः पुनरावर्तिताः स्तम्भाः सन्ति अतः लघु-मात्रिकाद्वये विघटितुं शक्यते । यदि W इत्यस्य आकारः m×n अस्ति तर्हि A इत्यस्य आकारः अपि m×n अस्ति (यत्र A इत्यस्य आकारः m×r अस्ति तथा च B इत्यस्य आकारः r×N अस्ति)। प्रायः m , n इत्यस्य मूल्यात् दूरं लघुतरं मूल्यं चिनोति, यथा चित्रे दर्शितम् अस्ति ।
निम्न-पदवी-मात्रिकायाः द्वयोः मैट्रिक्सयोः विघटनस्य अनेकाः लाभाः सन्ति प्रथमः यत् मापदण्डानां संख्या महत्त्वपूर्णतया न्यूनीभवति । मानातु यत् R-मात्रिकायाः आकारः 100×100 अस्ति, तर्हि R इत्यस्य मापदण्डानां संख्या 10000 अस्ति । यदा वयं rank 10 चिनोमः तदा Matrix A इत्यस्य आकारः 100×10 तथा matrix B इत्यस्य आकारः 10×100 भवति पैरामीटर्स् इत्यस्य संख्या 2000 भवति, यत् R matrix इत्यस्मात् 80% न्यूनम् अस्ति ।
तथा च यतः R निम्नस्तरीयः आकृतिः अस्ति, पर्याप्तप्रशिक्षणेन सह, A तथा B आकृतिः R इत्यस्य प्रभावं प्राप्तुं शक्नोति। अत्र AB इति आकृतिः अस्ति यत् वयं प्रायः LoRA मॉडल् इति वदामः ।
LoRA इत्यस्य परिचयस्य अनन्तरं अस्माकं भविष्यवाणीं क्रमशः W तथा AB इत्यत्र x इत्यस्य निवेशस्य आवश्यकतां अनुभवति।
pred=Wx+ABxpred = Wx + ABxpred=Wx+ABx
पूर्वानुमानं कुर्वन् मूलप्रतिरूपात् किञ्चित् मन्दतरं भविष्यति, परन्तु मूलतः बृहत्प्रतिरूपेषु अन्तरं न अनुभूयते ।
सर्वेषां विवरणानां ग्रहणार्थं वयं lora इत्यस्य वास्तविकयुद्धरूपेण विशालं मॉडलं न उपयुञ्ज्महे तस्य स्थाने वयं lora मॉडल् इत्यस्य प्रशिक्षणार्थं vgg19 इत्यादीनां लघुजालस्य उपयोगं कर्तुं चयनं कुर्मः । आवश्यकानि मॉड्यूलानि आयातयन्तु : १.
import os
import torch
from torch import optim, nn
from PIL import Image
from torch.utils import data
from torchvision import models
from torchvision.transforms import transforms
अत्र, imagenet इत्यत्र vgg19 इत्यस्य पूर्वप्रशिक्षितभाराः आधारप्रतिरूपरूपेण उपयुज्यन्ते, अतः वर्गीकरणदत्तांशसमूहः सज्जीकर्तुं आवश्यकः अस्ति ।सुविधायै केवलम् एकः वर्गः ५ चित्राणि च अत्र निर्मिताः सन्तिdata/goldfish
अधः:
सुवर्णमत्स्यवर्गः इमेजनेट्-मध्ये समाविष्टः अस्ति, परन्तु अत्र सुवर्णमत्स्यस्य सचित्रसंस्करणं चयनं कृतम् अस्ति, परीक्षणानन्तरं पूर्वप्रशिक्षितः प्रतिरूपः उपर्युक्तचित्रेषु सम्यक् वर्गीकरणं कर्तुं न शक्नोति । अस्माकं उद्देश्यं LoRA इत्यस्य प्रशिक्षणं कृत्वा मॉडलस्य सम्यक् वर्गीकरणं करणीयम्।
वयं LoraDataset रचयामः:
transform = transforms.Compose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
class LoraDataset(data.Dataset):
def __init__(self, data_path="datas"):
categories = models.VGG19_Weights.IMAGENET1K_V1.value.meta["categories"]
self.files = []
self.labels = []
for dir in os.listdir(data_path):
dirname = os.path.join(data_path, dir)
for file in os.listdir(dirname):
self.files.append(os.path.join(dirname, file))
self.labels.append(categories.index(dir))
def __getitem__(self, item):
image = Image.open(self.files[item]).convert("RGB")
label = torch.zeros(1000, dtype=torch.float64)
label[self.labels[item]] = 1.
return transform(image), label
def __len__(self):
return len(self.files)
वयं LoRA इत्यस्य स्तरस्य अन्तः केवलं द्वौ मैट्रिक्सौ स्तः येषां प्रशिक्षणं LoRA इत्यस्य कोडः निम्नलिखितरूपेण अस्ति ।
class Lora(nn.Module):
def __init__(self, m, n, rank=10):
super().__init__()
self.m = m
self.A = nn.Parameter(torch.randn(m, rank))
self.B = nn.Parameter(torch.zeros(rank, n))
def forward(self, inputs):
inputs = inputs.view(-1, self.m)
return torch.mm(torch.mm(inputs, self.A), self.B)
यत्र m इनपुट् इत्यस्य आकारः, n आउटपुट् इत्यस्य आकारः, rank इति rank इत्यस्य आकारः, वयं लघुतरं मूल्यं सेट् कर्तुं शक्नुमः ।
भारानाम् आरम्भं कुर्वन्तः वयं A इत्यस्य आरम्भं कुर्मः Gaussian noise इत्यनेन, तथा च B इत्यस्य आरम्भं 0 matrix इत्यनेन कुर्मः एतत् सुनिश्चितं कर्तुं यत् प्रशिक्षणं अधः मॉडलतः आरभ्यते । यतः AB 0 आकृतिः अस्ति, LoRA प्रारम्भिकस्थितौ कार्यं न करोति ।
अग्रिमः सोपानः प्रशिक्षणम् अस्ति ।
# 加载底模和lora
vgg19 = models.vgg19(models.VGG19_Weights.IMAGENET1K_V1)
for params in vgg19.parameters():
params.requires_grad = False
vgg19.eval()
lora = Lora(224 * 224 * 3, 1000)
# 加载数据
lora_loader = data.DataLoader(LoraDataset(), batch_size=batch_size, shuffle=True)
# 加载优化器
optimizer = optim.Adam(lora.parameters(), lr=lr)
# 定义损失
loss_fn = nn.CrossEntropyLoss()
# 训练
for epoch in range(epochs):
for image, label in lora_loader:
# 正向传播
pred = vgg19(image) + lora(image)
loss = loss_fn(pred, label)
# 反向传播
loss.backward()
# 更新参数
optimizer.step()
optimizer.zero_grad()
print(f"loss: {loss.item()}")
अत्र द्वौ बिन्दुौ द्रष्टव्यौ स्तः यत् वयं vgg19 इत्यस्य भारं अप्रशिक्षणीयं इति सेट् कुर्मः, परन्तु वस्तुतः इदं भिन्नम् अस्ति ।
द्वितीयः बिन्दुः अस्ति यत् अग्रे प्रसारणस्य समये वयं निम्नलिखितसङ्केतस्य उपयोगं कुर्मः ।
pred = vgg19(image) + lora(image)
सरलपरीक्षां कुर्मः : १.
# 测试
for image, _ in lora_loader:
pred = vgg19(image) + lora(image)
idx = torch.argmax(pred, dim=1).item()
category = models.VGG19_Weights.IMAGENET1K_V1.value.meta["categories"][idx]
print(category)
torch.save(lora.state_dict(), 'lora.pth')
उत्पादनं यथा भवति ।
goldfish
goldfish
goldfish
goldfish
goldfish
मूलभूतपूर्वसूचना सम्यक् अस्ति, परन्तु अस्य परीक्षणपरिणामस्य किमपि अर्थः नास्ति । अन्ते वयं 5M LoRA मॉडल् रक्षितवन्तः, यत् vgg19 इत्यस्य दश MB इत्यस्य तुलने अतीव लघु अस्ति ।
LoRA बृहत् मॉडल् कृते एकः कुशलः प्रशिक्षणपद्धतिः अस्ति, तथा च अयं लेखः पाठकान् LoRA इत्यस्य विस्तृतकार्यन्वयनस्य स्पष्टतरं अवगमनं दातुं लघुवर्गीकरणजाले LoRA इत्यस्य उपयोगं करोति (किन्तु यतोहि एतत् बृहत् मॉडल् चालयितुं न शक्नोति इति अपि) सीमितदत्तांशमात्रायाः कारणात् LoRA इत्यस्य सटीकता, कार्यक्षमता च इत्यादीनां विषयाणां विस्तरेण चर्चा न भवति पाठकाः गहनतया अवगमनाय प्रासंगिकसामग्रीणां सन्दर्भं दातुं शक्नुवन्ति।
अहं दशवर्षेभ्यः अधिकं यावत् अग्रपङ्क्ति-अन्तर्जाल-कम्पनीषु कार्यं कृतवान्, अनेकेषां कनिष्ठ-सहकारिणां मार्गदर्शनं च कृतवान् । अनेकेषां जनानां शिक्षणं वर्धने च साहाय्यं कृतवान् ।
अहं अवगच्छामि यत् सर्वैः सह साझां कर्तुं योग्यः अनुभवः ज्ञानं च बहु अस्ति, तथा च वयं कृत्रिमबुद्धिशिक्षणे भवतः बहवः भ्रमस्य उत्तरं दातुं स्वक्षमताम् अनुभवं च उपयोक्तुं शक्नुमः, अतः अहम् अद्यापि विविधवस्तूनि व्यवस्थित्यै साझां कर्तुं च आग्रहं करोमि कार्ये व्यस्तः। परन्तु ज्ञानप्रसारार्थं सीमितमार्गाणां कारणात् अन्तर्जाल-उद्योगे बहवः मित्राणि स्वशिक्षणस्य उन्नयनार्थं सम्यक् सामग्रीं प्राप्तुं असमर्थाः भवन्ति अतः महत्त्वपूर्णेषु एआइ-बृहत्-माडल-सामग्रीषु एआइ-बृहत्-माडल-परिचय-शिक्षण-मनः-नक्शाः, उच्च-गुणवत्ता-युक्ताः एआइ-बृहत्-माडल-शिक्षणं च सन्ति पुस्तकानि पुस्तिका च, तथा च विडियो पाठ्यक्रमाः , व्यावहारिकशिक्षणम् अन्ये च अभिलेखिताः विडियो निःशुल्कं साझाः भवन्ति।
प्रथमः चरणः : बृहत् आदर्शप्रणालीनां परिकल्पना आरभ्य बृहत् आदर्शप्रणालीनां मुख्यपद्धतीनां व्याख्यानं कुर्वन्तु;
द्वितीयः चरणः : बृहत् मॉडल-प्रोम्प्ट्-शब्द-प्रकल्पस्य माध्यमेन, मॉडलस्य भूमिकायाः उत्तम-उपयोगाय प्रॉम्प्ट्-दृष्टिकोणात् आरभ्यताम्;
तृतीयः चरणः : बृहत् मॉडल मञ्च अनुप्रयोगविकासः ई-वाणिज्यक्षेत्रे वर्चुअल् फिटिंग् प्रणालीं निर्मातुं अलीबाबा क्लाउड् पीएआई मञ्चस्य उपयोगं करोति;
चतुर्थः चरणः : बृहत् मॉडल् ज्ञान-आधार-अनुप्रयोग-विकासः रसद-उद्योग-परामर्शस्य कृते बुद्धिमान् प्रश्नोत्तर-प्रणालीं निर्मातुं LangChain-रूपरेखां उदाहरणरूपेण गृह्णाति
पञ्चमः चरणः : वर्तमानक्षेत्रस्य अनुकूलानि बृहत्माडलं निर्मातुं बृहत्स्वास्थ्यस्य, नूतनखुदराविक्रयस्य, नूतनमाध्यमानां च क्षेत्राणां उपयोगेन बृहत्माडलानाम् विकासस्य सूक्ष्मरूपेण समायोजनं
षष्ठः चरणः : एसडी बहु-मोडल-बृहत्-प्रतिरूपस्य आधारेण वेन्शेङ्ग-आरेख-एप्लेट्-प्रकरणस्य निर्माणं कृतम्;
सप्तमः चरणः : बृहत् मॉडल-मञ्चानां अनुप्रयोगे विकासे च केन्द्रीक्रियताम्, तथा च Xinghuo large model तथा Wenxin large model इत्यादीनां परिपक्व-बृहत्-माडल-माध्यमेन बृहत्-माडल-उद्योग-अनुप्रयोगानाम् निर्माणं कुर्वन्तु
👉学会后的收获:👈
• बृहत्-माडलस्य (फ्रंट-एण्ड्, बैक-एण्ड्, उत्पाद-प्रबन्धकः, डिजाइनः, डाटा-विश्लेषणम् इत्यादीनां) पूर्ण-स्टैक-इञ्जिनीयरिङ्ग-कार्यन्वयनस्य आधारेण, अस्य पाठ्यक्रमस्य माध्यमेन भिन्नाः क्षमताः प्राप्तुं शक्यन्ते
• प्रासंगिकवास्तविकपरियोजनानां आवश्यकतानां समाधानार्थं बृहत्प्रतिमानानाम् उपयोगं कर्तुं समर्थः : बृहत् आँकडानां युगे अधिकाधिकानां उद्यमानाम् संस्थानां च विशालमात्रायां आँकडानां संसाधनस्य आवश्यकता वर्तते बृहत् आदर्शप्रौद्योगिक्याः उपयोगेन एतान् आँकडान् उत्तमरीत्या संसाधितुं शक्यते तथा च आँकडाविश्लेषणस्य सटीकतायां सुधारः भवति निर्णयं च । अतः बृहत् आदर्श-अनुप्रयोग-विकास-कौशलं निपुणतां प्राप्तुं प्रोग्रामर्-जनाः वास्तविक-परियोजना-आवश्यकतानां उत्तमरीत्या सामना कर्तुं समर्थाः भवितुम् अर्हन्ति;
• बृहत् मॉडलस्य उद्यमस्य च आँकडा एआइ अनुप्रयोगविकासस्य आधारेण, बृहत् मॉडलसिद्धान्तं कार्यान्वितुं, GPU कम्प्यूटिंगशक्तिं, हार्डवेयरं, LangChain विकासरूपरेखां तथा परियोजनाव्यावहारिककौशलं च मास्टरं कुर्वन्तु, तथा च बृहत् मॉडलानां (डेटा तैयारी, डाटा आसवनं, बृहत्) ऊर्ध्वाधर-प्रशिक्षणं ठीक-ट्यूनिंग् शिक्षन्तु model deployment) एक-विराम-प्रवीणता;
• लोकप्रियं बृहत् मॉडलं ऊर्ध्वाधरक्षेत्रं मॉडलप्रशिक्षणक्षमतां पूर्णं कर्तुं तथा प्रोग्रामरस्य कोडिंगक्षमतासु सुधारं कर्तुं क्षमता: बृहत् मॉडल् अनुप्रयोगविकासाय मशीन लर्निंग एल्गोरिदम्, गहनशिक्षणरूपरेखासु अन्यप्रौद्योगिकीषु निपुणतां प्राप्तुं आवश्यकं भवति एतेषु प्रौद्योगिकीषु निपुणतां प्राप्तुं प्रोग्रामराणां कोडिंगविश्लेषणक्षमतासु सुधारं कर्तुं शक्यते उच्चगुणवत्तायुक्तसङ्केतलेखने अधिकं प्रवीणतां प्राप्तुं।
1. एआइ बृहत् आदर्शशिक्षणमार्गचित्रम्
2. बृहत् एआइ मॉडल् इत्यस्य 100 सेट् कृते वाणिज्यिकं कार्यान्वयनयोजना
बृहत् मॉडल् विडियो ट्यूटोरियल् इत्यस्य ३.१०० प्रकरणाः
४.२०० बृहत् आदर्श PDF पुस्तकानि
5. एलएलएम साक्षात्कारप्रश्नानां संग्रहः
6.AI उत्पाद प्रबन्धक संसाधन संग्रह
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓