Technology sharing

Uti Bert in amni operibus - Transformer Tutorial

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

BERT, Repraesentationes Bidirectionales Encoder a Transformers, exemplar linguae praeexercitatae a Google in MMXVIII emissum est. Cessus BERT in campo linguae naturalis magnum miliarium notat processus, quod signanter melius ad multarum linguarum munia perficienda. Articulus hic singillatim introducebit quomodo utendum BERT ad negotia inferioris decurrentia, ut omnes melius intelligant et hoc instrumentum potentissimum adhibeant.

Quid est BERT?

BERT est exemplar linguae transformantis in architectura fundatum. Dissimilis exemplorum linguae praecedentis, BERT methodum instituendi bipartitam accipit et contextualem informationem simul considerare potest, quae eam in variis operibus bene praestare facit. Praecipua idea de BERT est ut per amplas invisitatas praemeditationem optimam obtineat observantiam ac deinde subtilia in peculiaribus muneribus obeundis.

BERT

BERTI institutio processus in duos gradus dividitur: prae-parastrationem et venustatem.

  1. prae-instructio : Hac in scaena, BERT per magnam copiam notitiarum textuum exercetur, et officia includunt Masked Language Model (MLM) et Praedictio Next Sententia (NSP). MLM negotium exemplar requirit ut verba larvata praedicant, dum NSP opus requirit exemplar praedicendi num duae sententiae continuae sint.

  2. bene-tuning : Expleto prae-paratione, opus est ut bene melodiam exemplar iuxta proprias decurrentes labores. Munus amni esse potest classificatio, regressio, interrogatio respondens, nominata entitatis cognitio, etc. Per ulteriorem institutionem de datorum specialium officiorum institutis, BERTI magis aptare potest ad exigentiis officiorum officiorum.

Quomodo uti BERT pro amni operibus

Deinde inducemus quomodo usus BERT pro textis classificationis operibus per specificum exemplum adhibeatur.

Gradus I: Instrue necessarias bibliothecas

Primum, opus est bibliothecam Transformers instituere, quae bibliotheca popularis admodum est a Hugging Face instructa, quae variis exemplis praereparatis verbis uti nobis concedit.

pip install transformers
pip install torch
  • 1
  • 2
Gradus II: Load pre-exercitatus exemplar et data

Opus est ut exemplar praefecti BERT onerent ac Tokenizer respondeat ex bibliothecae exemplaris faciei Hugging.

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments

# 加载预训练的BERT模型和Tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
Gradus III para notitia

Ad faciendam classificationem textus, necesse est textum in forma initus in forma accepta exemplari reddere. Hoc typice involvit tesseram significationem et conversionem in notis indiciis et attentionem larvis creantis.

# 示例数据
texts = ["I love programming.", "I hate bugs."]
labels = [1, 0]

# 数据预处理
inputs = tokenizer(texts, return_tensors='pt', padding=True, truncation=True)
inputs['labels'] = torch.tensor(labels)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
Gradus IV: Bene-cantus exemplum

Trainer API utendo, exemplari subtiliter canere possumus. Primum, parametris institutionem instituere debes, et deinde ad exercitationem vocas Instructus.

training_args = TrainingArguments(
    output_dir='./results',          # 输出目录
    num_train_epochs=3,              # 训练的epoch数
    per_device_train_batch_size=4,   # 训练时每个设备的batch size
    per_device_eval_batch_size=8,    # 评估时每个设备的batch size
    warmup_steps=500,                # 预热步数
    weight_decay=0.01,               # 权重衰减
    logging_dir='./logs',            # 日志目录
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=inputs,
    eval_dataset=inputs
)

# 开始训练
trainer.train()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
Gradus V, Censeo ac Data

Postquam disciplina peracta est, exemplar ad aestimationem et praedictionem exercitatum uti possumus. Aestimatio, convalidatio apposita ad indices sicut accurationem computare possumus;

# 评估
results = trainer.evaluate()
print(results)

# 预测
test_texts = ["I enjoy learning new things.", "I dislike errors."]
test_inputs = tokenizer(test_texts, return_tensors='pt', padding=True, truncation=True)
predictions = model(**test_inputs)
print(predictions)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

BERT application missiones

Praeter textum classificationis, BERT etiam in aliis rebus naturalibus operibus processus linguae bene praestat. Exempli gratia:

  • quaestio et respondere ratio: BERTUS adhiberi potest ad validam quaestionem et responsionem fabricandam systema quae accurate per contextum intellegentiae quaestionibus respondere potest.
  • Recognitio nomine ens: BERTI possunt entia in textu cognoscere, ut persona nomina, loco nomina, ordo nominum, etc.
  • text generation: Licet BERTUS principaliter adhibeatur ad intelligendum opera, potest etiam adiuvare in aliqua genera- tione opera, ut impletio in codicellos, rescribo, etc.

Summatim

Ut potens exemplar linguae praeexercitatae, BERTUS mirabiles eventus consecutus est in multiplicibus naturalibus operibus processus linguae. BERTUS per duos gradus prae-parandi et bene-venationis potest variis amni operibus efficaciter accommodare. Spero per introductionem huius articuli, omnes melius intelligere et applicare BERT et solvere problemata practica.

Ad contenta magis excitando, quaeso attende ad: ChatGPT Sinica website