Cara menggunakan BERT untuk tugas hilir

Cara menggunakan BERT untuk tugas hilir - Tutorial Transformer

2024-07-12

BERT, Representasi Encoder Dua Arah dari Transformers, adalah model bahasa terlatih yang dirilis oleh Google pada tahun 2018. Munculnya BERT menandai tonggak penting dalam bidang pemrosesan bahasa alami, karena secara signifikan meningkatkan kinerja berbagai tugas bahasa. Artikel ini akan memperkenalkan secara detail cara menggunakan BERT untuk tugas-tugas hilir guna membantu semua orang lebih memahami dan menerapkan alat canggih ini.

Apa itu BERT?

BERT adalah model bahasa berdasarkan arsitektur Transformer. Berbeda dengan model bahasa sebelumnya, BERT mengadopsi metode pelatihan dua arah dan dapat mempertimbangkan informasi kontekstual secara bersamaan, sehingga BERT dapat bekerja dengan baik pada berbagai tugas. Ide inti BERT adalah untuk mencapai kinerja luar biasa melalui pra-pelatihan ekstensif tanpa pengawasan dan kemudian menyempurnakan tugas-tugas tertentu.

Pra-pelatihan dan penyempurnaan BERT

Proses pelatihan BERT dibagi menjadi dua tahap: pra-pelatihan dan penyempurnaan.

pra-pelatihan : Pada tahap ini, BERT dilatih melalui sejumlah besar data teks, dan tugasnya meliputi Masked Language Model (MLM) dan Next Sentence Prediction (NSP). Tugas MLM memerlukan model untuk memprediksi kata-kata bertopeng, sedangkan tugas NSP memerlukan model untuk memprediksi apakah dua kalimat bersambung.
mencari setelan : Setelah pra-pelatihan selesai, kita perlu menyempurnakan model sesuai dengan tugas hilir tertentu. Tugas hilir dapat berupa klasifikasi, regresi, menjawab pertanyaan, pengenalan entitas bernama, dll. Dengan pelatihan lebih lanjut tentang kumpulan data tugas tertentu, BERT dapat beradaptasi dengan lebih baik terhadap kebutuhan tugas tertentu.

Selanjutnya, kami akan memperkenalkan cara menggunakan BERT untuk tugas klasifikasi teks melalui contoh spesifik.

Langkah 1: Instal perpustakaan yang diperlukan

Pertama, kita perlu menginstal perpustakaan Transformers, yang merupakan perpustakaan sangat populer yang disediakan oleh Hugging Face, yang memungkinkan kita menggunakan berbagai model bahasa terlatih.

pip install transformers
pip install torch
1
2

Langkah 2: Muat model dan data terlatih

Kita perlu memuat model BERT yang telah dilatih sebelumnya dan Tokenizer yang sesuai dari perpustakaan model Hugging Face.

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments

# 加载预训练的BERT模型和Tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
1
2
3
4
5
6

Langkah 3: Siapkan data

Untuk melakukan klasifikasi teks, kita perlu mengubah data teks menjadi format masukan yang dapat diterima oleh model. Hal ini biasanya melibatkan pembuatan token dan konversi teks menjadi id token, serta pembuatan masker perhatian.

# 示例数据
texts = ["I love programming.", "I hate bugs."]
labels = [1, 0]

# 数据预处理
inputs = tokenizer(texts, return_tensors='pt', padding=True, truncation=True)
inputs['labels'] = torch.tensor(labels)
1
2
3
4
5
6
7

Langkah 4: Sempurnakan modelnya

Dengan menggunakan Trainer API, kita dapat dengan mudah menyempurnakan modelnya. Pertama, Anda perlu mengatur parameter pelatihan, lalu memanggil Pelatih untuk pelatihan.

training_args = TrainingArguments(
    output_dir='./results',          # 输出目录
    num_train_epochs=3,              # 训练的epoch数
    per_device_train_batch_size=4,   # 训练时每个设备的batch size
    per_device_eval_batch_size=8,    # 评估时每个设备的batch size
    warmup_steps=500,                # 预热步数
    weight_decay=0.01,               # 权重衰减
    logging_dir='./logs',            # 日志目录
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=inputs,
    eval_dataset=inputs
)

# 开始训练
trainer.train()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Langkah 5: Evaluasi dan Perkiraan

Setelah pelatihan selesai, kita dapat menggunakan model yang dilatih untuk evaluasi dan prediksi. Untuk evaluasi, kita bisa menggunakan set validasi untuk menghitung indikator seperti akurasi; untuk prediksi, kita bisa memasukkan teks baru dan mendapatkan hasil klasifikasi.

# 评估
results = trainer.evaluate()
print(results)

# 预测
test_texts = ["I enjoy learning new things.", "I dislike errors."]
test_inputs = tokenizer(test_texts, return_tensors='pt', padding=True, truncation=True)
predictions = model(**test_inputs)
print(predictions)
1
2
3
4
5
6
7
8
9

Skenario penerapan BERT

Selain klasifikasi teks, BERT juga bekerja dengan baik dalam tugas pemrosesan bahasa alami lainnya. Misalnya:

sistem tanya jawab: BERT dapat digunakan untuk membangun sistem tanya jawab yang kuat yang dapat menjawab pertanyaan pengguna secara akurat melalui pemahaman konteks.
Pengakuan entitas bernama: BERT dapat mengidentifikasi entitas dalam teks, seperti nama orang, nama tempat, nama organisasi, dll.
pembuatan teks: Meskipun BERT terutama digunakan untuk memahami tugas, BERT juga dapat membantu dalam beberapa tugas pembangkitan, seperti mengisi bagian yang kosong, menulis ulang, dll.

Meringkaskan

Sebagai model bahasa terlatih yang kuat, BERT telah mencapai hasil luar biasa dalam berbagai tugas pemrosesan bahasa alami. Melalui dua tahap pra-pelatihan dan penyesuaian, BERT dapat beradaptasi secara efisien terhadap berbagai tugas hilir. Saya berharap melalui pengenalan artikel ini, semua orang dapat lebih memahami dan menerapkan BERT serta memecahkan masalah praktis.

Untuk konten yang lebih menarik, harap perhatikan: Situs web ChatGPT Cina

Berbagi teknologi