私の連絡先情報
郵便メール:
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
今日の自然言語処理 (NLP) 分野では、感情認識は非常に重要なアプリケーション シナリオです。インテリジェントなカスタマー サービス、ソーシャル メディア分析、感情コンピューティングの分野のいずれにおいても、ユーザーの感情を正確に識別することで、ユーザー エクスペリエンスとシステムのインテリジェンス レベルを大幅に向上させることができます。 BERT (Bidirectional Encoder Representations from Transformers) は、強力な事前トレーニング済み言語モデルとして、複数の NLP タスクで優れたパフォーマンスを実証しています。このブログでは、MindSpore フレームワークに基づいて BERT モデルを使用して会話型感情認識を実現する方法を詳しく紹介します。ステップバイステップのコード例と詳細な説明により、このテクニックを習得するのに役立ちます。
BERT (Bidirectional Encoder Representations from Transformers) は、Transformer ベースの双方向エンコーダ表現モデルです。主に、マスク言語モデル (MLM) と次文予測 (NSP) という 2 つの事前トレーニング タスクを通じて、単語および文レベルの表現をキャプチャします。
BERT を事前トレーニングすると、テキストの分類、類似性の判断、読解など、さまざまな下流タスクに使用できます。
データセットの準備部分では、Baidu Feipiao チームから提供されたロボット チャット データセットをダウンロードして解凍しました。このデータセットは前処理されており、感情ラベルが含まれています。データの各行は、ラベルと単語で区切られたテキストで構成されます。ラベルは感情のカテゴリ (0 はネガティブ、1 はニュートラル、2 はポジティブ) を表し、テキストはユーザーの会話の内容です。この構造化データを使用すると、感情分類タスクをより便利に実行できます。
# 下载数据集
!wget https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz -O emotion_detection.tar.gz
!tar xvf emotion_detection.tar.gz
データセットの形式は次のとおりです。
label--text_a
0--谁骂人了?我从来不骂人,我骂的都不是人,你是人吗 ?
1--我有事等会儿就回来和你聊
2--我见到你很高兴谢谢你帮我
データの読み込みと前処理は、機械学習プロセスにおける重要なステップです。私たちが使ったGeneratorDataset
データをロードし、マッピング操作を使用してテキストをモデルが受け入れられる形式に変換します。具体的には、BertTokenizer
テキストを語彙 ID にトークン化し、パッド操作を実行します。この目的は、すべての入力シーケンスの長さが一貫していることを保証し、それによってトレーニング効率とモデルのパフォーマンスを向上させることです。
import numpy as np
from mindspore.dataset import text, GeneratorDataset, transforms
from mindnlp.transformers import BertTokenizer
def process_dataset(source, tokenizer, max_seq_len=64, batch_size=32, shuffle=True):
is_ascend = mindspore.get_context('device_target') == 'Ascend'
column_names = ["label", "text_a"]
dataset = GeneratorDataset(source, column_names=column_names, shuffle=shuffle)
type_cast_op = transforms.TypeCast(mindspore.int32)
def tokenize_and_pad(text):
if is_ascend:
tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)
else:
tokenized = tokenizer(text)
return tokenized['input_ids'], tokenized['attention_mask']
dataset = dataset.map(operations=tokenize_and_pad, input_columns="text_a", output_columns=['input_ids', 'attention_mask'])
dataset = dataset.map(operations=[type_cast_op], input_columns="label", output_columns='labels')
if is_ascend:
dataset = dataset.batch(batch_size)
else:
dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id), 'attention_mask': (None, 0)})
return dataset
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
dataset_train = process_dataset(SentimentDataset("data/train.tsv"), tokenizer)
dataset_val = process_dataset(SentimentDataset("data/dev.tsv"), tokenizer)
dataset_test = process_dataset(SentimentDataset("data/test.tsv"), tokenizer, shuffle=False)
使用したモデル構築部分ではBertForSequenceClassification
感情分類タスクを実行します。この事前トレーニング済みモデルは大規模なコーパスでトレーニングされており、強力な言語理解機能を備えています。事前にトレーニングされた重みを読み込むことで、感情分類タスクにおけるモデルのパフォーマンスを大幅に向上させることができます。同時に、自動混合精度テクノロジーを使用します。これにより、トレーニング プロセスが高速化されるだけでなく、ビデオ メモリの使用量も削減され、限られたハードウェア リソースでより効率的なトレーニングが実現されます。
オプティマイザーと評価メトリクスは、モデルのトレーニングにおける重要なコンポーネントです。大規模なデータや複雑なモデルを扱う際に優れたパフォーマンスを発揮するため、Adam オプティマイザーを選択しました。評価指標に関しては、モデルのパフォーマンスを測定する精度を使用します。これらの設定を使用すると、トレーニング中にモデルが継続的に最適化され、検証セットで良好なパフォーマンスを達成できるようになります。
コールバック関数は、モデルのトレーニング プロセスにおいて重要な役割を果たします。 2 つのコールバック関数を設定します。CheckpointCallback
そしてBestModelCallback
。前者はモデルの重みを定期的に保存するために使用され、後者は最もパフォーマンスの高いモデルの重みを自動的にロードします。これらのコールバック関数を通じて、トレーニング中に重要なモデル パラメーターが失われず、推論と評価に常に最高のパフォーマンスのモデルが使用されることが保証されます。
from mindnlp.transformers import BertForSequenceClassification
from mindspore import nn
from mindnlp._legacy.amp import auto_mixed_precision
model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)
model = auto_mixed_precision(model, 'O1')
optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)
metric = Accuracy()
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='bert_emotect', epochs=1, keep_checkpoint_max=2)
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='bert_emotect_best', auto_load=True)
trainer = Trainer(network=model, train_dataset=dataset_train,
eval_dataset=dataset_val, metrics=metric,
epochs=5, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb])
trainer.run(tgt_columns="labels")
モデル検証セクションでは、検証データセットを使用してモデルのパフォーマンスを評価します。検証セット上のモデルの精度を計算することで、モデルの一般化能力と実際の効果を理解できます。このステップは、モデルのトレーニング プロセスで考えられる問題を発見し、対応する調整と最適化を行うのに役立つため、非常に重要です。
evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)
evaluator.run(tgt_columns="labels")
モデル推論セクションでは、トレーニングされたモデルを使用して新しいデータに対して感情分類を実行する方法を示します。を定義しました。predict
テキスト入力により感情予測を行い、予測結果を出力する機能。このステップでは、モデルの実際の適用機能を実証し、モデルの一般化パフォーマンスを検証します。
dataset_infer = SentimentDataset("data/infer.tsv")
def predict(text, label=None):
label_map = {0: "消极", 1: "中性", 2: "积极"}
text_tokenized = Tensor([tokenizer(text).input_ids])
logits = model(text_tokenized)
predict_label = logits[0].asnumpy().argmax()
info = f"inputs: '{text}', predict: '{label_map[predict_label]}'"
if label is not None:
info += f" , label: '{label_map[label]}'"
print(info)
for label, text in dataset_infer:
predict(text, label)
最後に、カスタム入力での感情認識にモデルを使用する方法を示します。このステップでは、モデルの実際のアプリケーション機能を実証するだけでなく、さまざまな入力下でのモデルのパフォーマンスも検証します。このようにして、モデルの汎化能力と実際の効果をさらに理解することができます。
predict("家人们咱就是说一整个无语住了 绝绝子叠buff")