моя контактная информация
Почтамезофия@protonmail.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Я написал эту заметку в обсидиане и скопировал ее сюда. Странный формат этой заметки вызван отсутствием плагинов обсидиана.
теги:
Цель: Пройдите базовый уровень, испытайте процесс решения проблем модели НЛП, в основном поймите требования к вопросам конкурса и поймите сценарий соревнования.
трудность:очень низкий
Рекомендуемые шаги:
Задание 1. Документы Knowledge Click — Облачные документы Feishu (feishu.cn)
Машинный перевод (MT) — важная отрасль в области обработки естественного языка. Его цель —Автоматически конвертировать текст с одного языка в текст на другом языке
Метод машинного перевода: на основе правил -> на основе статистики -> глубокое обучение.
Управляемый правилами->Управляемый данными->Интеллектуальный драйвер
Машинный перевод на основе правил (1950-1980-е годы): Ранние системы машинного перевода в основном использовали методы, основанные на правилах, то есть использованиеГрамматические правила и словари, написанные лингвистами для перевода. .Этот метод требует глубокого понимания грамматики и словарного запаса исходного и целевого языков, но он менее гибок и адаптируем, что затрудняет работу со сложными языковыми структурами и проблемами многозначности.
Машинный перевод на основе статистики (1990-2000-е годы) : С повышением производительности компьютеров и появлением крупномасштабных параллельных корпусов статистический машинный перевод начал расти.Этот методАвтоматически изучайте соответствие между исходным и целевым языками, анализируя большие объемы двуязычного текста. , тем самым осуществляя перевод. Статистический машинный перевод показал лучшие результаты в борьбе с многозначностью и языковыми вариациями, но из-за того, что он полагается на большие объемы обучающих данных, он недостаточно поддерживает языки с ограниченными ресурсами.
Машинный перевод на основе нейронных сетей (2010-е годы – настоящее время) : Применение методов нейронных сетей в задачах машинного перевода можно проследить еще с 1980-х и 1990-х годов. Однако из-за ограничений в вычислительных ресурсах и масштабе данных в то время производительность метода нейронных сетей была неудовлетворительной, поэтому его развитие застопорилось на многие годы. В последние годы быстрое развитие технологий глубокого обучения способствовало развитию нейронного машинного перевода (NMT). NMT использует модели глубоких нейронных сетей, такие какСеть долгосрочной краткосрочной памяти (LSTM) и трансформатор , может автоматически изучать сложную взаимосвязь между исходным и целевым языками без ручного проектирования функций или правил. NMT добился значительного прогресса в качестве, скорости и адаптируемости перевода и стал основным методом в современной области машинного перевода.
В проектах машинного обучения и глубокого обучения набор данных обычно делится на три части: обучающий набор (Training Set), набор разработки (Development Set, также часто называемый набором проверки, Validation Set) и тестовый набор (Test Set).
обучающий набор, обучающая модель
Набор разработки, позволяющий предотвратить переобучение модели на обучающем наборе.
Тестовый набор, смоделируйте реальные данные, проверьте эффект
в настоящий моментнейронный машинный переводТехнологии совершили большие прорывы, ноВ некоторых областях или отраслях эффект перевода не идеален, поскольку машинному переводу сложно обеспечить согласованность терминологии. .В случае неточных результатов машинного перевода, таких как терминология, имена людей и мест и т. д., вы можетеИсправить через терминологический словарь, избегая путаницы и двусмысленности и обеспечивая максимальное качество перевода.
Задача машинного перевода, основанная на вмешательстве терминологического словаря Выберите машинный перевод с английским в качестве исходного языка и китайским в качестве целевого языка. Помимо двуязычных данных с английского на китайский, этот конкурс также предоставляет англо-китайский терминологический словарь.Участвующим командам необходимо начать с образцов обучающих данных, предоставленных на основеСоздание и обучение многоязычных моделей машинного перевода, а также предоставление окончательных результатов перевода на основе тестовых наборов и словарей терминов.
//RAG🤗
[!info] 🐵
- **Обучающий набор** используется для запуска вашего алгоритма обучения.
- набор для разработки Используется для настройки параметров, выбора функций и принятия других решений относительно алгоритма обучения.иногда называютнабор для удержания перекрестной проверки。
- **Тестовый набор** используется для оценки производительности алгоритма, но не меняет соответствующим образом алгоритм обучения или параметры.
Для файлов результатов перевода набора тестов, представленных участвующими командами, используются автоматические индикаторы оценки. СИНИЙ-4 Проводить оценку и использовать специальные инструментыSacrebleu версия с открытым исходным кодом。
[!info] 📘
чтоСИНИЙ-4 ?
BLEU
, полное имяBilingual Evaluation Understudy
(замена двуязычного оценивания) – это生成语句
руководить评估的指标
. Оценка BLEU представляет собой статью Кишоре Папинени и др., опубликованную в 2002 году.《BLEU: метод автоматической оценки машинного перевода》предложено в.
В области машинного перевода BLEU (Bilingual Evaluation Understudy) — это широко используемый автоматический индикатор оценки для измеренияСходство между компьютерным переводом и набором справочных переводов .В этом показателе особое внимание уделяетсяn-граммы Точное совпадение (n последовательных слов) можно рассматривать как статистическую оценку точности и беглости перевода. При расчете показателя BLUE сначала подсчитывается частота n-грамм в сгенерированном тексте, а затем эти частоты сравниваются с n-граммами в справочном тексте. Если сгенерированный перевод содержит те же n-граммы, что и в эталонном переводе, он считается совпадением. Итоговая СИНЯЯ оценка представляет собой значение от 0 до 1, где 1 соответствует идеальному совпадению с эталонным переводом, а 0 означает полное отсутствие совпадения.
СИНИЙ-4 В частности, речь идет об учете совпадений четверок (то есть четырех последовательных слов) при расчете.
СИНИЙ Характеристики показателей оценки:
Помимо перевода, оценка BLEU в сочетании с методами глубокого обучения может применяться к другим проблемам генерации языка, таким как: генерация языка, генерация заголовка изображения, суммирование текста и распознавание речи.
С этого момента я буду использовать только Magic Tower, ноутбук с 8 ГБ памяти не справится с этим.
Я бегло посмотрел код и данные, но не совсем понял.
Угадайте, в процессе перевода вы извлекаете из словаря несколько вариантов для каждого слова, и результатом перевода является вариант с наибольшей вероятностью сочетания?