Технология регуляризации в глубоком обучении

Технология регуляризации в глубоком обучении — шумоустойчивость

2024-07-12

Предисловие

С бурным развитием глубокого обучения производительность и способность моделей к обобщению оказались в центре внимания исследователей. Однако данные в практических приложениях часто сопровождаются различными шумами. Эти шумы возникают не только из-за аппаратных ограничений в процессе сбора данных, но также могут быть вызваны такими факторами, как помехи окружающей среды и ошибки передачи. Существование шума серьезно влияет на эффект обучения и точность прогнозирования моделей глубокого обучения, особенно в таких задачах, как распознавание речи и классификация изображений. Поэтому повышение устойчивости к шуму моделей глубокого обучения, то есть повышение стабильной производительности модели и возможностей распознавания в шумной среде, стало важным направлением текущих исследований. Разработав более эффективные алгоритмы предварительной обработки данных, оптимизировав структуры моделей и внедрив обучение с усилением шума и другие технические средства, можно значительно повысить устойчивость моделей глубокого обучения к шуму, тем самым способствуя их применению в более сложных сценариях.

Шумоустойчивость

существоватьТехнология регуляризации в расширении набора данных глубокого обучения вдохновили на применение шума для ввода в качестве стратегии увеличения набора данных. Для некоторых моделей добавление шума с минимальной дисперсией к входным данным модели эквивалентно добавлению штрафа за норму к весам (Bishop, 1995a,b). В общем, введение шума гораздо эффективнее, чем простое уменьшение параметров, особенно когда шум добавляется к скрытым модулям.Добавление шума к скрытым объектам — важная тема, достойная отдельного обсуждения.。
другойШум используется в регуляризованной модели путем добавления его к весам. . Этот метод в основном используется в рекуррентных нейронных сетях (Jim et al., 1996; Graves, 2011). Это можно интерпретировать как стохастическую реализацию байесовского вывода о весах. При использовании байесовского подхода к процессу обучения веса рассматриваются как неопределенные, и эта неопределенность может быть представлена распределением вероятностей. Добавление шума к весам — это практический стохастический способ отразить эту неопределенность.
При определенных предположениях шум, применяемый к весам, можно интерпретировать как эквивалент более традиционных форм регуляризации, что способствует стабильности изучаемой функции.
Мы изучаем случай регрессии, то есть обучения набора признаков $Икс$ функция, сопоставленная со скаляром $y ^ ( x ) шляпа{y}(жирный символ{x})$ и используйте функцию стоимости наименьших квадратов для измерения значения прогноза модели $y ^ шляпа{y}$ с истинной ценностью $у$ ошибка：
$J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Формула 1}}$
Обучающий набор содержит $м$ Примеры аннотаций $символ{x}^{(i)},y^{(i)}),точки,(жирный символ{x}^{(m)},y^{(m)})}$
Теперь предположим, что к каждому входному представлению добавляется случайное возмущение весов сети. $epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})$ Представьте, что у нас есть стандарт $л$ слой $МЛП$ .Обозначим модель возмущений как $шляпа{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})$ 。
Мы заинтересованы в уменьшении квадрата ошибки вывода сети, несмотря на внесение шума. Следовательно, целевая функция: $begin{cases}begin{aligned}hat{J}_{boldsymbol{W}}&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[(hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})-y)^2]quadtextbf{footnotesize{---公式2}}\&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[hat{y}_{epsilon_{boldsymbol{W}}}^2(boldsymbol{x})-2yhat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})+y^2]quadtextbf{footnotesize{---公式3}}end{aligned}end{cases}$
для маленьких $η$ , минимизируя взвешенный шум (дисперсия равна $η я$ )из $Дж.$ Эквивалент минимизации дополнительного члена регуляризации $J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2right]$ 。
Эта форма регуляризации побуждает параметры входить в области пространства параметров, где небольшие отклонения в весах оказывают относительно небольшое влияние на выходные данные. Другими словами, это перемещает модель в область, которая относительно нечувствительна к небольшим изменениям весов, и найденные точки являются не просто точками минимума, а точками минимума, окруженными плоскими областями (Hochreiter and Schmidhuber, 1995).
В упрощенной линейной регрессии (например, $hat{y}(жирныйсимвол{x})=жирныйсимвол{w}^верхнийжирныйсимвол{x}+b$ , обычный член вырождается в: $этаматbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]$ , который не имеет ничего общего с параметрами функции, поэтому не будет $что{J}_w$ Вносит вклад в градиенты параметров модели.

Внедрить шум в выходную цель

Большинство наборов данных $у$ Есть ошибки в этикетках.когда $у$ неправильно максимизировать $вот г п (у ∣ Икс)$ было бы вредно.
Один из способов предотвратить это — явно смоделировать шум на метках.
- Например, можно предположить, что для некоторой небольшой константы $ϵ$ , этикетка тренировочного набора $у$ Вероятность оказаться правым равна $1 - ϵ$ , любая другая возможная метка может быть правильной.
- Это предположение можно легко объединить аналитически с функцией стоимости без явного отбора зашумленных выборок.
- Например,сглаживание меток(сглаживание меток) на основе $к$ вывод $софтмакс$ функция, которая относится к четкой классификации $0$ и $1$ Заменить $ϵ k − 1 displaystylefrac{epsilon}{k-1}$ и $1 - ϵ$ , чтобы регуляризировать модель.
На выходе этих неточных целей можно использовать стандартную перекрестную энтропийную потерю.использовать $софтмакс$ Изучение функций с максимальной вероятностью и явные цели могут никогда не сойтись - $софтмакс$ Функции никогда не могут по-настоящему предсказать $0$ вероятность или $1$ вероятности, поэтому он продолжает изучать все большие и большие веса, делая прогнозы все более экстремальными. Использование других стратегий регуляризации, таких как уменьшение веса, может предотвратить это. Преимущество сглаживания меток заключается в том, что модель не может использовать однозначные вероятности, не препятствуя правильной классификации. Эта стратегия используется с 1980-х годов и продолжает занимать видное место в современных нейронных сетях (Szegedy et al., 2015).

Подведем итог

Повышение устойчивости к шуму при глубоком обучении является ключом к обеспечению стабильной работы модели в реальных условиях. С помощью ряда инновационных технических средств, таких как улучшение данных, обучение введению шума, оптимизация структуры модели и т. д., мы можем эффективно улучшить устойчивость модели к шуму и точность распознавания. Эти усилия не только способствуют дальнейшему развитию технологий глубокого обучения, но также предлагают более надежные и эффективные решения для практических приложений в распознавании речи, распознавании изображений, обработке естественного языка и других областях.
В будущем, по мере углубления исследований и постоянного развития технологий, у нас есть основания полагать, что устойчивость к помехам моделей глубокого обучения будет и дальше улучшаться, что приведет к революционным изменениям во многих областях.

Возврат прошлого контента

Технология регуляризации в расширении набора данных глубокого обучения

Обмен технологиями