Обмен технологиями

Технология регуляризации в глубоком обучении — шумоустойчивость

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Предисловие

С бурным развитием глубокого обучения производительность и способность моделей к обобщению оказались в центре внимания исследователей. Однако данные в практических приложениях часто сопровождаются различными шумами. Эти шумы возникают не только из-за аппаратных ограничений в процессе сбора данных, но также могут быть вызваны такими факторами, как помехи окружающей среды и ошибки передачи. Существование шума серьезно влияет на эффект обучения и точность прогнозирования моделей глубокого обучения, особенно в таких задачах, как распознавание речи и классификация изображений. Поэтому повышение устойчивости к шуму моделей глубокого обучения, то есть повышение стабильной производительности модели и возможностей распознавания в шумной среде, стало важным направлением текущих исследований. Разработав более эффективные алгоритмы предварительной обработки данных, оптимизировав структуры моделей и внедрив обучение с усилением шума и другие технические средства, можно значительно повысить устойчивость моделей глубокого обучения к шуму, тем самым способствуя их применению в более сложных сценариях.

Шумоустойчивость

  • существоватьТехнология регуляризации в расширении набора данных глубокого обучения вдохновили на применение шума для ввода в качестве стратегии увеличения набора данных. Для некоторых моделей добавление шума с минимальной дисперсией к входным данным модели эквивалентно добавлению штрафа за норму к весам (Bishop, 1995a,b). В общем, введение шума гораздо эффективнее, чем простое уменьшение параметров, особенно когда шум добавляется к скрытым модулям.Добавление шума к скрытым объектам — важная тема, достойная отдельного обсуждения.
  • другойШум используется в регуляризованной модели путем добавления его к весам. . Этот метод в основном используется в рекуррентных нейронных сетях (Jim et al., 1996; Graves, 2011). Это можно интерпретировать как стохастическую реализацию байесовского вывода о весах. При использовании байесовского подхода к процессу обучения веса рассматриваются как неопределенные, и эта неопределенность может быть представлена ​​распределением вероятностей. Добавление шума к весам — это практический стохастический способ отразить эту неопределенность.
  • При определенных предположениях шум, применяемый к весам, можно интерпретировать как эквивалент более традиционных форм регуляризации, что способствует стабильности изучаемой функции.
  • Мы изучаем случай регрессии, то есть обучения набора признаков x жирныйсимвол{x}Иксфункция, сопоставленная со скаляром y ^ ( x ) шляпа{y}(жирный символ{x})у^(Икс)и используйте функцию стоимости наименьших квадратов для измерения значения прогноза модели y ^ шляпа{y}у^с истинной ценностью ггуошибка
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] — Формула 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Формула 1}}Дж.=Эп(Икс,у)[(у^(Икс)у)2]формула1
  • Обучающий набор содержит мммПримеры аннотаций { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(жирный символ{x}^{(i)},y^{(i)}),точки,(жирный символ{x}^{(m)},y^{(m)})}{(Икс(я),у(я)),,(Икс(м),у(м))}
  • Теперь предположим, что к каждому входному представлению добавляется случайное возмущение весов сети. ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵжН(ϵ;0,ηя)Представьте, что у нас есть стандарт лллслой Текст МЛП{MLP}МЛП .Обозначим модель возмущений как y ^ ϵ W ( x ) шляпа{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})у^ϵВт(Икс)
  • Мы заинтересованы в уменьшении квадрата ошибки вывода сети, несмотря на внесение шума. Следовательно, целевая функция: { J ^ W знак равно E п ( Икс , y , ϵ W ) [ ( y ^ ϵ W ( Икс ) - y ) 2 ] — Формула 2 = E п ( Икс , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] — Формула 3 {Дж.^Вт=Эп(Икс,у,ϵВт)[(у^ϵВт(Икс)у)2]формула2=Эп(Икс,у,ϵВт)[у^ϵВт2(Икс)2уу^ϵВт(Икс)+у2]формула3
  • для маленьких η этаη, минимизируя взвешенный шум (дисперсия равна η I этаболдсимвол{I}ηя)из ДжДжДж.Эквивалент минимизации дополнительного члена регуляризации J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2right]Дж.:ηЭп(Икс,у)[Вту^(Икс)2]
  • Эта форма регуляризации побуждает параметры входить в области пространства параметров, где небольшие отклонения в весах оказывают относительно небольшое влияние на выходные данные. Другими словами, это перемещает модель в область, которая относительно нечувствительна к небольшим изменениям весов, и найденные точки являются не просто точками минимума, а точками минимума, окруженными плоскими областями (Hochreiter and Schmidhuber, 1995).
  • В упрощенной линейной регрессии (например, y ^ ( x ) = w ⊤ x + b hat{y}(жирныйсимвол{x})=жирныйсимвол{w}^верхнийжирныйсимвол{x}+bу^(Икс)=жИкс+б, обычный член вырождается в: η E p ( x ) [ ∥ x ∥ 2 ] этаматbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηЭп(Икс)[Икс2], который не имеет ничего общего с параметрами функции, поэтому не будет J ^ что{J}_wДж.^жВносит вклад в градиенты параметров модели.

Внедрить шум в выходную цель

  • Большинство наборов данных ггу Есть ошибки в этикетках.когда ггунеправильно максимизировать log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})вотгп(уИкс)было бы вредно.
  • Один из способов предотвратить это — явно смоделировать шум на метках.
    • Например, можно предположить, что для некоторой небольшой константы ϵ эпсилонϵ, этикетка тренировочного набора ггуВероятность оказаться правым равна 1 − ϵ 1-эпсилон1ϵ, любая другая возможная метка может быть правильной.
    • Это предположение можно легко объединить аналитически с функцией стоимости без явного отбора зашумленных выборок.
    • Например,сглаживание меток(сглаживание меток) на основе ккквывод текст softmax{softmax}софтмаксфункция, которая относится к четкой классификации 0 0 0и 1 1 1Заменить ϵ k − 1 displaystylefrac{epsilon}{k-1}к1ϵи 1 − ϵ 1-эпсилон1ϵ, чтобы регуляризировать модель.
  • На выходе этих неточных целей можно использовать стандартную перекрестную энтропийную потерю.использовать текст softmax{softmax}софтмаксИзучение функций с максимальной вероятностью и явные цели могут никогда не сойтись - текст softmax{softmax}софтмаксФункции никогда не могут по-настоящему предсказать 0 0 0вероятность или 1 1 1 вероятности, поэтому он продолжает изучать все большие и большие веса, делая прогнозы все более экстремальными. Использование других стратегий регуляризации, таких как уменьшение веса, может предотвратить это. Преимущество сглаживания меток заключается в том, что модель не может использовать однозначные вероятности, не препятствуя правильной классификации. Эта стратегия используется с 1980-х годов и продолжает занимать видное место в современных нейронных сетях (Szegedy et al., 2015).

Подведем итог

  • Повышение устойчивости к шуму при глубоком обучении является ключом к обеспечению стабильной работы модели в реальных условиях. С помощью ряда инновационных технических средств, таких как улучшение данных, обучение введению шума, оптимизация структуры модели и т. д., мы можем эффективно улучшить устойчивость модели к шуму и точность распознавания. Эти усилия не только способствуют дальнейшему развитию технологий глубокого обучения, но также предлагают более надежные и эффективные решения для практических приложений в распознавании речи, распознавании изображений, обработке естественного языка и других областях.
  • В будущем, по мере углубления исследований и постоянного развития технологий, у нас есть основания полагать, что устойчивость к помехам моделей глубокого обучения будет и дальше улучшаться, что приведет к революционным изменениям во многих областях.

Возврат прошлого контента

Технология регуляризации в расширении набора данных глубокого обучения