С бурным развитием глубокого обучения производительность и способность моделей к обобщению оказались в центре внимания исследователей. Однако данные в практических приложениях часто сопровождаются различными шумами. Эти шумы возникают не только из-за аппаратных ограничений в процессе сбора данных, но также могут быть вызваны такими факторами, как помехи окружающей среды и ошибки передачи. Существование шума серьезно влияет на эффект обучения и точность прогнозирования моделей глубокого обучения, особенно в таких задачах, как распознавание речи и классификация изображений. Поэтому повышение устойчивости к шуму моделей глубокого обучения, то есть повышение стабильной производительности модели и возможностей распознавания в шумной среде, стало важным направлением текущих исследований. Разработав более эффективные алгоритмы предварительной обработки данных, оптимизировав структуры моделей и внедрив обучение с усилением шума и другие технические средства, можно значительно повысить устойчивость моделей глубокого обучения к шуму, тем самым способствуя их применению в более сложных сценариях.
Шумоустойчивость
существоватьТехнология регуляризации в расширении набора данных глубокого обучения вдохновили на применение шума для ввода в качестве стратегии увеличения набора данных. Для некоторых моделей добавление шума с минимальной дисперсией к входным данным модели эквивалентно добавлению штрафа за норму к весам (Bishop, 1995a,b). В общем, введение шума гораздо эффективнее, чем простое уменьшение параметров, особенно когда шум добавляется к скрытым модулям.Добавление шума к скрытым объектам — важная тема, достойная отдельного обсуждения.。
другойШум используется в регуляризованной модели путем добавления его к весам. . Этот метод в основном используется в рекуррентных нейронных сетях (Jim et al., 1996; Graves, 2011). Это можно интерпретировать как стохастическую реализацию байесовского вывода о весах. При использовании байесовского подхода к процессу обучения веса рассматриваются как неопределенные, и эта неопределенность может быть представлена распределением вероятностей. Добавление шума к весам — это практический стохастический способ отразить эту неопределенность.
При определенных предположениях шум, применяемый к весам, можно интерпретировать как эквивалент более традиционных форм регуляризации, что способствует стабильности изучаемой функции.
Мы изучаем случай регрессии, то есть обучения набора признаков x жирныйсимвол{x}Иксфункция, сопоставленная со скаляром y ^ ( x ) шляпа{y}(жирный символ{x})у^(Икс)и используйте функцию стоимости наименьших квадратов для измерения значения прогноза модели y ^ шляпа{y}у^с истинной ценностью ггуошибка: J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] — Формула 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Формула 1}}Дж.=Эп(Икс,у)[(у^(Икс)−у)2]—формула1
Обучающий набор содержит мммПримеры аннотаций { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(жирный символ{x}^{(i)},y^{(i)}),точки,(жирный символ{x}^{(m)},y^{(m)})}{(Икс(я),у(я)),…,(Икс(м),у(м))}
Теперь предположим, что к каждому входному представлению добавляется случайное возмущение весов сети. ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵж∼Н(ϵ;0,ηя)Представьте, что у нас есть стандарт лллслой Текст МЛП{MLP}МЛП .Обозначим модель возмущений как y ^ ϵ W ( x ) шляпа{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})у^ϵВт(Икс)。
Мы заинтересованы в уменьшении квадрата ошибки вывода сети, несмотря на внесение шума. Следовательно, целевая функция: { J ^ W знак равно E п ( Икс , y , ϵ W ) [ ( y ^ ϵ W ( Икс ) - y ) 2 ] — Формула 2 = E п ( Икс , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] — Формула 3
{Дж.^Вт=Эп(Икс,у,ϵВт)[(у^ϵВт(Икс)−у)2]—формула2=Эп(Икс,у,ϵВт)[у^ϵВт2(Икс)−2уу^ϵВт(Икс)+у2]—формула3
для маленьких η этаη, минимизируя взвешенный шум (дисперсия равна η I этаболдсимвол{I}ηя)из ДжДжДж.Эквивалент минимизации дополнительного члена регуляризации J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2right]Дж.:ηЭп(Икс,у)[∥∇Вту^(Икс)∥2]。
Эта форма регуляризации побуждает параметры входить в области пространства параметров, где небольшие отклонения в весах оказывают относительно небольшое влияние на выходные данные. Другими словами, это перемещает модель в область, которая относительно нечувствительна к небольшим изменениям весов, и найденные точки являются не просто точками минимума, а точками минимума, окруженными плоскими областями (Hochreiter and Schmidhuber, 1995).
В упрощенной линейной регрессии (например, y ^ ( x ) = w ⊤ x + b hat{y}(жирныйсимвол{x})=жирныйсимвол{w}^верхнийжирныйсимвол{x}+bу^(Икс)=ж⊤Икс+б, обычный член вырождается в: η E p ( x ) [ ∥ x ∥ 2 ] этаматbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηЭп(Икс)[∥Икс∥2], который не имеет ничего общего с параметрами функции, поэтому не будет J ^ что{J}_wДж.^жВносит вклад в градиенты параметров модели.
Внедрить шум в выходную цель
Большинство наборов данных ггу Есть ошибки в этикетках.когда ггунеправильно максимизировать log p ( y ∣ x ) log p(ymidboldsymbol{x})вотгп(у∣Икс)было бы вредно.
Один из способов предотвратить это — явно смоделировать шум на метках.
Например, можно предположить, что для некоторой небольшой константы ϵ эпсилонϵ, этикетка тренировочного набора ггуВероятность оказаться правым равна 1 − ϵ 1-эпсилон1−ϵ, любая другая возможная метка может быть правильной.
Это предположение можно легко объединить аналитически с функцией стоимости без явного отбора зашумленных выборок.
Например,сглаживание меток(сглаживание меток) на основе ккквывод текст softmax{softmax}софтмаксфункция, которая относится к четкой классификации
0
0
0и
1
1
1Заменить ϵ k − 1 displaystylefrac{epsilon}{k-1}к−1ϵи 1 − ϵ 1-эпсилон1−ϵ, чтобы регуляризировать модель.
На выходе этих неточных целей можно использовать стандартную перекрестную энтропийную потерю.использовать текст softmax{softmax}софтмаксИзучение функций с максимальной вероятностью и явные цели могут никогда не сойтись - текст softmax{softmax}софтмаксФункции никогда не могут по-настоящему предсказать
0
0
0вероятность или
1
1
1 вероятности, поэтому он продолжает изучать все большие и большие веса, делая прогнозы все более экстремальными. Использование других стратегий регуляризации, таких как уменьшение веса, может предотвратить это. Преимущество сглаживания меток заключается в том, что модель не может использовать однозначные вероятности, не препятствуя правильной классификации. Эта стратегия используется с 1980-х годов и продолжает занимать видное место в современных нейронных сетях (Szegedy et al., 2015).
Подведем итог
Повышение устойчивости к шуму при глубоком обучении является ключом к обеспечению стабильной работы модели в реальных условиях. С помощью ряда инновационных технических средств, таких как улучшение данных, обучение введению шума, оптимизация структуры модели и т. д., мы можем эффективно улучшить устойчивость модели к шуму и точность распознавания. Эти усилия не только способствуют дальнейшему развитию технологий глубокого обучения, но также предлагают более надежные и эффективные решения для практических приложений в распознавании речи, распознавании изображений, обработке естественного языка и других областях.
В будущем, по мере углубления исследований и постоянного развития технологий, у нас есть основания полагать, что устойчивость к помехам моделей глубокого обучения будет и дальше улучшаться, что приведет к революционным изменениям во многих областях.