Com o vigoroso desenvolvimento da aprendizagem profunda, o desempenho e a capacidade de generalização dos modelos tornaram-se o foco dos pesquisadores. No entanto, os dados em aplicações práticas são frequentemente acompanhados por vários ruídos. Esses ruídos não se originam apenas de limitações de hardware no processo de aquisição de dados, mas também podem ser introduzidos por fatores como interferência ambiental e erros de transmissão. A existência de ruído afeta seriamente o efeito de treinamento e a precisão da previsão dos modelos de aprendizagem profunda, especialmente em tarefas como reconhecimento de fala e classificação de imagens. Portanto, melhorar a robustez do ruído dos modelos de aprendizagem profunda, ou seja, melhorar o desempenho estável e as capacidades de reconhecimento do modelo em ambientes ruidosos, tornou-se uma direção importante da pesquisa atual. Ao projetar algoritmos de pré-processamento de dados mais eficazes, otimizar estruturas de modelos e introduzir treinamento aprimorado com ruído e outros meios técnicos, a resistência dos modelos de aprendizagem profunda ao ruído pode ser significativamente melhorada, promovendo assim sua aplicação em cenários mais complexos.
Robustez de ruído
existirTecnologia de regularização no aprimoramento do conjunto de dados de aprendizagem profunda inspiraram a aplicação de ruído à entrada como uma estratégia de aumento de conjunto de dados. Para alguns modelos, adicionar ruído com variância mínima à entrada do modelo equivale a adicionar uma penalidade de norma aos pesos (Bishop, 1995a,b). Em geral, a injeção de ruído é muito mais poderosa do que simplesmente reduzir parâmetros, especialmente quando o ruído é adicionado a unidades ocultas.Adicionar ruído a unidades ocultas é um tópico importante que merece ser discutido。
outroO ruído é usado em um modelo regularizado adicionando-o aos pesos . Esta técnica é usada principalmente em redes neurais recorrentes (Jim et al., 1996; Graves, 2011). Isto pode ser interpretado como uma implementação estocástica da inferência Bayesiana sobre os pesos. Usar uma abordagem bayesiana para o processo de aprendizagem trata os pesos como incertos, e essa incerteza pode ser representada por uma distribuição de probabilidade. Adicionar ruído aos pesos é uma forma estocástica prática de refletir essa incerteza.
Sob certas suposições, o ruído aplicado aos pesos pode ser interpretado como equivalente a formas mais tradicionais de regularização, incentivando a estabilidade da função a ser aprendida.
Estudamos o caso de regressão, ou seja, treinar um conjunto de funcionalidades x símbolo em negrito {x}xfunção mapeada para um escalar y ^ ( x ) chapéu{y}(símbolo em negrito{x})e^(x)e use a função de custo de mínimos quadrados para medir o valor de previsão do modelo e ^ chapéu{e}e^com valor verdadeiro aaaeerro: J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —Fórmula 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{tamanho da nota de rodapé{---Fórmula 1}}Eu=Ep(x,e)[(e^(x)−e)2]—Fórmula1
O conjunto de treinamento contém milímetroseuExemplos de anotação { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(símbolo em negrito{x}^{(i)},y^{(i)}),pontos,(símbolo em negrito{x}^{(m)},y^{(m)})}{(x(eu),e(eu)),…,(x(eu),e(eu))}
Agora assumimos que em cada representação de entrada uma perturbação aleatória dos pesos da rede é adicionada ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(símbolo em negrito{epsilon};0,etasímbolo em negrito{I})ϵc∼Não(ϵ;0,ηEU)Imagine que temos um padrão eueucamada Texto MLP {MLP}MLP .Denotamos o modelo de perturbação como y ^ ϵ W ( x ) chapéu{y}_{epsilon_{símbolo em negrito{W}}}(símbolo em negrito{x})e^ϵC(x)。
Estamos interessados em reduzir o quadrado do erro de saída da rede apesar da injeção de ruído. Portanto a função objetivo é: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Fórmula 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x) − 2 yy ^ ϵ W (x) + y 2] —Fórmula 3
{Eu^C=Ep(x,e,ϵC)[(e^ϵC(x)−e)2]—Fórmula2=Ep(x,e,ϵC)[e^ϵC2(x)−2ee^ϵC(x)+e2]—Fórmula3
para pequeno o etaη, minimizando o ruído ponderado (a variância é η Eu símbolo etabold{I}ηEU)de JJEuEquivalente a minimizar o prazo adicional de regularização J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}esquerda[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2direita]Eu:ηEp(x,e)[∥∇Ce^(x)∥2]。
Esta forma de regularização incentiva os parâmetros a entrarem em regiões do espaço de parâmetros onde pequenas perturbações nos pesos têm relativamente pouco impacto na saída. Por outras palavras, empurra o modelo para uma região que é relativamente insensível a pequenas mudanças nos pesos, e os pontos encontrados não são apenas pontos mínimos, mas pontos mínimos rodeados por áreas planas (Hochreiter e Schmidhuber, 1995).
Na regressão linear simplificada (por exemplo, y ^ ( x ) = w ⊤ x + b chapéu{y}(símbolo em negrito{x})=símbolo em negrito{w}^toposímbolo em negrito{x}+be^(x)=c⊤x+b, o termo regular degenera em: η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηEp(x)[∥x∥2], que não tem nada a ver com os parâmetros da função, portanto não será J ^ o que{J}_wEu^cContribui para os gradientes dos parâmetros do modelo.
Injetar ruído no alvo de saída
A maioria dos conjuntos de dados aaae Existem alguns erros nos rótulos.quando aaaeé errado maximizar log p ( y ∣ x ) log p(ymidboldsymbol{x})eisgp(e∣x)seria prejudicial.
Uma maneira de evitar isso é modelar explicitamente o ruído nas etiquetas.
Por exemplo, podemos assumir que para alguma pequena constante ϵ épsilonϵ, rótulo do conjunto de treinamento aaaeA probabilidade de estar certo é 1 − ϵ 1-épsilon1−ϵ, qualquer outro rótulo possível pode estar correto.
Esta suposição pode ser facilmente combinada analiticamente com a função de custo sem tomar explicitamente amostras ruidosas.
Por exemplo,suavização de rótulo(suavização de rótulo) com base em kkouma saída texto softmax{softmax}Softmaxfunção, que se refere a uma classificação clara
0
0
0e
1
1
1Substituir com ϵ k − 1 estilo de exibiçãofrac{epsilon}{k-1}o−1ϵe 1 − ϵ 1-épsilon1−ϵ, para regularizar o modelo.
A perda de entropia cruzada padrão pode ser usada na saída desses alvos não exatos.usar texto softmax{softmax}SoftmaxA aprendizagem de máxima probabilidade de funções e objetivos explícitos pode nunca convergir - texto softmax{softmax}SoftmaxAs funções nunca podem realmente prever
0
0
0probabilidade ou
1
1
1 probabilidade, por isso continua a aprender pesos cada vez maiores, tornando as previsões mais extremas. O uso de outras estratégias de regularização, como a redução de peso, pode evitar isso. A suavização de rótulos tem a vantagem de evitar que o modelo busque probabilidades inequívocas sem prejudicar a classificação correta. Esta estratégia tem sido usada desde a década de 1980 e continua a ter destaque nas redes neurais modernas (Szegedy et al., 2015).
Resumir
Melhorar a robustez do ruído na aprendizagem profunda é fundamental para garantir que o modelo funcione de forma estável em ambientes do mundo real. Através de uma série de meios técnicos inovadores, como aprimoramento de dados, treinamento de injeção de ruído, otimização da estrutura do modelo, etc., podemos efetivamente melhorar a tolerância do modelo ao ruído e a precisão do reconhecimento. Estes esforços não só promovem o desenvolvimento da tecnologia de aprendizagem profunda, mas também trazem soluções mais fiáveis e eficientes para aplicações práticas em reconhecimento de voz, reconhecimento de imagem, processamento de linguagem natural e outros campos.
No futuro, com o aprofundamento da investigação e o avanço contínuo da tecnologia, temos razões para acreditar que a robustez do ruído dos modelos de aprendizagem profunda será melhorada, trazendo mudanças revolucionárias a mais campos.