Tecnologia de regularização em robustez de ruído de aprendizagem profunda

Tecnologia de Regularização em Aprendizado Profundo - Robustez de Ruído

2024-07-12

Prefácio

Com o vigoroso desenvolvimento da aprendizagem profunda, o desempenho e a capacidade de generalização dos modelos tornaram-se o foco dos pesquisadores. No entanto, os dados em aplicações práticas são frequentemente acompanhados por vários ruídos. Esses ruídos não se originam apenas de limitações de hardware no processo de aquisição de dados, mas também podem ser introduzidos por fatores como interferência ambiental e erros de transmissão. A existência de ruído afeta seriamente o efeito de treinamento e a precisão da previsão dos modelos de aprendizagem profunda, especialmente em tarefas como reconhecimento de fala e classificação de imagens. Portanto, melhorar a robustez do ruído dos modelos de aprendizagem profunda, ou seja, melhorar o desempenho estável e as capacidades de reconhecimento do modelo em ambientes ruidosos, tornou-se uma direção importante da pesquisa atual. Ao projetar algoritmos de pré-processamento de dados mais eficazes, otimizar estruturas de modelos e introduzir treinamento aprimorado com ruído e outros meios técnicos, a resistência dos modelos de aprendizagem profunda ao ruído pode ser significativamente melhorada, promovendo assim sua aplicação em cenários mais complexos.

Robustez de ruído

existirTecnologia de regularização no aprimoramento do conjunto de dados de aprendizagem profunda inspiraram a aplicação de ruído à entrada como uma estratégia de aumento de conjunto de dados. Para alguns modelos, adicionar ruído com variância mínima à entrada do modelo equivale a adicionar uma penalidade de norma aos pesos (Bishop, 1995a,b). Em geral, a injeção de ruído é muito mais poderosa do que simplesmente reduzir parâmetros, especialmente quando o ruído é adicionado a unidades ocultas.Adicionar ruído a unidades ocultas é um tópico importante que merece ser discutido。
outroO ruído é usado em um modelo regularizado adicionando-o aos pesos . Esta técnica é usada principalmente em redes neurais recorrentes (Jim et al., 1996; Graves, 2011). Isto pode ser interpretado como uma implementação estocástica da inferência Bayesiana sobre os pesos. Usar uma abordagem bayesiana para o processo de aprendizagem trata os pesos como incertos, e essa incerteza pode ser representada por uma distribuição de probabilidade. Adicionar ruído aos pesos é uma forma estocástica prática de refletir essa incerteza.
Sob certas suposições, o ruído aplicado aos pesos pode ser interpretado como equivalente a formas mais tradicionais de regularização, incentivando a estabilidade da função a ser aprendida.
Estudamos o caso de regressão, ou seja, treinar um conjunto de funcionalidades $x$ função mapeada para um escalar $y ^ ( x ) chapéu{y}(símbolo em negrito{x})$ e use a função de custo de mínimos quadrados para medir o valor de previsão do modelo $e ^ chapéu{e}$ com valor verdadeiro $e$ erro：
$J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{tamanho da nota de rodapé{---Fórmula 1}}$
O conjunto de treinamento contém $eu$ Exemplos de anotação $negrito{x}^{(i)},y^{(i)}),pontos,(símbolo em negrito{x}^{(m)},y^{(m)})}$
Agora assumimos que em cada representação de entrada uma perturbação aleatória dos pesos da rede é adicionada $epsilon_wsimmathcal{N}(símbolo em negrito{epsilon};0,etasímbolo em negrito{I})$ Imagine que temos um padrão $eu$ camada $MLP$ .Denotamos o modelo de perturbação como $chapéu{y}_{epsilon_{símbolo em negrito{W}}}(símbolo em negrito{x})$ 。
Estamos interessados em reduzir o quadrado do erro de saída da rede apesar da injeção de ruído. Portanto a função objetivo é: $begin{cases}begin{aligned}hat{J}_{boldsymbol{W}}&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[(hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})-y)^2]quadtextbf{footnotesize{---公式2}}\&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[hat{y}_{epsilon_{boldsymbol{W}}}^2(boldsymbol{x})-2yhat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})+y^2]quadtextbf{footnotesize{---公式3}}end{aligned}end{cases}$
para pequeno $η$ , minimizando o ruído ponderado (a variância é $η EU$ )de $Eu$ Equivalente a minimizar o prazo adicional de regularização $J:etamathbb{E}_{p(x,y)}esquerda[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2direita]$ 。
Esta forma de regularização incentiva os parâmetros a entrarem em regiões do espaço de parâmetros onde pequenas perturbações nos pesos têm relativamente pouco impacto na saída. Por outras palavras, empurra o modelo para uma região que é relativamente insensível a pequenas mudanças nos pesos, e os pontos encontrados não são apenas pontos mínimos, mas pontos mínimos rodeados por áreas planas (Hochreiter e Schmidhuber, 1995).
Na regressão linear simplificada (por exemplo, $negrito{w}^toposímbolo em negrito{x}+b$ , o termo regular degenera em: $etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]$ , que não tem nada a ver com os parâmetros da função, portanto não será $que{J}_w$ Contribui para os gradientes dos parâmetros do modelo.

Injetar ruído no alvo de saída

A maioria dos conjuntos de dados $e$ Existem alguns erros nos rótulos.quando $e$ é errado maximizar $eis g p (e ∣ x)$ seria prejudicial.
Uma maneira de evitar isso é modelar explicitamente o ruído nas etiquetas.
- Por exemplo, podemos assumir que para alguma pequena constante $ϵ$ , rótulo do conjunto de treinamento $e$ A probabilidade de estar certo é $1 - ϵ$ , qualquer outro rótulo possível pode estar correto.
- Esta suposição pode ser facilmente combinada analiticamente com a função de custo sem tomar explicitamente amostras ruidosas.
- Por exemplo,suavização de rótulo(suavização de rótulo) com base em $o$ uma saída $Softmax$ função, que se refere a uma classificação clara $0$ e $1$ Substituir com $ϵ k − 1 estilo de exibiçãofrac{epsilon}{k-1}$ e $1 - ϵ$ , para regularizar o modelo.
A perda de entropia cruzada padrão pode ser usada na saída desses alvos não exatos.usar $Softmax$ A aprendizagem de máxima probabilidade de funções e objetivos explícitos pode nunca convergir - $Softmax$ As funções nunca podem realmente prever $0$ probabilidade ou $1$ probabilidade, por isso continua a aprender pesos cada vez maiores, tornando as previsões mais extremas. O uso de outras estratégias de regularização, como a redução de peso, pode evitar isso. A suavização de rótulos tem a vantagem de evitar que o modelo busque probabilidades inequívocas sem prejudicar a classificação correta. Esta estratégia tem sido usada desde a década de 1980 e continua a ter destaque nas redes neurais modernas (Szegedy et al., 2015).

Resumir

Melhorar a robustez do ruído na aprendizagem profunda é fundamental para garantir que o modelo funcione de forma estável em ambientes do mundo real. Através de uma série de meios técnicos inovadores, como aprimoramento de dados, treinamento de injeção de ruído, otimização da estrutura do modelo, etc., podemos efetivamente melhorar a tolerância do modelo ao ruído e a precisão do reconhecimento. Estes esforços não só promovem o desenvolvimento da tecnologia de aprendizagem profunda, mas também trazem soluções mais fiáveis e eficientes para aplicações práticas em reconhecimento de voz, reconhecimento de imagem, processamento de linguagem natural e outros campos.
No futuro, com o aprofundamento da investigação e o avanço contínuo da tecnologia, temos razões para acreditar que a robustez do ruído dos modelos de aprendizagem profunda será melhorada, trazendo mudanças revolucionárias a mais campos.

Retorno de conteúdo anterior

Tecnologia de regularização no aprimoramento do conjunto de dados de aprendizagem profunda

Compartilhamento de tecnologia