Compartilhamento de tecnologia

Deep LearningDeepLearning Notas de estudo de regressão linear múltipla

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Recursos multidimensionais

Variáveis ​​e Termos

Atributo de coluna xeuNúmero de atributos n x ⃗ vec{x}x (eu)vetor de linhaum determinado valor x ⃗ ji vec{x}_j^ix eueuPara cima e para baixo
significa μestandardizaçãoDesvio padrão σsigma (σ)

Fórmula

c ⃗ vec{c}c = [em1 c2 c3 …]
x ⃗ vec{x}x = [x1 x2 x3 …]

fw ⃗ , b ( x ⃗ ) = w ⃗ ∗ x ⃗ + b = w 1 x 1 + w 2 x 2 + … + wnxn + b f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + bec ,b(x )=c x +b=c1x1+c2x2++cexe+b

Regressão linear múltipla

import numpy
f = np.dot(w, x) + b
  • 1
  • 2

Nota: É muito rápido quando n é grande (processamento paralelo)

método de equação normal

  1. Mais de 1000 é ineficiente
  2. Não pode ser generalizado para outros algoritmos, como regressão logística, redes neurais ou outros.
  3. sem iteração

wn = wn − α 1 m ∑ i = 1 mfw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) xn ( i ) w_n = w_n - αdfrac{1}{m} somalimits_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}ce=ceαeu1eu=1euec ,b(x (eu)e(eu))xe(eu)

b = b − α 1 m ∑ i = 1 m ( fw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) b = b - α{dfrac{1}{m}}somalimites_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})b=bαeu1eu=1eu(ec ,b(x (eu)e(eu))

O peso correspondente a uma gama maior de variáveis ​​independentes tende a ser menor, e o peso correspondente a uma gama menor de variáveis ​​independentes tende a ser maior.

Normalização média

Divida pelo valor máximo do intervalo para encontrar o peso versus [0, 1] da variável independente

Abscissa: x 1 = x 1 − μ 1 2000 − 300 x_1 = dfrac{x_1-μ_1}{2000-300}x1=2000300x1μ1 Eixo Y: x 2 = x 2 − μ 2 5 − 0 x_2 = dfrac{x_2 - μ_2}{5-0}x2=50x2μ2

− 0,18 ≤ x 1 ≤ 0,82 -0,18le x_1le0,820.18x10.82 − 0,46 ≤ x 2 ≤ 0,54 -0,46le x_2le0,540.46x20.54

Normalização do escore Z

300 ≤ x 1 ≤ 2000 300le x_1le2000300x12000 0 ≤ x 2 ≤ 5 0le x_2le50x25

x 1 = x 1 − μ 1 σ 1 x1 = dfrac{x_1-μ_1}{σ_1}x1=σ1x1μ1 − 0,67 ≤ x 1 ≤ 3,1 -0,67le x_1le3,10.67x13.1

Tente manter os valores de todos os recursos dentro de uma faixa semelhante por meio de escalonamento, para que o impacto de suas alterações nos valores previstos seja próximo de (-3,3)

Se a função de custo J ficar grande, significa que o tamanho do passo (taxa de aprendizagem) é inadequado ou o código está errado.

Insira a descrição da imagem aqui

Nota: O número de iterações varia de máquina para máquina

Além de desenhar curvas para determinar o ponto de iteração, o teste automático de convergência também pode ser usado
Seja ε igual 1 0 − 3 10^{-3} 103, se a diminuição de J for menor que este pequeno número, é considerado convergido.

Defina uma taxa de aprendizagem apropriada

  1. Ao testar, você pode definir um valor muito pequeno para ver se J diminui.
  2. A taxa de aprendizagem durante a iteração não deve ser muito grande ou muito pequena.
  3. Cada vez *3 durante o teste, escolha uma taxa de aprendizado tão grande quanto possível ou um pouco menor que um valor razoável

Engenharia de recursos

Crie engenharia de recursos por meio de transformação ou combinação para oferecer mais opções

fw ⃗ , b ( x ⃗ ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + b f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+bec ,b(x )=c1x1+c2x2+c3x3+b

Nota: A regressão polinomial pode ser usada para ajuste linear e não linear