Compartir tecnología

Notas de estudio de regresión lineal múltiple de aprendizaje profundo

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Características multidimensionales

Variables y términos

Atributo de columna xyoNúmero de atributos n x ⃗ vec{x}X (i)vector filaun cierto valor x ⃗ ji vec{x}_j^iX yoiArriba y abajo
media μEstandarizaciónDesviación estándar σsigma(σ)

fórmula

w ⃗ vec{w}el = [en1 el2 el3 …]
x ⃗ vec{x}X = [x1 X2 X3 …]

fw ⃗ , b ( x ⃗ ) = w ⃗ ∗ x ⃗ + b = w 1 x 1 + w 2 x 2 + … + wnxn + b f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + bFel ,b(X )=el X +b=el1X1+el2X2++elnorteorteorteorteorteXnorteorteorteorteorte+b

regresión lineal múltiple

import numpy
f = np.dot(w, x) + b
  • 1
  • 2

Nota: es muy rápido cuando n es grande (procesamiento paralelo)

método de ecuación normal

  1. Más de 1000 es ineficiente
  2. No se puede generalizar a otros algoritmos como la regresión logística, las redes neuronales u otros.
  3. sin iteración

wn = wn − α 1 m ∑ i = 1 mfw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) xn ( i ) w_n = w_n - αdfrac{1}{m} sumalímites_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}elnorteorteorteorteorte=elnorteorteorteorteorteαmetroetroetroetro1i=1metroetroetroetroFel ,b(X (i)y(i))Xnorteorteorteorteorte(i)

b = b − α 1 m ∑ i = 1 m ( fw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) b = b - α{dfrac{1}{m}}sumlimits_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})b=bαmetroetroetroetro1i=1metroetroetroetro(Fel ,b(X (i)y(i))

La ponderación correspondiente a un rango mayor de variables independientes tiende a ser menor, y la ponderación correspondiente a un rango menor de variables independientes tiende a ser mayor.

Normalización de la media

Divida por el valor máximo del rango para encontrar el peso versus [0, 1] de la variable independiente

Abscisa: x 1 = x 1 − μ 1 2000 − 300 x_1 = dfrac{x_1-μ_1}{2000-300}X1=2000300X1μ1 Eje Y: x2 = x2 − μ2 5 − 0 x_2 = dfrac{x_2 - μ_2}{5-0}X2=50X2μ2

− 0,18 ≤ x 1 ≤ 0,82 -0,18le x_1le0,820.18X10.82 − 0,46 ≤ x 2 ≤ 0,54 -0,46le x_2le0,540.46X20.54

Normalización de la puntuación Z

300 ≤ x 1 ≤ 2000 300le x_1le2000300X12000 0 ≤ x 2 ≤ 5 0le x_2le50X25

x 1 = x 1 − μ 1 σ 1 x1 = dfrac{x_1-μ_1}{σ_1}X1=σ1X1μ1 − 0,67 ≤ x 1 ≤ 3,1 -0,67le x_1le3,10.67X13.1

Intente mantener los valores de todas las características dentro de un rango similar mediante el escalado, de modo que el impacto de sus cambios en los valores predichos sea cercano a (-3,3)

Si la función de costo J se vuelve grande, significa que el tamaño del paso (tasa de aprendizaje) es inapropiado o que el código es incorrecto.

Insertar descripción de la imagen aquí

Nota: El número de iteraciones varía de una máquina a otra.

Además de dibujar curvas para determinar el punto de iteración, también se pueden utilizar pruebas de convergencia automática.
Sea ε igual 1 0 − 3 10^{-3} 103, si la disminución de J es menor que este pequeño número, se considera convergente.

Establecer una tasa de aprendizaje adecuada

  1. Al realizar la prueba, puede establecer un valor muy pequeño para ver si J disminuye.
  2. La tasa de aprendizaje durante la iteración no debe ser ni demasiado grande ni demasiado pequeña.
  3. Cada vez que * 3 durante la prueba, elija una tasa de aprendizaje lo más grande posible o ligeramente menor que un valor razonable

Ingeniería de características

Cree ingeniería de funciones mediante transformación o combinación para brindar más opciones.

fw ⃗ , b ( x ⃗ ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + b f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+bFel ,b(X )=el1X1+el2X2+el3X3+b

Nota: La regresión polinómica se puede utilizar para ajuste lineal y no lineal.