Notas de estudio de regresión lineal múltiple de aprendizaje profundo

2024-07-12

Directorio de artículos

- Características multidimensionales

Características multidimensionales

Variables y términos

Atributo de columna x_yo	Número de atributos n	$X$ ⁽ⁱ⁾vector fila	un cierto valor $vec{x}_j^i$ Arriba y abajo
media μ	Estandarización	Desviación estándar σ	sigma（σ）

fórmula

$el$ = [en₁ el₂ el₃ …]
$X$ = [x₁ X₂ X₃ …]

$f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + b$

regresión lineal múltiple

import numpy
f = np.dot(w, x) + b
1
2

Nota: es muy rápido cuando n es grande (procesamiento paralelo)

método de ecuación normal

Más de 1000 es ineficiente
No se puede generalizar a otros algoritmos como la regresión logística, las redes neuronales u otros.
sin iteración

$w_n = w_n - αdfrac{1}{m} sumalímites_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}$

$α{dfrac{1}{m}}sumlimits_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})$

La ponderación correspondiente a un rango mayor de variables independientes tiende a ser menor, y la ponderación correspondiente a un rango menor de variables independientes tiende a ser mayor.

Normalización de la media

Divida por el valor máximo del rango para encontrar el peso versus [0, 1] de la variable independiente

Abscisa: $x_1 = dfrac{x_1-μ_1}{2000-300}$ Eje Y: $x_2 = dfrac{x_2 - μ_2}{5-0}$

$x_1le0,82$ $x_2le0,54$

Normalización de la puntuación Z

$x_1le2000$ $x_2le5$

$dfrac{x_1-μ_1}{σ_1}$ $x_1le3,1$

Intente mantener los valores de todas las características dentro de un rango similar mediante el escalado, de modo que el impacto de sus cambios en los valores predichos sea cercano a (-3,3)

Si la función de costo J se vuelve grande, significa que el tamaño del paso (tasa de aprendizaje) es inapropiado o que el código es incorrecto.

Insertar descripción de la imagen aquí

Nota: El número de iteraciones varía de una máquina a otra.

Además de dibujar curvas para determinar el punto de iteración, también se pueden utilizar pruebas de convergencia automática.
Sea ε igual $10^{-3}$ , si la disminución de J es menor que este pequeño número, se considera convergente.

Establecer una tasa de aprendizaje adecuada

Al realizar la prueba, puede establecer un valor muy pequeño para ver si J disminuye.
La tasa de aprendizaje durante la iteración no debe ser ni demasiado grande ni demasiado pequeña.
Cada vez que * 3 durante la prueba, elija una tasa de aprendizaje lo más grande posible o ligeramente menor que un valor razonable

Ingeniería de características

Cree ingeniería de funciones mediante transformación o combinación para brindar más opciones.

$f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+b$

Nota: La regresión polinómica se puede utilizar para ajuste lineal y no lineal.

Compartir tecnología