Deep LearningDeepLearning Studio di regressione lineare multipla Notes

Apprendimento profondoDeepLearningAppunti sullo studio della regressione lineare multipla

2024-07-12

Elenco degli articoli

- Caratteristiche multidimensionali

Caratteristiche multidimensionali

Variabili e termini

Attributo della colonna x_J	Numero di attributi n	$X$ ^(io)vettore di riga	un certo valore $vec{x}_j^i$ Su e giù
significa μ	standardizzazione	Deviazione standard σ	sigma（σ）

formula

$io$ = [la₁ io₂ io₃ …]
$X$ = [x₁ X₂ X₃ …]

$f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + b$

regressione lineare multipla

import numpy
f = np.dot(w, x) + b
1
2

Nota: è molto veloce quando n è grande (elaborazione parallela)

metodo delle equazioni normali

Più di 1000 è inefficiente
Non può essere generalizzato ad altri algoritmi come la regressione logistica, le reti neurali o altri.
nessuna iterazione

$w_n = w_n - αdfrac{1}{m} sumlimits_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}$

$α{dfrac{1}{m}}sommalimiti_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})$

Il peso corrispondente a un intervallo più ampio di variabili indipendenti tende ad essere inferiore, mentre il peso corrispondente a un intervallo più ristretto di variabili indipendenti tende ad essere maggiore.

Normalizzazione media

Dividere per il valore massimo dell'intervallo per trovare il peso rispetto a [0, 1] della variabile indipendente

Ascissa: $x_1 = dfrac{x_1-μ_1}{2000-300}$ Asse Y: $x_2 = dfrac{x_2 - μ_2}{5-0}$

$x_1le0,82$ $x_2le0,54$

Normalizzazione del punteggio Z

$x_1le2000$ $x_2le5$

$dfrac{x_1-μ_1}{σ_1}$ $x_1le3,1$

Cercare di mantenere i valori di tutte le caratteristiche entro un intervallo simile attraverso il ridimensionamento, in modo che l'impatto delle loro modifiche sui valori previsti sia vicino a (-3,3)

Se la funzione di costo J diventa grande, significa che la dimensione del passo (tasso di apprendimento) è inappropriata o il codice è sbagliato.

Inserisci qui la descrizione dell'immagine

Nota: il numero di iterazioni varia da macchina a macchina

Oltre a disegnare curve per determinare il punto di iterazione, è possibile utilizzare anche il test di convergenza automatico
Sia ε uguale $10^{-3}$ , se la diminuzione di J è inferiore a questo piccolo numero, si considera convergente.

Imposta un tasso di apprendimento appropriato

Durante il test, puoi impostare un valore molto piccolo per vedere se J diminuisce.
Il tasso di apprendimento durante l'iterazione non dovrebbe essere né troppo grande né troppo piccolo.
Ogni volta * 3 durante il test, scegli una velocità di apprendimento quanto più ampia possibile o leggermente inferiore a un valore ragionevole

Ingegneria delle caratteristiche

Costruisci l'ingegneria delle funzionalità attraverso la trasformazione o la combinazione per offrire più opzioni

$f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+b$

Nota: la regressione polinomiale può essere utilizzata per l'adattamento lineare e non lineare

Condivisione della tecnologia