Condivisione della tecnologia

Apprendimento profondoDeepLearningAppunti sullo studio della regressione lineare multipla

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Caratteristiche multidimensionali

Variabili e termini

Attributo della colonna xJNumero di attributi n x ⃗ vettore{x}X (io)vettore di rigaun certo valore x ⃗ ji vec{x}_j^iX JiooooooooSu e giù
significa μstandardizzazioneDeviazione standard σsigma(σ)

formula

w ⃗ vettore{w}io = [la1 io2 io3 …]
x ⃗ vettore{x}X = [x1 X2 X3 …]

fw ⃗ , b ( x ⃗ ) = w ⃗ ∗ x ⃗ + b = w 1 x 1 + w 2 x 2 + … + wnxn + b f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + bFio ,B(X )=io X +B=io1X1+io2X2++ioNXN+B

regressione lineare multipla

import numpy
f = np.dot(w, x) + b
  • 1
  • 2

Nota: è molto veloce quando n è grande (elaborazione parallela)

metodo delle equazioni normali

  1. Più di 1000 è inefficiente
  2. Non può essere generalizzato ad altri algoritmi come la regressione logistica, le reti neurali o altri.
  3. nessuna iterazione

wn = wn − α 1 m ∑ i = 1 mfw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) xn ( i ) w_n = w_n - αdfrac{1}{m} sumlimits_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}ioN=ioNαM1ioooooooo=1MFio ,B(X (ioooooooo)e(ioooooooo))XN(ioooooooo)

b = b − α 1 m ∑ i = 1 m ( fw ⃗ , b ( x ⃗ ( i ) − y ( i ) ) b = b - α{dfrac{1}{m}}sommalimiti_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})B=BαM1ioooooooo=1M(Fio ,B(X (ioooooooo)e(ioooooooo))

Il peso corrispondente a un intervallo più ampio di variabili indipendenti tende ad essere inferiore, mentre il peso corrispondente a un intervallo più ristretto di variabili indipendenti tende ad essere maggiore.

Normalizzazione media

Dividere per il valore massimo dell'intervallo per trovare il peso rispetto a [0, 1] della variabile indipendente

Ascissa: x 1 = x 1 − μ 1 2000 − 300 x_1 = dfrac{x_1-μ_1}{2000-300}X1=2000300X1μ1 Asse Y: x 2 = x 2 − μ 2 5 − 0 x_2 = dfrac{x_2 - μ_2}{5-0}X2=50X2μ2

− 0,18 ≤ x 1 ≤ 0,82 -0,18le x_1le0,820.18X10.82 − 0,46 ≤ x 2 ≤ 0,54 -0,46le x_2le0,540.46X20.54

Normalizzazione del punteggio Z

300 ≤ x 1 ≤ 2000 300le x_1le2000300X12000 0 ≤ x 2 ≤ 5 0le x_2le50X25

x 1 = x 1 − μ 1 σ 1 x1 = dfrac{x_1-μ_1}{σ_1}X1=σ1X1μ1 − 0,67 ≤ x 1 ≤ 3,1 -0,67le x_1le3,10.67X13.1

Cercare di mantenere i valori di tutte le caratteristiche entro un intervallo simile attraverso il ridimensionamento, in modo che l'impatto delle loro modifiche sui valori previsti sia vicino a (-3,3)

Se la funzione di costo J diventa grande, significa che la dimensione del passo (tasso di apprendimento) è inappropriata o il codice è sbagliato.

Inserisci qui la descrizione dell'immagine

Nota: il numero di iterazioni varia da macchina a macchina

Oltre a disegnare curve per determinare il punto di iterazione, è possibile utilizzare anche il test di convergenza automatico
Sia ε uguale 1 0 − 3 10^{-3} 103, se la diminuzione di J è inferiore a questo piccolo numero, si considera convergente.

Imposta un tasso di apprendimento appropriato

  1. Durante il test, puoi impostare un valore molto piccolo per vedere se J diminuisce.
  2. Il tasso di apprendimento durante l'iterazione non dovrebbe essere né troppo grande né troppo piccolo.
  3. Ogni volta * 3 durante il test, scegli una velocità di apprendimento quanto più ampia possibile o leggermente inferiore a un valore ragionevole

Ingegneria delle caratteristiche

Costruisci l'ingegneria delle funzionalità attraverso la trasformazione o la combinazione per offrire più opzioni

fw ⃗ , b ( x ⃗ ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + b f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+bFio ,B(X )=io1X1+io2X2+io3X3+B

Nota: la regressione polinomiale può essere utilizzata per l'adattamento lineare e non lineare