Deep LearningDeepLearning Étude de régression linéaire multiple Notes

Deep LearningDeepLearning Notes d'étude sur la régression linéaire multiple

2024-07-12

Annuaire d'articles

- Caractéristiques multidimensionnelles

Caractéristiques multidimensionnelles

Variables et termes

Attribut de colonne x_j	Nombre d'attributs n	$X$ ^(je)vecteur de ligne	une certaine valeur $vec{x}_j^i$ Haut et bas
moyenne μ	standardisation	Écart type σ	sigma (σ)

formule

$m$ = [w₁ m₂ m₃ …]
$X$ = [x₁ X₂ X₃ …]

$f_{vec{w},b} (vec{x}) = vec{w} * vec{x} + b = w_1x_1 + w_2x_2 + … + w _nx_n + b$

la régression linéaire multiple

import numpy
f = np.dot(w, x) + b
1
2

Remarque : C'est très rapide lorsque n est grand (traitement parallèle)

méthode d'équation normale

Plus de 1000 est inefficace
Elle ne peut être généralisée à d’autres algorithmes comme la régression logistique, les réseaux de neurones ou autres.
pas d'itération

$w_n = w_n - αdfrac{1}{m} sumlimits_{i=1}^mf_{vec{w},b}(vec{x}^{(i)}-y^{(i)})x_n^{(i)}$

$α{dfrac{1}{m}}sommelimites_{i=1}^m(f_{vec{w},b}(vec{x}^{(i)}-y^{(i)})$

Les poids correspondant aux variables indépendantes dans une plage plus large ont tendance à être plus petits, et les poids correspondant aux variables indépendantes dans une plage plus petite ont tendance à être plus grands.

Normalisation moyenne

Divisez par la valeur maximale de la plage pour trouver le poids par rapport à [0, 1] de la variable indépendante

Abscisse: $x_1 = dfrac{x_1-μ_1}{2000-300}$ Axe Y : $x_2 = dfrac{x_2 - μ_2}{5-0}$

$x_1le0,82$ $x_2le0,54$

Normalisation du score Z

$x_1le2000$ $x_2le5$

$dfrac{x_1-μ_1}{σ_1}$ $x_1le3,1$

Essayez de maintenir les valeurs de toutes les caractéristiques dans une plage similaire grâce à la mise à l'échelle, de sorte que l'impact de leurs modifications sur les valeurs prédites soit proche de (-3,3)

Si la fonction de coût J devient grande, cela signifie que la taille du pas (taux d'apprentissage) est inappropriée ou que le code est erroné.

Insérer la description de l'image ici

Remarque : le nombre d'itérations varie d'une machine à l'autre

En plus de dessiner des courbes pour déterminer le point d'itération, des tests de convergence automatiques peuvent également être utilisés.
Soit ε égal $10^{-3}$ , si la diminution de J est inférieure à ce petit nombre, on considère qu'elle a convergé.

Définir un taux d'apprentissage approprié

Lors du test, vous pouvez définir une très petite valeur pour voir si J diminue.
Le taux d'apprentissage pendant l'itération ne doit être ni trop élevé ni trop faible.
A chaque fois *3 lors des tests, choisissez un taux d'apprentissage aussi grand que possible, ou légèrement inférieur à une valeur raisonnable

Ingénierie des fonctionnalités

Créer une ingénierie de fonctionnalités par transformation ou combinaison pour offrir plus d'options

$f_{vec{w},b}(vec{x}) = w_1x_1+w_2x_2+w_3x_3+b$

Remarque : La régression polynomiale peut être utilisée pour un ajustement linéaire et non linéaire.

Partage de technologie