Κοινή χρήση τεχνολογίας

Μηχανική εκμάθηση - Δέντρο αποφάσεων (Σημειώσεις)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Πίνακας περιεχομένων

1. Κατανόηση των δέντρων αποφάσεων

1. Εισαγωγή

2. Διαδικασία δημιουργίας δένδρων αποφάσεων

2. Δέντρο απόφασης στο sklearn

1. δέντρο.DecisionTreeClassifier (δέντρο ταξινόμησης)

(1) Βασικές παράμετροι του μοντέλου

(2) Ιδιότητες μοντέλου

(3)Διασύνδεση

2. δέντρο.DecisionTreeRegressor (δέντρο παλινδρόμησης)

3. tree.export_graphviz (εξαγωγή του δέντρου αποφάσεων που δημιουργείται σε μορφή DOT, αφιερωμένη για σχέδιο)

4. Άλλα (συμπληρωματικά)

3. Πλεονεκτήματα και μειονεκτήματα των δέντρων απόφασης

1. Πλεονεκτήματα

2. Μειονεκτήματα


1. Κατανόηση των δέντρων αποφάσεων

1. Εισαγωγή

Το δέντρο απόφασης είναι αΜη παραμετρικές εποπτευόμενες μέθοδοι μάθησης, το οποίο μπορεί να επιλέξει από μια σειρά από Οι κανόνες απόφασης συνοψίζονται από δεδομένα με χαρακτηριστικά και ετικέτες, και αυτοί οι κανόνες παρουσιάζονται σε μια δομή δενδρικού διαγράμματος για την επίλυση προβλημάτων ταξινόμησης και παλινδρόμησης.Οι αλγόριθμοι του δέντρου αποφάσεων είναι εύκολοι στην κατανόηση, εφαρμόζονται σε διάφορα δεδομένα και έχουν καλή απόδοση στην επίλυση διαφόρων προβλημάτων.

2. Διαδικασία δημιουργίας δένδρων αποφάσεων

Το παραπάνω σύνολο δεδομένων είναι Δεδομένα για έναν κατάλογο γνωστών ειδών και των κατηγοριών τους .Ο τρέχων στόχος μας είναι να χωρίσουμε τα ζώα σεΘηλαστικά και μη . Με βάση τα δεδομένα που έχουν συλλεχθεί, ο αλγόριθμος του δέντρου αποφάσεων μπορεί να υπολογίσει το ακόλουθο δέντρο αποφάσεων:

Αν τώρα ανακαλύψουμε ένα νέο είδος Α, το οποίο είναι ένα ψυχρόαιμο ζώο με λέπια στο σώμα του και δεν είναι ζωοτόκο, μπορούμε να κρίνουμε το είδος του μέσω αυτού του δέντρου απόφασης κατηγορία

Βασικές έννοιες που εμπλέκονται: κόμβοι

① Κόμβος ρίζας : Δεν υπάρχει εισερχόμενο άκρο, αλλά εξερχόμενο άκρο. Περιέχει αρχικές ερωτήσεις εστιασμένες σε χαρακτηριστικά.

② Ενδιάμεσος κόμβος : Υπάρχουν και εισερχόμενες και εξερχόμενες άκρες Υπάρχει μόνο μία εισερχόμενη ακμή, αλλά μπορεί να υπάρχουν πολλές εξερχόμενες άκρες. Είναι όλα ερωτήματα σχετικά με τα χαρακτηριστικά.

③ Κόμβος φύλλων: Υπάρχουν εισερχόμενες άκρες και όχι εξερχόμενες άκρες Κάθε κόμβος φύλλου είναι μια ετικέτα κατηγορίας.

④ Θυγατρικοί κόμβοι και γονικοί κόμβοι: Μεταξύ δύο συνδεδεμένων κόμβων, ο ένας πιο κοντά στον ριζικό κόμβο είναι ο γονικός κόμβος και ο άλλος είναι ο θυγατρικός κόμβος.

2. Δέντρο απόφασης στο sklearn

Συμμετέχουσες ενότητες: sklearn.tree

1. δέντρο.DecisionTreeClassifier (δέντρο ταξινόμησης)

(1) Βασικές παράμετροι του μοντέλου

(2) Ιδιότητες μοντέλου

(3)Διασύνδεση

2. δέντρο.DecisionTreeRegressor (δέντρο παλινδρόμησης)

Σημαντικές παράμετροικριτήριο

        Το δέντρο παλινδρόμησης μετρά την ποιότητα των κλαδιών, υπάρχουν τρία υποστηριζόμενα πρότυπα:

    ① Εισαγάγετε "mse" για να χρησιμοποιήσετε το μέσο τετραγωνικό σφάλμα (MSE), η διαφορά του μέσου τετραγώνου σφάλματος μεταξύ του γονικού κόμβου και του κόμβου φύλλου θα χρησιμοποιηθεί ως κριτήριο για την επιλογή χαρακτηριστικών Αυτή η μέθοδος ελαχιστοποιεί την απώλεια L2 χρησιμοποιώντας τη μέση τιμή του κόμβου φύλλου.

     ② Εισαγάγετε "friedman_mse" για να χρησιμοποιήσετε το μέσο τετραγωνικό σφάλμα Feldman, μια μέτρηση που χρησιμοποιεί το τροποποιημένο μέσο τετραγωνικό σφάλμα του Friedman για προβλήματα σε λανθάνοντες κλάδους.

     ③ Εισαγάγετε "mae" για να χρησιμοποιήσετε το μέσο απόλυτο σφάλμα MAE (μέσο απόλυτο σφάλμα), αυτή η μέτρηση χρησιμοποιεί τη διάμεση τιμή των κόμβων φύλλων για να ελαχιστοποιήσει την απώλεια L1.

3. tree.export_graphviz (εξαγωγή του δέντρου αποφάσεων που δημιουργείται σε μορφή DOT, αφιερωμένη για σχέδιο)

4. Άλλα (συμπληρωματικά)

        ① Ο υπολογισμός της εντροπίας πληροφοριών είναι πιο αργός από τον συντελεστή μπικίνι. , γιατί ο υπολογισμός του συντελεστή Gini δεν περιλαμβάνει λογάριθμους.Επιπλέον, επειδή η εντροπία πληροφοριών είναι πιο ευαίσθητη στην ακαθαρσία, έτσιΌταν η εντροπία πληροφοριών χρησιμοποιείται ως δείκτης, η ανάπτυξη του δέντρου αποφάσεων θα είναι πιο "καλή", επομένως για δεδομένα υψηλών διαστάσεων ή δεδομένα με πολύ θόρυβο, η εντροπία πληροφοριών είναι εύκολο να υπερπροσαρμοστεί και ο συντελεστής Gini συχνά λειτουργεί καλύτερα σε αυτήν την περίπτωση.

② random_state χρησιμοποιείται για να ορίσετε τις παραμέτρους του τυχαίου μοτίβου στον κλάδο Η προεπιλογή είναι None.Η τυχαιότητα θα είναι πιο εμφανής σε υψηλές διαστάσεις Σε δεδομένα χαμηλών διαστάσεων (όπως το σύνολο δεδομένων ίριδας), η τυχαιότητα δύσκολα θα εμφανίζεται. . Εισαγάγετε οποιονδήποτε ακέραιο και το ίδιο δέντρο θα μεγαλώνει πάντα, επιτρέποντας στο μοντέλο να σταθεροποιηθεί.

③ Ο διαχωριστής χρησιμοποιείται επίσης για τον έλεγχο των τυχαίων επιλογών στο δέντρο αποφάσεων μπορεί να προβληθεί μέσω του χαρακτηριστικού feature_importances_),Εισαγάγετε "τυχαίο" και το δέντρο απόφασης θα είναι πιο τυχαίο κατά τη διακλάδωση, το δέντρο θα είναι βαθύτερο και μεγαλύτερο επειδή περιέχει περισσότερες περιττές πληροφορίες και η προσαρμογή στο σετ εκπαίδευσης θα μειωθεί λόγω αυτών των περιττών πληροφοριών.

④ Χωρίς περιορισμούς, ένα δέντρο απόφασης θα αναπτυχθεί έως ότου ο δείκτης μέτρησης της ακαθαρσίας είναι βέλτιστος ή έως ότου δεν υπάρχουν άλλα διαθέσιμα χαρακτηριστικά.Προκειμένου το δέντρο αποφάσεων να έχει καλύτερη γενίκευση, πρέπει να είναι το δέντρο αποφάσεωνκλάδεμα . Οι στρατηγικές κλαδέματος έχουν τεράστιο αντίκτυπο στα δέντρα αποφάσεων.Η σωστή στρατηγική κλαδέματος είναι ο πυρήνας της βελτιστοποίησης του αλγορίθμου του δέντρου αποφάσεων

3. Πλεονεκτήματα και μειονεκτήματα των δέντρων απόφασης

1. Πλεονεκτήματα

① Εύκολη κατανόηση και εξήγηση γιατί τα δέντρα μπορούν να σχεδιαστούν και να φαίνονται.

② Απαιτεί λίγη προετοιμασία δεδομένων. Πολλοί άλλοι αλγόριθμοι απαιτούν συχνά κανονικοποίηση δεδομένων, δημιουργία εικονικών μεταβλητών και αφαίρεση μηδενικών τιμών κ.λπ.αλλάΗ μονάδα δέντρου αποφάσεων στο sklearn δεν υποστηρίζει την επεξεργασία τιμών που λείπουν

③ Χρήση κόστος δέντρου(για παράδειγμα, κατά την πρόβλεψη δεδομένων) είναι ο λογάριθμος του αριθμού των σημείων δεδομένων που χρησιμοποιούνται για την εκπαίδευση του δέντρου, το οποίο είναι πολύ χαμηλό κόστος σε σύγκριση με άλλους αλγόριθμους.

④ Δυνατότητα επεξεργασίας αριθμητικών και κατηγορικών δεδομένων ταυτόχρονα,Μπορούν να γίνουν τόσο παλινδρόμηση όσο και ταξινόμηση . Άλλες τεχνικές είναι συχνά εξειδικευμένες για την ανάλυση συνόλων δεδομένων με έναν μόνο τύπο μεταβλητής.

⑤ Ικανός να χειριστεί προβλήματα πολλαπλών εξόδων, δηλαδή προβλήματα με πολλές ετικέτες (σημειώστε ότι διακρίνονται από προβλήματα με πολλαπλές ταξινομήσεις ετικετών σε μία ετικέτα)

⑥ είναι α μοντέλο λευκού κουτιού , τα αποτελέσματα είναι εύκολα ερμηνεύσιμα. Εάν μια δεδομένη κατάσταση μπορεί να παρατηρηθεί στο μοντέλο, οι συνθήκες μπορούν εύκολα να εξηγηθούν μέσω της λογικής Boole. Αντίθετα, σε μοντέλα μαύρου κουτιού (π.χ. σε τεχνητά νευρωνικά δίκτυα), τα αποτελέσματα μπορεί να είναι πιο δύσκολο να ερμηνευτούν.

⑦ Το μοντέλο μπορεί να επαληθευτεί χρησιμοποιώντας στατιστικές δοκιμές, οι οποίες μας επιτρέπουν να εξετάσουμε την αξιοπιστία του μοντέλου. Μπορεί να αποδώσει καλά ακόμα κι αν οι παραδοχές του παραβιάζουν σε κάποιο βαθμό το πραγματικό μοντέλο που δημιούργησε τα δεδομένα.

2. Μειονεκτήματα

① Οι μαθητές του δέντρου αποφάσεων μπορεί να δημιουργήσουν υπερβολικά πολύπλοκα δέντρα που δεν γενικεύουν καλά τα δεδομένα. Αυτό ονομάζεται υπερπροσαρμογή. κλαδεύω,Μηχανισμοί όπως ο καθορισμός του ελάχιστου αριθμού δειγμάτων που απαιτούνται για έναν κόμβο φύλλου ή ο καθορισμός του μέγιστου βάθους του δέντρουείναι απαραίτητο για να αποφευχθεί αυτό το πρόβλημα.

② Τα δέντρα αποφάσεων μπορεί να είναι ασταθή και μικρές αλλαγές στα δεδομένα μπορεί να οδηγήσουν στη δημιουργία εντελώς διαφορετικών δέντρων. Αυτό το πρόβλημα πρέπει να λυθεί μέσω ενός ολοκληρωμένου αλγορίθμου.

③ Η μάθηση του δέντρου αποφάσεων βασίζεται σεάπληστος αλγόριθμος, βασίζεται σε Βελτιστοποιήστε το τοπικό βέλτιστο (το βέλτιστο κάθε κόμβου) για να προσπαθήσουμε να επιτύχουμε το συνολικό βέλτιστο, αλλά αυτή η προσέγγιση δεν εγγυάται την επιστροφή του παγκόσμιου δέντρου βέλτιστων αποφάσεων. Αυτό το πρόβλημα μπορεί επίσης να λυθεί με αλγόριθμους συνόλου Στα τυχαία δάση, τα χαρακτηριστικά και τα δείγματα δειγματοληπτούνται τυχαία κατά τη διαδικασία διακλάδωσης.

④ Ορισμένες έννοιες είναι δύσκολο να μαθευτούν επειδή τα δέντρα αποφάσεων δεν τις εκφράζουν εύκολα, όπως προβλήματα XOR, ισοτιμίας ή πολυπλέκτη.

⑤ Εάν ορισμένες κλάσεις στις ετικέτες είναι κυρίαρχες, ο εκπαιδευτής του δέντρου αποφάσεων δημιουργεί δέντρα που είναι προκατειλημμένα προς τις κυρίαρχες κλάσεις.Επομένως, συνιστάται πριν από την τοποθέτηση ενός δέντρου απόφασηςΙσορροπημένο σύνολο δεδομένων