प्रौद्योगिकी साझेदारी

यन्त्रशिक्षणम् - निर्णयवृक्षः (टिप्पणयः) २.

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

विषयवस्तुसारणी

1. निर्णयवृक्षाणां अवगमनम्

१ परिचयः

2. निर्णयवृक्षजननप्रक्रिया

2. sklearn इत्यस्मिन् निर्णयवृक्षः

1. tree.DecisionTreeवर्गीकरणकर्ता (वर्गीकरणवृक्षः) .

(1) आदर्शस्य मूलभूतमापदण्डाः

(2) आदर्शगुणाः

(3)अन्तरफलकम्

2. tree.DecisionTreeRegressor (प्रतिगमनवृक्षः) २.

3. tree.export_graphviz (उत्पन्नं निर्णयवृक्षं DOT प्रारूपे निर्यातयन्तु, रेखाचित्रणार्थं समर्पितं)

4. अन्ये (पूरक) .

3. निर्णयवृक्षाणां लाभहानिः

1. लाभाः

2. हानिः


1. निर्णयवृक्षाणां अवगमनम्

१ परिचयः

निर्णयवृक्षः कगैर-पैरामीटरिक पर्यवेक्षित शिक्षण विधयः, यत् एकस्य श्रृङ्खलायाः चयनं कर्तुं शक्नोति निर्णयनियमाः विशेषताभिः लेबलैः च सह दत्तांशतः सारांशिताः भवन्ति, वर्गीकरणस्य प्रतिगमनसमस्यानां च समाधानार्थं एते नियमाः वृक्षचित्रसंरचने प्रस्तुताः भवन्तिनिर्णयवृक्षस्य एल्गोरिदम् अवगन्तुं सुलभं, विभिन्नदत्तांशयोः प्रयोज्यम्, विविधसमस्यानां समाधानार्थं च उत्तमं प्रदर्शनं करोति विशेषतः, कोररूपेण वृक्षप्रतिमानयुक्ताः विविधाः एकीकृताः एल्गोरिदम् विभिन्नेषु उद्योगेषु क्षेत्रेषु च व्यापकरूपेण उपयुज्यन्ते

2. निर्णयवृक्षजननप्रक्रिया

उपरिष्टाद् दत्तांशसमूहः अस्ति ज्ञातजातीनां सूचीयां तेषां वर्गानां च दत्तांशः .अस्माकं वर्तमानं लक्ष्यं पशूनां विभक्तिः अस्तिस्तनधारी अस्तनधारी च . संगृहीतदत्तांशस्य आधारेण निर्णयवृक्षस्य एल्गोरिदम् निम्नलिखितनिर्णयवृक्षस्य गणनां कर्तुं शक्नोति ।

यदि अधुना वयं नूतनजातिं A आविष्करोमः, यः शीतरक्तः पशुः अस्ति यस्य शरीरे स्केलः भवति, सः विविप्रसवः नास्ति, तर्हि अस्य निर्णयवृक्षस्य माध्यमेन तस्य जातिस्य न्यायं कर्तुं शक्नुमः कोटी

अत्र सम्मिलिताः प्रमुखाः अवधारणाः : नोड्स

1 मूल नोड : आगच्छन्तं धारं नास्ति, अपितु बहिर्गच्छन् धारः अस्ति। प्रारम्भिकाः, विशेषता-केन्द्रितप्रश्नाः सन्ति ।

2 मध्यवर्ती नोड : आगच्छन्तः बहिर्गच्छन्त्याः च धारयोः एकः एव धारः अस्ति, परन्तु बहवः बहिर्गाः धाराः भवितुम् अर्हन्ति । ते सर्वे लक्षणविषये प्रश्नाः सन्ति।

३ पत्रग्रन्थिः: आगच्छन्तः किनारेः सन्ति तथा च बहिर्गच्छन्तः किनारेः नास्ति प्रत्येकं पत्रनोड् श्रेणीलेबलम् अस्ति ।

4 बालनोड्स् तथा मातापितृनोड्स्: द्वयोः सम्बद्धयोः नोडयोः मध्ये एकः मूलनोड् इत्यस्य समीपस्थः मातापितृनोड्, अपरः च बालनोड् ।

2. sklearn इत्यस्मिन् निर्णयवृक्षः

सम्मिलित मॉड्यूल: sklearn.tree

1. tree.DecisionTreeवर्गीकरणकर्ता (वर्गीकरणवृक्षः) .

(1) आदर्शस्य मूलभूतमापदण्डाः

(2) आदर्शगुणाः

(3)अन्तरफलकम्

2. tree.DecisionTreeRegressor (प्रतिगमनवृक्षः) २.

महत्त्वपूर्ण पैरामीटरमानदण्डः

        प्रतिगमनवृक्षः शाखागुणवत्तां मापयति, त्रयः समर्थिताः मानकाः सन्ति- १.

    ① mean squared error (MSE) इत्यस्य उपयोगाय "mse" इति प्रविशन्तु ।, मातापितृनोडस्य पत्रनोडस्य च मध्ये औसतवर्गदोषस्य अन्तरं विशेषताचयनस्य मानदण्डरूपेण उपयुज्यते एषा पद्धतिः पत्रनोडस्य औसतमूल्यं उपयुज्य L2 हानिं न्यूनीकरोति

     ② Feldman mean square त्रुटिं उपयोक्तुं "friedman_mse" इति प्रविष्टं कुर्वन्तु, एकः मेट्रिकः यः सुप्तशाखासु समस्यानां कृते फ्रीड्मैनस्य परिवर्तितस्य माध्यवर्गदोषस्य उपयोगं करोति ।

     ③ औसत निरपेक्षदोष MAE (mean absolute error) इत्यस्य उपयोगाय "mae" इति प्रविष्टं कुर्वन्तु ।, एतत् मेट्रिकं L1 हानिं न्यूनीकर्तुं पत्रनोड्स् इत्यस्य मध्यममूल्यं उपयुज्यते ।

3. tree.export_graphviz (उत्पन्नं निर्णयवृक्षं DOT प्रारूपे निर्यातयन्तु, रेखाचित्रणार्थं समर्पितं)

4. अन्ये (पूरक) .

        ① सूचना एन्ट्रोपी इत्यस्य गणना बिकिनी गुणांकात् मन्दतरं भवति । , यतः गिनिगुणकस्य गणनायां लघुगणकाः न भवन्ति ।तदतिरिक्तं यतः सूचनाएन्ट्रोपी अशुद्धतायाः प्रति अधिकं संवेदनशीलः भवति, अतःयदा सूचना-एन्ट्रोपी सूचकरूपेण उपयुज्यते तदा निर्णयवृक्षस्य वृद्धिः अधिका "सुष्ठु" भविष्यति ।, अतः उच्च-आयामी-दत्तांशस्य अथवा बहु-कोलाहल-युक्त-दत्तांशस्य कृते सूचना-एन्ट्रोपी-इत्यस्य अति-फिट्-करणं सुलभं भवति, तथा च अस्मिन् सन्दर्भे प्रायः गिनी-गुणकं अधिकं कार्यं करोति ।

2 random_state इत्यस्य उपयोगः शाखायां random pattern इत्यस्य पैरामीटर्स् सेट् कर्तुं भवति ।उच्च-आयामेषु यादृच्छिकता अधिकं स्पष्टा भविष्यति (यथा परितारिका-दत्तांशसमूहः) यादृच्छिकता कदापि न दृश्यते । . किमपि पूर्णाङ्कं प्रविशन्तु तथा च स एव वृक्षः सर्वदा वर्धते, येन मॉडल् स्थिरं भवति ।

3 निर्णयवृक्षे यादृच्छिकविकल्पान् नियन्त्रयितुं अपि विभाजकस्य उपयोगः भवति "सर्वश्रेष्ठम्" इति प्रविष्टं कुर्वन्तु यद्यपि निर्णयवृक्षः शाखाकरणार्थं अधिकमहत्त्वपूर्णविशेषताभ्यः प्राथमिकताम् अददात् विशेषता feature_importances_) मार्गेण द्रष्टुं शक्यते,"random" इति प्रविशन्तु ततः शाखाकरणकाले निर्णयवृक्षः अधिकं यादृच्छिकः भविष्यति, वृक्षः गभीरः बृहत्तरः च भविष्यति यतः तस्मिन् अधिकानि अनावश्यकसूचनाः सन्ति, एतेषां अनावश्यकसूचनानाम् कारणेन प्रशिक्षणसमूहे फिटिंग् न्यूनीभवति

4 प्रतिबन्धं विना निर्णयवृक्षः तावत्पर्यन्तं वर्धते यावत् अशुद्धिमापनं सूचकाङ्कः इष्टतमः न भवति, अथवा यावत् अधिकानि विशेषतानि न उपलभ्यन्ते तावत् यावत् एतादृशः निर्णयवृक्षः प्रायः अतियोग्यः भविष्यतिनिर्णयवृक्षस्य सामान्यीकरणं उत्तमं भवतु इति निर्णयवृक्षस्य आवश्यकता वर्ततेछंटनी . निर्णयवृक्षेषु छंटनीरणनीतयः महत् प्रभावं कुर्वन्ति ।सम्यक् छंटाई रणनीतिः निर्णयवृक्षस्य एल्गोरिदमस्य अनुकूलनस्य मूलं भवति

3. निर्णयवृक्षाणां लाभहानिः

1. लाभाः

1 सुलभतया अवगन्तुं व्याख्यातुं च यतः वृक्षाः आकृष्य द्रष्टुं शक्यन्ते।

२ अल्पं दत्तांशसज्जीकरणम् आवश्यकम् । अन्येषु बहवः एल्गोरिदम्स् प्रायः दत्तांशसामान्यीकरणस्य, डमीचरस्य निर्माणस्य, शून्यमूल्यानां निष्कासनस्य इत्यादीनां आवश्यकता भवति ।किन्तुsklearn इत्यस्मिन् निर्णयवृक्षमॉड्यूल् लुप्तमूल्यानां संसाधनं न समर्थयति

३ प्रयोगः वृक्षव्ययः(उदाहरणार्थं, दत्तांशस्य पूर्वानुमानं कुर्वन्) वृक्षस्य प्रशिक्षणार्थं प्रयुक्तानां दत्तांशबिन्दुसङ्ख्यायाः लघुगणकम् अस्ति, यत् अन्येषां अल्गोरिदम्-तुलने अतीव न्यूनव्ययः भवति

४ संख्यात्मकं श्रेणीगतं च दत्तांशं एकत्रैव संसाधितुं समर्थः,प्रतिगमनं वर्गीकरणं च द्वयोः अपि कर्तुं शक्यते . अन्ये तकनीकाः प्रायः केवलं एकेन चरप्रकारेण सह दत्तांशसमूहानां विश्लेषणार्थं विशेषाः भवन्ति ।

5 बहु-निर्गमसमस्याः अर्थात् बहु-लेबल-समस्याः नियन्त्रयितुं समर्थः (ध्यायन्तु यत् ते एकस्मिन् लेबले बहु-लेबल-वर्गीकरण-समस्याभ्यः भिन्नाः सन्ति)

6 इति क श्वेतपेटीप्रतिरूपम् , परिणामाः सहजतया व्याख्यातुं शक्यन्ते। यदि आदर्शे दत्ता स्थितिः अवलोकयितुं शक्यते तर्हि बूलियनतर्कद्वारा परिस्थितयः सहजतया व्याख्यातुं शक्यन्ते । तदपेक्षया कृष्णपेटीप्रतिरूपेषु (उदा. कृत्रिम-तंत्रिकाजालेषु) परिणामानां व्याख्या अधिकं कठिनं भवितुम् अर्हति ।

7 सांख्यिकीयपरीक्षाणां उपयोगेन प्रतिरूपस्य सत्यापनम् कर्तुं शक्यते, येन प्रतिरूपस्य विश्वसनीयतायाः विषये विचारः कर्तुं शक्यते । तस्य कल्पनाः किञ्चित्पर्यन्तं दत्तांशं जनयन्तं वास्तविकं प्रतिरूपं उल्लङ्घयन्ति चेदपि उत्तमं कार्यं कर्तुं शक्नोति ।

2. हानिः

1 निर्णयवृक्षशिक्षकाः अतिजटिलवृक्षान् निर्मातुम् अर्हन्ति ये दत्तांशं सम्यक् सामान्यीकृत्य न कुर्वन्ति। एतत् अतिफिटिंग् इति उच्यते । छंटनी, २.पत्रग्रन्थिस्य कृते आवश्यकानां नमूनानां न्यूनतमसङ्ख्यां निर्धारयितुं वा वृक्षस्य अधिकतमगहनतां निर्धारयितुं वा इत्यादीनि तन्त्राणिएतस्याः समस्यायाः परिहाराय आवश्यकम् अस्ति।

2 निर्णयवृक्षाः अस्थिराः भवितुम् अर्हन्ति, तथा च दत्तांशेषु लघुपरिवर्तनानि सर्वथा भिन्नवृक्षाणां जननं कर्तुं शक्नुवन्ति ।

3 निर्णयवृक्षशिक्षणस्य आधारेण भवतिलोभी अल्गोरिदम, इति अवलम्बते स्थानीय इष्टतमं अनुकूलितं कुर्वन्तु (प्रत्येकस्य नोडस्य इष्टतमं) समग्रं इष्टतमं प्राप्तुं प्रयत्नार्थं, परन्तु एषः उपायः वैश्विकं इष्टतमनिर्णयवृक्षं प्रत्यागन्तुं गारण्टीं न ददाति । एषा समस्या एन्सेम्बल् एल्गोरिदम् इत्यनेन अपि समाधानं कर्तुं शक्यते ।

4 केचन अवधारणाः कठिनतया ज्ञातुं शक्यन्ते यतोहि निर्णयवृक्षाः तान् सहजतया न व्यक्तयन्ति, यथा XOR, parity अथवा multiplexer समस्या।

5 यदि लेबलेषु केचन वर्गाः प्रबलाः सन्ति तर्हि निर्णयवृक्षशिक्षकः प्रबलवर्गाणां प्रति पक्षपातपूर्णाः वृक्षाः निर्माति ।अतः निर्णयवृक्षस्य स्थापनात् पूर्वं इति शस्यतेसंतुलितः दत्तांशसमूहः