2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
शोध पृष्ठभूमि : अन्तिमेषु वर्षेषु गहनशिक्षणस्य दुर्बलतापरिचयसाधनानाम् आशाजनकं परिणामं प्राप्तम्। अत्याधुनिकं प्रतिरूपं 0.9 इत्यस्य F1 स्कोरं प्रतिवेदयति तथा च स्थिरविश्लेषकस्य अपेक्षया अधिकं कार्यं करोति । परिणामाः रोमाञ्चकारीः सन्ति यतोहि गहनशिक्षणेन सॉफ्टवेयर-आश्वासने क्रान्तिः भवितुम् अर्हति । अतः IBM, Google, Amazon इत्यादयः उद्योगकम्पनयः एतादृशानां साधनानां, आँकडासमूहानां च विकासे अतीव रुचिं लभन्ते, बहु निवेशं च कुर्वन्ति ।
विद्यमानाः समस्याः : यद्यपि गहनशिक्षणस्य दुर्बलतायाः अन्वेषणं आशाजनकं भवति तथापि सङ्गणकदृष्टेः प्राकृतिकभाषाप्रक्रियाकरणस्य च स्तरं अद्यापि न प्राप्तम्। वर्तमानस्य शोधस्य अधिकांशं केन्द्रं उदयमानानाम् गहनशिक्षणप्रतिमानानाम् प्रयासः भवति तथा च तान् Devign अथवा MSR दत्तांशसमूहादिषु दत्तांशसमूहेषु प्रयोक्तुं वर्तते। तथापि, वयं मॉडलस्य विषये एव अत्यल्पं जानीमः, यथा, मॉडल् प्रभावीरूपेण के प्रकाराः कार्यक्रमाः सम्भालितुं शक्नोति, प्रत्येकस्य दुर्बलताप्रकारस्य कृते प्रतिरूपं निर्मातव्यं वा, अथवा सर्वेषां दुर्बलताप्रकारस्य कृते एकीकृतं प्रतिरूपं निर्मातव्यं वा, उत्तमप्रशिक्षणदत्तांशैः सह किं समुच्चयः कीदृशः दृश्यते तथा च निर्णयं कुर्वन् आदर्शः काः सूचनाः उपयुङ्क्ते इति। एतेषां प्रश्नानाम् उत्तराणि ज्ञात्वा अस्माकं कृते मॉडल्-विकासः, त्रुटिनिवारणं, प्रयोक्तुं च साहाय्यं कर्तुं शक्यते । परन्तु गहनशिक्षणस्य कृष्णपेटीस्वभावं दृष्ट्वा एतेषां प्रश्नानाम् उत्तरं दुष्करम् अस्ति। पत्रस्य उद्देश्यं एतेषां समस्यानां सम्पूर्णसमाधानं न, अपितु एतेषां लक्ष्याणां अन्वेषणं भवति ।
वैज्ञानिक प्रश्न : अस्मिन् पत्रे, पत्रं अत्याधुनिक-गहन-शिक्षण-असुरक्षा-परिचय-प्रतिमानानाम् एकां श्रृङ्खलां अन्वेषयति, पुनः प्रदर्शयति च तथा च एतान् प्रतिरूपान् अवगन्तुं शोधप्रश्नान् स्थापयति, यस्य उद्देश्यं भवति यत् तेभ्यः पाठं मार्गदर्शनं च आकर्षयितुं भविष्यस्य आदर्शानां उत्तम-निर्माणं तथा च त्रुटिनिवारणं कर्तुं शक्यते।पत्रे शोधप्रश्नस्य स्वरूपं कृत्वा त्रयः क्षेत्राणि विभज्यन्ते, यथाआदर्शक्षमता、प्रशिक्षणदत्तांशःतथाआदर्श व्याख्या . विशेषतः, पत्रस्य प्राथमिकं लक्ष्यं भेद्यतापरिचयसमस्यासु गहनशिक्षणस्य क्षमतां अवगन्तुं भवति, यत्र निम्नलिखितसंशोधनप्रश्नेषु विशेषं ध्यानं भवति।
पत्रस्य द्वितीयं शोधकेन्द्रं प्रशिक्षणदत्तांशः अस्ति । प्रशिक्षणदत्तांशस्य आकारः रचना च आदर्शप्रदर्शनं प्रभावितं करोति वा कथं वा इति अवगन्तुं पत्रस्य लक्ष्यम् अस्ति। विशेषतः पत्रे निम्नलिखितसंशोधनप्रश्नानां निर्माणं कृतम् अस्ति ।
अन्ते शोधप्रबन्धस्य तृतीयः शोधक्षेत्रः आदर्शव्याख्या अस्ति । पत्रे SOTA मॉडल् व्याख्यासाधनस्य उपयोगेन अन्वेषणं क्रियते:
शोध सामग्री : उपर्युक्तप्रश्नानां उत्तरं दातुं पत्रं अत्याधुनिकगहनशिक्षणप्रतिमानानाम् सर्वेक्षणं करोति तथा च तेषां मूलदत्तांशसमूहेषु 11 आदर्शानां सफलतया पुनरुत्पादनं करोति। एतेषु प्रतिरूपेषु GNN, RNN, LSTM, CNN, Transformers इत्यादीनां भिन्नानां गहनशिक्षणवास्तुकलानां उपयोगः भवति । एतेषां मॉडल्-तुलनार्थं पत्रं 9 मॉडल्-इत्येतत् द्वयोः लोकप्रिययोः डाटासेट्-इत्यनेन सह Devign, MSR-इत्येतयोः सह चालयितुं सफलः अभवत् । पत्रं एतौ दत्तांशसमूहौ चयनं करोति इति कारणानि सन्ति: (1) द्वयोः दत्तांशसमूहयोः वास्तविक-जगतः परियोजनाः अपि च दुर्बलताः सन्ति , तथा च दत्तांशः दुर्बलताप्रकारैः टिप्पणीकृतः भवति, यत् अस्माकं शोधप्रश्नस्य कृते महत्त्वपूर्णम् अस्ति । सावधानीपूर्वकं परिकल्पितप्रयोगैः, धमकानाम् विचारेण च पत्रे षट् शोधप्रश्नानां परिणामाः प्राप्ताः । समग्रतया अस्य पत्रस्य शोधयोगदानं अत्र अन्तर्भवति- १.
अत्यन्तं उन्नतं गहनशिक्षणप्रतिमानं संग्रहीतुं, पत्रे २०१८ तः २०२२ पर्यन्तं पत्रानाम् अध्ययनं कृतम्, तथा च Microsoft इत्यस्य CodeXGLUE श्रेणीनां, IBM इत्यस्य दोषपरिचय D2A श्रेणीनां च उल्लेखः कृतः पत्रे सर्वेषां उपलब्धानां मुक्तस्रोतप्रतिमानानाम् उपयोगः कृतः, ११ आदर्शानां सफलतया पुनरुत्पादनं च कृतम् । आदर्शानां सम्पूर्णसूची, तथैव वयं केषाञ्चन आदर्शानां पुनरुत्पादनं कर्तुं असमर्थाः अभवम इति कारणानि च पत्रस्य दत्तांशप्रतिकृतिसङ्कुलस्य अन्तः समाविष्टा अस्ति ।
यथा उपरि सारणीयां दर्शितं, पुनरुत्पादितप्रतिमानाः विविधानि गहनशिक्षणवास्तुकलाः आच्छादयन्ति । Devign तथा ReVeal इत्येतयोः उपयोगं गुणलेखेषु GNN इत्यस्य उपयोगः भवति, नियन्त्रणप्रवाहः, आँकडानिर्भरताः, AST च एकीकृत्य । ReGVD टोकन इत्यत्र GNN इत्यस्य उपयोगं करोति । Code2Vec इत्येतत् AST इत्यत्र बहुस्तरीयं perceptron (MLP) इत्यस्य उपयोगं करोति । VulDeeLocator तथा SySeVR RNN तथा Bi-LSTM इत्येतयोः आधारेण अनुक्रमप्रतिरूपाः सन्ति । हाले गहनशिक्षणपरिचयने पूर्वप्रशिक्षितानां ट्रांसफार्मराणां उपयोगः भवति, यत्र CodeBERT, VulBERTa-CNN, VulBERTa-MLP, PLBART, LineVul च सन्ति ।
पत्रस्य शोधप्रश्नानां प्रतिक्रियारूपेण पत्रे Devign तथा MSR data sets इत्येतयोः चयनं कृतम् । पत्रे एतेषां ११ आदर्शानां अध्ययनं तेषां मूलपत्रेषु प्रयुक्तेषु दत्तांशसमूहेषु भवति, ये उपरि सारणीयां दर्शिताः सन्ति । पत्रे ज्ञातं यत् 8 मॉडल् मूल्याङ्कनं ट्यून च कर्तुं Devign dataset इत्यस्य उपयोगः कृतः अस्ति । दत्तांशसमूहः एकः संतुलितः दत्तांशसमूहः अस्ति यस्मिन् प्रायः समानसंख्याकाः दुर्बलाः असुरक्षिताः च उदाहरणानि सन्ति, कुलम् २७,३१८ दत्तांशबिन्दवः (प्रत्येकं उदाहरणं दत्तांशबिन्दुः इति अपि निर्दिश्यते) LineVul MSR dataset इत्यस्य उपयोगं करोति, यत् अद्यतनतया उपलब्धं dataset अस्ति । दत्तांशसमूहः असन्तुलितः अस्ति, तत्र १०,९०० दुर्बल-उदाहरणानि १७७,७३६ अ-अ-अ-अ-अ-अ-असुरक्षित-उदाहरणानि च सन्ति । उदाहरणेषु तेषां स्रोतपरियोजनानि सन्ति तथा च सामान्यदुर्बलतागणना (CWE) प्रविष्टयः सन्ति ये दुर्बलतायाः प्रकारं दर्शयन्ति । पत्रे एतेषां दत्तांशसमूहलक्षणानाम् उपयोगेन केचन शोधप्रश्नाः सूत्रिताः भवन्ति ।
पत्रं मूलदत्तांशसमूहस्य सेटिंग्स् च आधारीकृत्य मॉडलस्य परिणामान् पुनः प्रदर्शयति, यथा उपरि सारणीयां दर्शितम् अस्ति । तेषु, स्तम्भाः A, P, R, F च गहनशिक्षणस्य दुर्बलतापरिचयस्य सामान्यतया प्रयुक्तानां सूचकानाम् प्रतिनिधित्वं कुर्वन्ति, यत्र सटीकता, सटीकता, स्मरणं, F1 स्कोरः च सन्ति मूलपत्रस्य तुलने कागदस्य पुनरुत्पादनपरिणामेषु प्रायः २% अन्तः गणनादोषः भवति । विशेषप्रकरणाः सन्ति ReVeal, यत्र लेखकाः पुष्टिं कृतवन्तः यत् अस्माकं परिणामैः मूलपत्रे आँकडा लीकदोषः सम्यक् कृतः, तथा च Devign, यत्र पत्रे तृतीयपक्षस्य प्रतिकृतसङ्केतः (Chakaborthy et al. द्वारा प्रकाशितः) उपयुज्यते यतः मूल Devign कोडः नासीत् मुक्तस्रोतः।