论文学习_असुरक्षापरिचयार्थं गहनशिक्षणप्रतिमानानाम् एकः अनुभवजन्यः अध्ययनः

पेपर अध्ययन_असुरक्षापरिचयार्थं गहनशिक्षणप्रतिमानानाम् एकः अनुभवजन्यः अध्ययनः

2024-07-12

१ परिचयः

शोध पृष्ठभूमि : अन्तिमेषु वर्षेषु गहनशिक्षणस्य दुर्बलतापरिचयसाधनानाम् आशाजनकं परिणामं प्राप्तम्। अत्याधुनिकं प्रतिरूपं 0.9 इत्यस्य F1 स्कोरं प्रतिवेदयति तथा च स्थिरविश्लेषकस्य अपेक्षया अधिकं कार्यं करोति । परिणामाः रोमाञ्चकारीः सन्ति यतोहि गहनशिक्षणेन सॉफ्टवेयर-आश्वासने क्रान्तिः भवितुम् अर्हति । अतः IBM, Google, Amazon इत्यादयः उद्योगकम्पनयः एतादृशानां साधनानां, आँकडासमूहानां च विकासे अतीव रुचिं लभन्ते, बहु निवेशं च कुर्वन्ति ।

विद्यमानाः समस्याः : यद्यपि गहनशिक्षणस्य दुर्बलतायाः अन्वेषणं आशाजनकं भवति तथापि सङ्गणकदृष्टेः प्राकृतिकभाषाप्रक्रियाकरणस्य च स्तरं अद्यापि न प्राप्तम्। वर्तमानस्य शोधस्य अधिकांशं केन्द्रं उदयमानानाम् गहनशिक्षणप्रतिमानानाम् प्रयासः भवति तथा च तान् Devign अथवा MSR दत्तांशसमूहादिषु दत्तांशसमूहेषु प्रयोक्तुं वर्तते। तथापि, वयं मॉडलस्य विषये एव अत्यल्पं जानीमः, यथा, मॉडल् प्रभावीरूपेण के प्रकाराः कार्यक्रमाः सम्भालितुं शक्नोति, प्रत्येकस्य दुर्बलताप्रकारस्य कृते प्रतिरूपं निर्मातव्यं वा, अथवा सर्वेषां दुर्बलताप्रकारस्य कृते एकीकृतं प्रतिरूपं निर्मातव्यं वा, उत्तमप्रशिक्षणदत्तांशैः सह किं समुच्चयः कीदृशः दृश्यते तथा च निर्णयं कुर्वन् आदर्शः काः सूचनाः उपयुङ्क्ते इति। एतेषां प्रश्नानाम् उत्तराणि ज्ञात्वा अस्माकं कृते मॉडल्-विकासः, त्रुटिनिवारणं, प्रयोक्तुं च साहाय्यं कर्तुं शक्यते । परन्तु गहनशिक्षणस्य कृष्णपेटीस्वभावं दृष्ट्वा एतेषां प्रश्नानाम् उत्तरं दुष्करम् अस्ति। पत्रस्य उद्देश्यं एतेषां समस्यानां सम्पूर्णसमाधानं न, अपितु एतेषां लक्ष्याणां अन्वेषणं भवति ।

वैज्ञानिक प्रश्न : अस्मिन् पत्रे, पत्रं अत्याधुनिक-गहन-शिक्षण-असुरक्षा-परिचय-प्रतिमानानाम् एकां श्रृङ्खलां अन्वेषयति, पुनः प्रदर्शयति च तथा च एतान् प्रतिरूपान् अवगन्तुं शोधप्रश्नान् स्थापयति, यस्य उद्देश्यं भवति यत् तेभ्यः पाठं मार्गदर्शनं च आकर्षयितुं भविष्यस्य आदर्शानां उत्तम-निर्माणं तथा च त्रुटिनिवारणं कर्तुं शक्यते।पत्रे शोधप्रश्नस्य स्वरूपं कृत्वा त्रयः क्षेत्राणि विभज्यन्ते, यथाआदर्शक्षमता、प्रशिक्षणदत्तांशःतथाआदर्श व्याख्या . विशेषतः, पत्रस्य प्राथमिकं लक्ष्यं भेद्यतापरिचयसमस्यासु गहनशिक्षणस्य क्षमतां अवगन्तुं भवति, यत्र निम्नलिखितसंशोधनप्रश्नेषु विशेषं ध्यानं भवति।

प्रश्नः १ : किं भिन्न-भिन्न-प्रतिमानाः असुरक्षा-परिचयस्य विषये सहमतिम् आप्नुयुः ? भिन्न-भिन्न-प्रतिमानयोः के भेदाः सन्ति ?
प्रश्न 2 : किं कतिपयप्रकारस्य दुर्बलतायाः अन्वेषणं सुलभं भवति ? किं भवता प्रत्येकस्य प्रकारस्य दुर्बलतायाः कृते एकं प्रतिरूपं निर्मातव्यम्, अथवा सर्वाणि दुर्बलतानि अन्वेषयति इति प्रतिरूपं निर्मातव्यम्?
प्रश्न 3 : किं केचन कोडप्रतिमानाः सन्ति येषां पूर्वानुमानं मॉडलस्य कृते कठिनम् अस्ति? यदि एतादृशः कोडप्रतिमानः अस्ति तर्हि सः कीदृशः कोडप्रतिमानः अस्ति ?

पत्रस्य द्वितीयं शोधकेन्द्रं प्रशिक्षणदत्तांशः अस्ति । प्रशिक्षणदत्तांशस्य आकारः रचना च आदर्शप्रदर्शनं प्रभावितं करोति वा कथं वा इति अवगन्तुं पत्रस्य लक्ष्यम् अस्ति। विशेषतः पत्रे निम्नलिखितसंशोधनप्रश्नानां निर्माणं कृतम् अस्ति ।

प्रश्न 4: किं दत्तांशसमूहस्य आकारं वर्धयित्वा भेद्यतापरिचयार्थं मॉडलप्रदर्शने सुधारं कर्तुं सहायकं भवति?
प्रश्न 5: प्रशिक्षणदत्तांशसमूहे वस्तूनाम् रचना आदर्शस्य कार्यप्रदर्शनं कथं प्रभावितं करोति?

अन्ते शोधप्रबन्धस्य तृतीयः शोधक्षेत्रः आदर्शव्याख्या अस्ति । पत्रे SOTA मॉडल् व्याख्यासाधनस्य उपयोगेन अन्वेषणं क्रियते:

प्रश्न 6 : पूर्वानुमानार्थं मॉडलः का स्रोतसङ्केतसूचनाः उपयुङ्क्ते? किं महत्त्वपूर्णविशेषतासु आदर्शः सुसंगतः अस्ति ?

शोध सामग्री : उपर्युक्तप्रश्नानां उत्तरं दातुं पत्रं अत्याधुनिकगहनशिक्षणप्रतिमानानाम् सर्वेक्षणं करोति तथा च तेषां मूलदत्तांशसमूहेषु 11 आदर्शानां सफलतया पुनरुत्पादनं करोति। एतेषु प्रतिरूपेषु GNN, RNN, LSTM, CNN, Transformers इत्यादीनां भिन्नानां गहनशिक्षणवास्तुकलानां उपयोगः भवति । एतेषां मॉडल्-तुलनार्थं पत्रं 9 मॉडल्-इत्येतत् द्वयोः लोकप्रिययोः डाटासेट्-इत्यनेन सह Devign, MSR-इत्येतयोः सह चालयितुं सफलः अभवत् । पत्रं एतौ दत्तांशसमूहौ चयनं करोति इति कारणानि सन्ति: (1) द्वयोः दत्तांशसमूहयोः वास्तविक-जगतः परियोजनाः अपि च दुर्बलताः सन्ति , तथा च दत्तांशः दुर्बलताप्रकारैः टिप्पणीकृतः भवति, यत् अस्माकं शोधप्रश्नस्य कृते महत्त्वपूर्णम् अस्ति । सावधानीपूर्वकं परिकल्पितप्रयोगैः, धमकानाम् विचारेण च पत्रे षट् शोधप्रश्नानां परिणामाः प्राप्ताः । समग्रतया अस्य पत्रस्य शोधयोगदानं अत्र अन्तर्भवति- १.

योगदानम् : 1: अस्मिन् पत्रे गहनशिक्षणस्य दुर्बलतापरिचयप्रतिरूपेषु व्यापकं सर्वेक्षणं भवति।
योगदानम् २: पत्रे विविधसंशोधनसेटिंग्स् सह SOTA गहनशिक्षणरूपरेखायाः कृते 11 प्रशिक्षणप्रतिमानाः आँकडासमूहाः च समाविष्टाः कोडभण्डारः प्रदत्तः अस्ति।
योगदानं 3: पत्रे आदर्शक्षमता, प्रशिक्षणदत्तांशः, आदर्शव्याख्या च अवगन्तुं ६ वैज्ञानिकप्रश्नानां परिकल्पना कृता अस्ति।
योगदानं 4: पत्रं शोधस्य संरचनां कृत्वा उपस्थापितस्य वैज्ञानिकप्रश्नस्य प्रयोगद्वारा परिणामान् प्राप्नोति।
योगदानं 5: पत्रे रोचकं उदाहरणं दत्तांशं च सज्जीकृत्य प्रतिरूपस्य व्याख्याक्षमतायाः अग्रे अन्वेषणं भवति।

2. आदर्श प्रजननम्

अत्यन्तं उन्नतं गहनशिक्षणप्रतिमानं संग्रहीतुं, पत्रे २०१८ तः २०२२ पर्यन्तं पत्रानाम् अध्ययनं कृतम्, तथा च Microsoft इत्यस्य CodeXGLUE श्रेणीनां, IBM इत्यस्य दोषपरिचय D2A श्रेणीनां च उल्लेखः कृतः पत्रे सर्वेषां उपलब्धानां मुक्तस्रोतप्रतिमानानाम् उपयोगः कृतः, ११ आदर्शानां सफलतया पुनरुत्पादनं च कृतम् । आदर्शानां सम्पूर्णसूची, तथैव वयं केषाञ्चन आदर्शानां पुनरुत्पादनं कर्तुं असमर्थाः अभवम इति कारणानि च पत्रस्य दत्तांशप्रतिकृतिसङ्कुलस्य अन्तः समाविष्टा अस्ति ।

यथा उपरि सारणीयां दर्शितं, पुनरुत्पादितप्रतिमानाः विविधानि गहनशिक्षणवास्तुकलाः आच्छादयन्ति । Devign तथा ReVeal इत्येतयोः उपयोगं गुणलेखेषु GNN इत्यस्य उपयोगः भवति, नियन्त्रणप्रवाहः, आँकडानिर्भरताः, AST च एकीकृत्य । ReGVD टोकन इत्यत्र GNN इत्यस्य उपयोगं करोति । Code2Vec इत्येतत् AST इत्यत्र बहुस्तरीयं perceptron (MLP) इत्यस्य उपयोगं करोति । VulDeeLocator तथा SySeVR RNN तथा Bi-LSTM इत्येतयोः आधारेण अनुक्रमप्रतिरूपाः सन्ति । हाले गहनशिक्षणपरिचयने पूर्वप्रशिक्षितानां ट्रांसफार्मराणां उपयोगः भवति, यत्र CodeBERT, VulBERTa-CNN, VulBERTa-MLP, PLBART, LineVul च सन्ति ।

पत्रस्य शोधप्रश्नानां प्रतिक्रियारूपेण पत्रे Devign तथा MSR data sets इत्येतयोः चयनं कृतम् । पत्रे एतेषां ११ आदर्शानां अध्ययनं तेषां मूलपत्रेषु प्रयुक्तेषु दत्तांशसमूहेषु भवति, ये उपरि सारणीयां दर्शिताः सन्ति । पत्रे ज्ञातं यत् 8 मॉडल् मूल्याङ्कनं ट्यून च कर्तुं Devign dataset इत्यस्य उपयोगः कृतः अस्ति । दत्तांशसमूहः एकः संतुलितः दत्तांशसमूहः अस्ति यस्मिन् प्रायः समानसंख्याकाः दुर्बलाः असुरक्षिताः च उदाहरणानि सन्ति, कुलम् २७,३१८ दत्तांशबिन्दवः (प्रत्येकं उदाहरणं दत्तांशबिन्दुः इति अपि निर्दिश्यते) LineVul MSR dataset इत्यस्य उपयोगं करोति, यत् अद्यतनतया उपलब्धं dataset अस्ति । दत्तांशसमूहः असन्तुलितः अस्ति, तत्र १०,९०० दुर्बल-उदाहरणानि १७७,७३६ अ-अ-अ-अ-अ-अ-असुरक्षित-उदाहरणानि च सन्ति । उदाहरणेषु तेषां स्रोतपरियोजनानि सन्ति तथा च सामान्यदुर्बलतागणना (CWE) प्रविष्टयः सन्ति ये दुर्बलतायाः प्रकारं दर्शयन्ति । पत्रे एतेषां दत्तांशसमूहलक्षणानाम् उपयोगेन केचन शोधप्रश्नाः सूत्रिताः भवन्ति ।

पत्रं मूलदत्तांशसमूहस्य सेटिंग्स् च आधारीकृत्य मॉडलस्य परिणामान् पुनः प्रदर्शयति, यथा उपरि सारणीयां दर्शितम् अस्ति । तेषु, स्तम्भाः A, P, R, F च गहनशिक्षणस्य दुर्बलतापरिचयस्य सामान्यतया प्रयुक्तानां सूचकानाम् प्रतिनिधित्वं कुर्वन्ति, यत्र सटीकता, सटीकता, स्मरणं, F1 स्कोरः च सन्ति मूलपत्रस्य तुलने कागदस्य पुनरुत्पादनपरिणामेषु प्रायः २% अन्तः गणनादोषः भवति । विशेषप्रकरणाः सन्ति ReVeal, यत्र लेखकाः पुष्टिं कृतवन्तः यत् अस्माकं परिणामैः मूलपत्रे आँकडा लीकदोषः सम्यक् कृतः, तथा च Devign, यत्र पत्रे तृतीयपक्षस्य प्रतिकृतसङ्केतः (Chakaborthy et al. द्वारा प्रकाशितः) उपयुज्यते यतः मूल Devign कोडः नासीत् मुक्तस्रोतः।

प्रौद्योगिकी साझेदारी

पेपर अध्ययन_असुरक्षापरिचयार्थं गहनशिक्षणप्रतिमानानाम् एकः अनुभवजन्यः अध्ययनः

१ परिचयः

2. आदर्श प्रजननम्

व्यक्तिगत प्रोफाइल

मम सम्पर्कसूचना