informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Latar belakang penelitian : Dalam beberapa tahun terakhir, alat deteksi kerentanan pembelajaran mendalam telah mencapai hasil yang menjanjikan. Model canggih ini melaporkan skor F1 sebesar 0,9 dan mengungguli penganalisis statis. Hasilnya menarik karena pembelajaran mendalam dapat merevolusi jaminan perangkat lunak. Oleh karena itu, perusahaan industri seperti IBM, Google dan Amazon sangat tertarik dan berinvestasi besar-besaran dalam mengembangkan alat dan kumpulan data tersebut.
Permasalahan yang Ada : Meskipun deteksi kerentanan pembelajaran mendalam cukup menjanjikan, namun deteksi tersebut belum mencapai tingkat visi komputer dan pemrosesan bahasa alami. Sebagian besar fokus penelitian saat ini adalah mencoba model pembelajaran mendalam yang muncul dan menerapkannya pada kumpulan data seperti kumpulan data Devign atau MSR. Namun, kita hanya mengetahui sedikit tentang model itu sendiri, misalnya jenis program apa yang dapat ditangani secara efektif oleh model tersebut, apakah kita harus membangun model untuk setiap jenis kerentanan, atau haruskah kita membangun model terpadu untuk semua jenis kerentanan dengan data pelatihan yang baik. kumpulan tersebut terlihat seperti apa dan informasi apa yang digunakan model saat mengambil keputusan. Mengetahui jawaban atas pertanyaan-pertanyaan ini dapat membantu kita mengembangkan, men-debug, dan menerapkan model dengan lebih baik. Namun, pertanyaan-pertanyaan ini sulit dijawab mengingat sifat pembelajaran mendalam yang bersifat kotak hitam. Tujuan dari makalah ini bukan untuk memberikan solusi menyeluruh terhadap permasalahan-permasalahan tersebut, namun untuk mengeksplorasi tujuan-tujuan tersebut.
Pertanyaan ilmiah : Dalam makalah ini, makalah ini menyelidiki dan mereproduksi serangkaian model deteksi kerentanan pembelajaran mendalam yang canggih dan menetapkan pertanyaan penelitian untuk memahami model ini, yang bertujuan untuk mengambil pelajaran dan panduan dari model tersebut untuk merancang dan men-debug model masa depan dengan lebih baik.Makalah ini membingkai pertanyaan penelitian dan membaginya menjadi tiga bidang, yaituKemampuan model、data pelatihanDanPenjelasan model . Secara khusus, tujuan utama makalah ini adalah untuk memahami kemampuan pembelajaran mendalam dalam masalah deteksi kerentanan, dengan fokus khusus pada pertanyaan penelitian berikut:
Fokus penelitian kedua dari makalah ini adalah data pelatihan. Tujuan dari makalah ini adalah untuk memahami apakah dan bagaimana ukuran dan komposisi data pelatihan memengaruhi performa model. Secara khusus, makalah ini menyusun pertanyaan penelitian berikut:
Terakhir, bidang penelitian ketiga dari tesis ini adalah interpretasi model. Makalah ini menggunakan alat interpretasi model SOTA untuk menyelidiki:
konten penelitian : Untuk menjawab pertanyaan di atas, makalah ini mensurvei model pembelajaran mendalam yang canggih dan berhasil mereproduksi 11 model pada kumpulan data aslinya. Model ini menggunakan arsitektur pembelajaran mendalam yang berbeda seperti GNN, RNN, LSTM, CNN, dan Transformers. Untuk membandingkan model-model tersebut, makalah ini berhasil menjalankan 9 model dengan dua kumpulan data populer, Devign dan MSR. Alasan mengapa makalah ini memilih dua kumpulan data ini adalah: (1) kedua kumpulan data berisi proyek dan kerentanan dunia nyata; (2) model di sebagian besar makalah dievaluasi dan disesuaikan menggunakan kumpulan data Devign; , dan data tersebut dianotasi dengan jenis kerentanan, yang sangat penting untuk pertanyaan penelitian kami. Melalui eksperimen yang dirancang dengan cermat dan pertimbangan ancaman, makalah ini menemukan hasil untuk enam pertanyaan penelitian. Secara keseluruhan, kontribusi penelitian makalah ini meliputi:
Untuk mengumpulkan model pembelajaran mendalam yang paling canggih, makalah ini mempelajari makalah dari tahun 2018 hingga 2022, dan mengacu pada peringkat CodeXGLUE Microsoft dan peringkat D2A deteksi cacat IBM. Makalah ini menggunakan semua model open source yang tersedia dan berhasil mereproduksi 11 model. Daftar lengkap model, serta alasan mengapa kami tidak dapat mereproduksi beberapa model, disertakan dalam paket replikasi data makalah ini.
Seperti yang ditunjukkan pada tabel di atas, model yang direproduksi mencakup berbagai arsitektur pembelajaran mendalam. Devign dan ReVeal menggunakan GNN pada grafik properti, mengintegrasikan aliran kontrol, ketergantungan data, dan AST. ReGVD menggunakan GNN pada token. Code2Vec menggunakan multi-layer perceptron (MLP) pada AST. VulDeeLocator dan SySeVR adalah model urutan berdasarkan RNN dan Bi-LSTM. Deteksi pembelajaran mendalam terbaru menggunakan Transformers terlatih, termasuk CodeBERT, VulBERTa-CNN, VulBERTa-MLP, PLBART, dan LineVul.
Menanggapi pertanyaan penelitian makalah ini, makalah ini memilih kumpulan data Devign dan MSR. Makalah ini mempelajari 11 model ini pada kumpulan data yang digunakan dalam makalah aslinya, yang ditunjukkan pada tabel di atas. Makalah ini menemukan bahwa kumpulan data Devign telah digunakan untuk mengevaluasi dan menyempurnakan 8 model. Kumpulan data tersebut merupakan kumpulan data seimbang yang berisi contoh rentan dan tidak rentan dalam jumlah yang kira-kira sama, dengan total 27.318 titik data (setiap contoh juga disebut sebagai titik data). LineVul menggunakan kumpulan data MSR, yang merupakan kumpulan data yang baru tersedia. Kumpulan data tersebut tidak seimbang dan berisi 10.900 contoh rentan dan 177.736 contoh tidak rentan. Contoh-contoh tersebut memiliki proyek sumbernya serta entri Common Weakness Enumeration (CWE) yang menunjukkan jenis kerentanan. Makalah ini menggunakan karakteristik kumpulan data ini untuk merumuskan beberapa pertanyaan penelitian.
Makalah ini mereproduksi hasil model berdasarkan kumpulan data dan pengaturan asli, seperti yang ditunjukkan pada tabel di atas. Diantaranya, kolom A, P, R, dan F mewakili indikator yang umum digunakan dalam deteksi kerentanan deep learning, termasuk akurasi, presisi, perolehan, dan skor F1. Dibandingkan dengan kertas asli, kertas hasil reproduksi biasanya memiliki kesalahan perhitungan sebesar 2%. Kasus khusus adalah ReVeal, di mana penulis mengonfirmasi bahwa hasil kami mengoreksi kesalahan kebocoran data di makalah asli, dan Devign, di mana makalah tersebut menggunakan kode replikasi pihak ketiga (diterbitkan oleh Chakaborthy dkk.) karena kode Devign asli tidak sumber terbuka.