τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Περίληψη άρθρου
Η ανίχνευση γεφυρών σε εικόνες τηλεπισκόπησης (RSI) διαδραματίζει ζωτικό ρόλο σε διάφορες εφαρμογές,Αλλά η ανίχνευση γεφυρών αντιμετωπίζει μοναδικές προκλήσεις σε σύγκριση με άλλες ανιχνεύσεις αντικειμένων. Σε όλους τους RSI, οι γέφυρες παρουσιάζουν σημαντική διακύμανση στη χωρική κλίμακα και την αναλογία διαστάσεων. Επομένως, για να διασφαλιστεί η ορατότητα και η ακεραιότητα της γέφυρας, είναι απαραίτητη η συνολική επιθεώρηση της γέφυρας σε μεγάλης κλίμακας RSI υψηλής ανάλυσης (VHR). Ωστόσο, η έλλειψη συνόλων δεδομένων μεγάλου μεγέθους VHR RSI περιορίζει την απόδοση των αλγορίθμων βαθιάς μάθησης στην ανίχνευση γεφυρών. Λόγω του περιορισμού της μνήμης GPU κατά την επεξεργασία εικόνων μεγάλου μεγέθους, οι μέθοδοι ανίχνευσης αντικειμένων που βασίζονται σε βαθιά μάθηση υιοθετούν συνήθως στρατηγικές περικοπής, κάτι που αναπόφευκτα οδηγεί σε κατακερματισμό ετικετών και ασυνέχεια πρόβλεψης.Για να μετριαστεί η σπανιότητα των συνόλων δεδομένων,Το άρθρο προτείνει ένα σύνολο δεδομένων μεγάλης κλίμακας που ονομάζεται GLH-Bridge, το οποίο περιλαμβάνει 6.000 VHR RSIs που έχουν δειγματιστεί από διαφορετικές γεωγραφικές τοποθεσίες σε όλο τον κόσμο. Οι εικόνες κυμαίνονται σε μέγεθος από 2.048 × 2.048 έως 16.384 × 16.384 pixel και περιέχουν συνολικά 59.737 γέφυρες. Οι γέφυρες εκτείνονται σε διαφορετικά υπόβαθρα και κάθε γέφυρα σχολιάζεται χειροκίνητα χρησιμοποιώντας προσανατολισμένα πλαίσια οριοθέτησης (OBB) και οριζόντια πλαίσια οριοθέτησης (HBB).Επιπλέον, οι συγγραφείς προτείνουν ένα αποτελεσματικό Ολιστικό Δίκτυο Ανίχνευσης Γέφυρας (HBD-Net) για ανίχνευση γεφυρών σε μεγάλου μεγέθους RSI. Το HBD-Net υιοθετεί την αρχιτεκτονική σύντηξης χαρακτηριστικών ανεξάρτητων ανιχνευτών (SDFF) και βελτιστοποιείται μέσω της στρατηγικής επαναστάθμισης δείγματος ευαίσθητου στο σχήμα (SSRW). Η αρχιτεκτονική SDFF εκτελεί τη σύντηξη χαρακτηριστικών μεταξύ επιπέδων (IFF) για τη σύντηξη περιβάλλοντος πολλαπλής κλίμακας στη δυναμική πυραμίδα εικόνας (DIP) εικόνων μεγάλου μεγέθους και η στρατηγική SSRW χρησιμοποιείται για να διασφαλίσει την ισορροπία των βαρών παλινδρόμησης για γέφυρες με διαφορετική όψη αναλογίες.Με βάση το προτεινόμενο σύνολο δεδομένων GLH-Bridge, οι συγγραφείς καθιέρωσαν ένα σημείο αναφοράς ανίχνευσης γεφυρών που περιλαμβάνει εργασίες OBB και HBB και επαλήθευσαν την αποτελεσματικότητα του προτεινόμενου HBD-Net.Επιπλέον, πειράματα γενίκευσης μεταξύ συνόλων δεδομένων σε δύο δημόσια διαθέσιμα σύνολα δεδομένων καταδεικνύουν την ισχυρή ικανότητα γενίκευσης του συνόλου δεδομένων GLH-Bridge.
Διεύθυνση χαρτιού:
https://ieeexplore.ieee.org/document/10509806
Το σύνολο δεδομένων είναι μεγάλο σε μέγεθος, που ξεπερνά τα 20 G και απαιτεί επιστημονική πρόσβαση στο Διαδίκτυο για λήψη Το έχουμε ήδη κατεβάσει για όλους.
Διεύθυνση λήψης συνόλου δεδομένων:
https://www.dilitanxianjia.com/15644/
Παρελθόν και παρόν
Ως βασικά στοιχεία υποδομής, οι γέφυρες εκτείνονται σε διάφορα εδάφη και χρησιμεύουν ως βασικές μεταφορικές εγκαταστάσεις. Έχουν μεγάλη σημασία στις πολιτικές μεταφορές, τις στρατιωτικές επιχειρήσεις και την ανακούφιση από καταστροφές [1].Ταυτόχρονα, η κατασκευή της γέφυρας ήταν γρήγορη και συχνά μετασκευαζόταν εκ των υστέρων . Για παράδειγμα, το 2012, υπήρχαν περίπου 617.000 γέφυρες στις Ηνωμένες Πολιτείες και η φθορά τους θα αυξηθεί τα επόμενα 50 χρόνια, απαιτώντας περισσότερα από 125 δισεκατομμύρια δολάρια για την επισκευή των καθυστερήσεων επισκευών. Επομένως, η αποτελεσματικότητα και η αποτελεσματικότητα της επιθεώρησης γεφυρών είναι ζωτικής σημασίας για την έγκαιρη ενημέρωση των χαρτών πλοήγησης και την περαιτέρω παρακολούθηση της δομικής υγείας και κατάστασης των γεφυρών [2], [3]. Οι εικόνες τηλεπισκόπησης (RSI) είναι κατάλληλες ως βασικά δεδομένα για την ανίχνευση γεφυρών λόγω της ευρείας γεωγραφικής τους κάλυψης και της υψηλής συχνότητας επανεπισκέψεών τους. Ταυτόχρονα, λαμβάνοντας υπόψη τις ισχυρές δυνατότητες αναπαράστασης χαρακτηριστικών των δικτύων σε βάθος, η ανίχνευση γεφυρών RSI που βασίζεται στη βαθιά μάθηση έχει μεγάλες δυνατότητες και έχει γίνει το επίκεντρο της έρευνας [4].
Όπως φαίνεται στο Σχήμα 1, σε σύγκριση με άλλα κοινά αντικείμενα, η ανίχνευση γεφυρών πολλαπλής κλίμακας σε RSI είναι αρκετά δύσκολη λόγω δύο κύριων χαρακτηριστικών: (i) διαφορετικές κλίμακες αντικειμένων. Σε RSI υψηλής ανάλυσης (VHR), τα στιγμιότυπα γεφύρωσης ποικίλλουν σε μήκος από μερικά pixel έως χιλιάδες pixel. (ii) Ακραίες αναλογίες διαστάσεων. Υπάρχουν σημαντικές διαφορές στην έκταση της επιμήκυνσης μεταξύ των γεφυρών. Για να εξασφαλιστεί η ανιχνευσιμότητα μικρών ή στενών γεφυρών, η χρήση εικόνων πολύ υψηλής ανάλυσης (VHR) είναι ζωτικής σημασίας. Ταυτόχρονα, προκειμένου να επιδιωχθεί η δομική ακεραιότητα μεγάλων και μακριών γεφυρών σε εικόνες VHR, είναι απαραίτητο να εκτελείται συνολική ανίχνευση γεφυρών σε εικόνες μεγάλου μεγέθους, κάτι που θέτει αυστηρές απαιτήσεις τόσο σε σύνολα δεδομένων όσο και σε μεθόδους. Παρά τη σημαντική πρόοδο στην ανίχνευση αντικειμένων πολλαπλών κλάσεων [12], [13], [14], [15], [16] και στην ανίχνευση γεφυρών [4], [11], [17],Ωστόσο, τα σύνολα δεδομένων μεγάλης κλίμακας και οι κατάλληλες μέθοδοι για τη συνολική ανίχνευση γεφυρών σε μεγάλου μεγέθους VHR RSI εξακολουθούν να λείπουν.
Όπως φαίνεται στον Πίνακα 1, αν και έχουν δημιουργηθεί πολλά δημοφιλή σύνολα δεδομένων ανίχνευσης αντικειμένων RSI [6], [7], [8], [18], ο αριθμός των γεφυρών σε αυτά τα σύνολα δεδομένων είναι περιορισμένος.Επιπλέον, τα σύνολα δεδομένων [4], [11] που δημιουργούνται ειδικά για την ανίχνευση γεφυρών συχνά περιορίζονται από το μέγεθος του δείγματος και το μέγεθος της εικόνας. Ορισμένα υπάρχοντα σύνολα δεδομένων παρέχουν μόνο σχολιασμούς οριζόντιου πλαισίου οριοθέτησης (HBB) αντί για σχολιασμούς ακριβούς προσανατολισμένου πλαισίου οριοθέτησης (OBB). Επομένως, φαίνεται μη ρεαλιστικό να εκπαιδεύσουμε ένα ισχυρό και ευρέως προσαρμόσιμο μοντέλο ανίχνευσης γέφυρας χρησιμοποιώντας το παραπάνω σύνολο δεδομένων. Για να αντιμετωπίσουν το ζήτημα του περιορισμού των δεδομένων, οι συγγραφείς κατασκεύασαν το GLH-Bridge, ένα σύνολο δεδομένων μεγάλης κλίμακας για την ανίχνευση γεφυρών μεγάλου μεγέθους VHR RSI. Το GLH-Bridge περιέχει 6.000 δειγματοληπτικά παγκοσμίως 6.000 VHR RSI και περισσότερες από 59.000 γέφυρες με μη αυτόματο σχολιασμό. Σε σύγκριση με τα υπάρχοντα σύνολα δεδομένων ανίχνευσης γεφυρών, το GLH-Bridge αποτυπώνει καλύτερα τα χαρακτηριστικά των γεφυρών σε πραγματικές σκηνές σημειώνοντας γέφυρες πολλαπλής κλίμακας σε μεγάλου μεγέθους VHR RSI, καλύπτοντας διάφορους τύπους φόντου, όπως βλάστηση, ξηρές κοίτες ποταμών και δρόμους. Εν ολίγοις, το GLH-Bridge παρουσιάζει ολοκληρωμένα πλεονεκτήματα και σημαντικά πλεονεκτήματα σε σύγκριση με τα υπάρχοντα σύνολα δεδομένων ανίχνευσης γεφυρών.
Για να προωθηθεί η έρευνα σε αυτό το θεμελιώδες και πρακτικό πρόβλημα, οι συγγραφείς προτείνουν μια νέα προκλητική και ουσιαστική εργασία: τη συνολική ανίχνευση γεφυρών σε μεγάλης κλίμακας VHR RSI.Για την επίλυση αυτής της εργασίας, οι πιθανές λύσεις μπορούν να χωριστούν σε τέσσερις κύριους τομείς: (i) Δεδομένου του περιορισμού της μνήμης GPU, οι κύριες μέθοδοι ανίχνευσης αντικειμένων που βασίζονται σε βαθιά μάθηση [15], [16], [19], [20], [21] συνήθως υιοθετούν στρατηγικές περικοπής [7], [22]. Ωστόσο, αυτές οι στρατηγικές έχουν εγγενείς περιορισμούς και είναι επιρρεπείς στην αποκοπή μεγάλων γεφυρών, όπως φαίνεται στο Σχήμα 1. Εκτός από τις στρατηγικές περικοπής, ορισμένες μέθοδοι ανίχνευσης αντικειμένων επεξεργάζονται πρωτότυπες εικόνες μεγάλου μεγέθους μέσω σταθερών στρατηγικών μείωσης δειγμάτων παραθύρων [23], [24], [25], με αποτέλεσμα σημαντική απώλεια πληροφοριών εικόνας (ii) μεθόδων ροής μεγέθους εικόνας για περάσματα προς τα εμπρός και προς τα πίσω, αλλά δεν μπορεί να υποστηρίξει βαθιά νευρωνικά δίκτυα (DNN) με κανονικοποίηση (iii) Η μέθοδος LMS [27] χρησιμοποιεί την εκφόρτωση μνήμης για τη διάδοση της μνήμης στη μνήμη του συστήματος (CPU DRAM) και την κοινή χρήση μνήμης GPU. Ωστόσο, εισάγουν σημαντικό χρόνο και περιορίζονται από τον μέγιστο ρυθμό επέκτασης μνήμης (iv) οι τεχνικές παραλληλοποίησης τανυστών πολλαπλών GPU [28], [29] αναμένεται να επεκτείνουν τα βαθιά δίκτυα για να υποστηρίξουν τη συνολική επεξεργασία εικόνων μεγάλου μεγέθους. Ωστόσο, συχνά απαιτούν πόρους και είναι δύσκολο να λειτουργήσουν υπό συνθήκες ρουτίνας. Συνοπτικά, οι υπάρχουσες μέθοδοι δεν μπορούν να εκτελέσουν αποτελεσματικά τη συνολική ανίχνευση γέφυρας RSI VHR μεγάλου μεγέθους κάτω από συνηθισμένους υπολογιστικούς πόρους (όπως μια ενιαία GPU με μνήμη 24 GB).
Λαμβάνοντας υπόψη τους παραπάνω περιορισμούς των πιθανών λύσεων, οι συγγραφείς προτείνουν ένα Ολιστικό Δίκτυο Ανίχνευσης Γέφυρας (HBD-Net) ειδικά σχεδιασμένο για την ανίχνευση γεφυρών μεγάλου μεγέθους VHR RSI. Η προσέγγιση των συγγραφέων έχει δύο βασικά πλεονεκτήματα: (i) Η αρχιτεκτονική σύντηξης χαρακτηριστικών που βασίζεται σε ανεξάρτητο ανιχνευτή (SDFF), όταν εφαρμόζεται στη Dynamic Image Pyramid (DIP), δείχνει έναν αποτελεσματικό τρόπο επεξεργασίας εικόνων μεγάλου μεγέθους με ελάχιστη κατανάλωση πόρων. (ii) Η στρατηγική επαναστάθμισης δείγματος ευαίσθητου στο σχήμα (SSRW) εξισορροπεί τα βάρη παλινδρόμησης των γεφυρών με διαφορετικούς λόγους διαστάσεων. Πειραματικά αποτελέσματα στο GLH-Bridge καταδεικνύουν την εξαιρετική απόδοση του προτεινόμενου HBD-Net.
Συνοπτικά, από όσο γνωρίζουν οι συγγραφείς, αυτή η εργασία είναι η πρώτη που διερευνά την ανίχνευση ολοκληρωμένων γεφυρών σε μεγάλης κλίμακας VHR RSI.Οι κύριες συνεισφορές αυτού του άρθρου είναι οι εξής:
Προτείνεται το GLH-Bridge, το πρώτο σύνολο δεδομένων μεγάλης κλίμακας για την ανίχνευση γέφυρας RSI VHR μεγάλου μεγέθους.Αυτό το σύνολο δεδομένων περιέχει 59.737 γέφυρες που καλύπτουν ποικίλα υπόβαθρα, παρέχοντας μια ολοκληρωμένη αναπαράσταση γεφυρών σε σενάρια πραγματικής ζωής.
Προτείνεται ένα ολιστικό δίκτυο ανίχνευσης γεφυρών χαμηλού κόστους (δηλαδή HBD-Net) για εικόνες μεγάλου μεγέθους, το οποίο μπορεί να επεξεργάζεται αποτελεσματικά εικόνες μεγάλου μεγέθους και να ανιχνεύει ολιστικά γέφυρες πολλαπλής κλίμακας μέσω μιας καλά σχεδιασμένης αρχιτεκτονικής SDFF και στρατηγικής SSRW.
Χρησιμοποιώντας το προτεινόμενο σύνολο δεδομένων GLH-Bridge, οι συγγραφείς δημιουργούν ένα σημείο αναφοράς ανίχνευσης γέφυρας που καλύπτει εργασίες OBB και HBB. Το HBD-Net ξεπερνά σε απόδοση τους υπάρχοντες αλγόριθμους τελευταίας τεχνολογίας. Επιπλέον, ο συγγραφέας διεξήγαγε πειράματα γενίκευσης μεταξύ συνόλων δεδομένων για να αποδείξει την ισχυρή ικανότητα γενίκευσης του GLH-Bridge. Οι συγγραφείς ελπίζουν ότι αυτό το σημείο αναφοράς μπορεί να συμβάλει στη βασική αξιολόγηση της ανίχνευσης αντικειμένων σε εικόνες μεγάλου μεγέθους.
Ευφυία
Οι στόχοι του συγγραφέα για την ανάπτυξη ενός νέου συνόλου δεδομένων για την ανίχνευση γεφυρών ήταν δύο: (i) Συμπληρώστε το κενό σε σύνολα δεδομένων μεγάλης κλίμακας για ανίχνευση γεφυρών σε εικόνες τηλεπισκόπησης μεγάλης κλίμακας υψηλής ανάλυσης (VHR RSIs). (ii) Προώθηση μιας νέας και προκλητικής εργασίας: ανίχνευση ολοκληρωμένης γέφυρας σε μεγάλης κλίμακας VHR RSI.
Εικόνα 2. Χάρτης γεωγραφικής κατανομής δειγματοληπτικών εικόνων από το προτεινόμενο σύνολο δεδομένων GLH-Bridge.
Εικόνα 3. Παράδειγμα επισήμανσης σύμφωνα με το πρότυπο, όπου ο κίτρινος κύκλος υποδεικνύει την κατάσταση χωρίς ετικέτα . (α) Δρόμοι που διασχίζουν νερό που είναι πολύ καμπυλωτοί ή ακανόνιστου σχήματος δεν θα επισημαίνονται. (β) Δύο συνδέσεις ακροδεκτών δεν φέρουν σήμανση.
Εικόνα 4. Απεικόνιση χαρακτηριστικών του συνόλου δεδομένων GLH-Bridge. (α) Σύγκριση χαρακτηριστικών γεφυρών σε διαφορετικά σύνολα δεδομένων. (β) Κατανομή της περιοχής γέφυρας σε GLH-Bridge. (γ) Κατανομή μηκών γεφυρών σε GLH-Bridge. (δ) Κατανομή της πυκνότητας της γέφυρας σε GLH-Bridge.
Εικόνα 5. Παραδείγματα γεφυρών σε διαφορετικά περιβάλλοντα στο σύνολο δεδομένων GLH-Bridge. (α) Γέφυρα που διασχίζει τη βλάστηση. (β) Γέφυρα που διασχίζει ξερή κοίτη ποταμού. (γ) Γέφυρες που διασχίζουν δρόμους. (δ) Γέφυρες που διασχίζουν υδάτινα σώματα.
Εικόνα 6. Προτεινόμενη διαδικασία HBD-Net. Περιλαμβάνει την προτεινόμενη αρχιτεκτονική SDFF και στρατηγική SSRW. Η αρχιτεκτονική SDFF αποτελείται από ανεξάρτητους ανιχνευτές και μονάδες IFF. Ξεκινώντας από την είσοδο μεγάλου μεγέθους εικόνας VHR, οι συγγραφείς κατασκευάζουν ένα DIP και το στέλνουν στον ανεξάρτητο ανιχνευτή του SDFF για να αποκτήσουν χαρακτηριστικά. Στη συνέχεια, οι δυνατότητες όλων των ανιχνευτών SDFF συγχωνεύονται μέσω της μονάδας IFF για κοινή χρήση πληροφοριών σχετικά με τα συμφραζόμενα και λεπτομερείς πληροφορίες υφής. Η στρατηγική SSRW εφαρμόζεται στο στάδιο επιλογής δείγματος του ανιχνευτή αντικειμένων για να εξισορροπηθούν τα βάρη παλινδρόμησης. Τέλος, τα συντηγμένα χαρακτηριστικά εξόδου τροφοδοτούνται στην κεφαλή του ανιχνευτή αντικειμένων για να ληφθούν τα αποτελέσματα κάθε στρώματος, τα οποία χρησιμοποιούνται για τον υπολογισμό της απώλειας με τις αντίστοιχες ετικέτες αλήθειας εδάφους.
Εικόνα 7. Σχηματικό διάγραμμα της προτεινόμενης ενότητας IFF.Το σχήμα δείχνει τη μέθοδο σύντηξης χαρακτηριστικών μεταξύ δύο γειτονικών στρωμάτων.
Εικόνα 8. Σχηματικό διάγραμμα της προτεινόμενης στρατηγικής SSRW. Τα κόκκινα και μπλε σημεία αντιπροσωπεύουν τα θετικά και αρνητικά δείγματα που επιλέγονται από τον ανιχνευτή αντικειμένων, αντίστοιχα. Για ανιχνευτές που βασίζονται σε άγκυρα, αυτά τα σημεία αντιστοιχούν στις θέσεις του χάρτη χαρακτηριστικών όπου δημιουργήθηκαν τα σημεία αγκύρωσης ή οι προτάσεις. Για ανιχνευτές χωρίς άγκυρα, αυτά τα σημεία υποδεικνύουν ένα πλέγμα στον χάρτη χαρακτηριστικών. Για να διατηρηθεί η σαφήνεια και η απλότητα, οι άγκυρες ή οι προτάσεις (για μεθόδους που βασίζονται σε άγκυρα) που σχετίζονται με σημεία δείγματος δεν εμφανίζονται σε αυτό το διάγραμμα.
Εξαιρετική απόδοση
μελλοντική προοπτική
Αυτό το έγγραφο προτείνει ένα σύνολο δεδομένων μεγάλης κλίμακας που ονομάζεται GLH-Bridge για συνολική ανίχνευση γεφυρών σε εικόνες τηλεπισκόπησης μεγάλης κλίμακας υψηλής ανάλυσης. Το προτεινόμενο σύνολο δεδομένων περιέχει 6.000 εικόνες τηλεπισκόπησης υψηλής ανάλυσης με μεγέθη εικόνας που κυμαίνονται από 2.048 × 2.048 έως 16.384 × 16.384 pixel, που περιέχουν 59.737 γέφυρες που εκτείνονται σε διαφορετικά φόντο, με σχολιασμούς OBB και HBB. Το μεγάλο μέγεθος εικόνας, το μεγάλο μέγεθος δείγματος και η ποικιλομορφία των κλιμάκων αντικειμένων και των τύπων φόντου καθιστούν το GLH-Bridge ένα πολύτιμο σύνολο δεδομένων με τις προϋποθέσεις για την προώθηση μιας νέας προκλητικής αλλά εκτεταμένης εργασίας: Συνολική ανίχνευση γεφυρών σε μεγάλη κλίμακα εικόνες.Επιπλέον, οι συγγραφείς προτείνουν το HBD-Net, μια οικονομικά αποδοτική λύση προσαρμοσμένη για τη συνολική ανίχνευση γεφυρών σε εικόνες μεγάλου μεγέθους.Με βάση το προτεινόμενο σύνολο δεδομένων GLH-Bridge,Οι συγγραφείς καθιέρωσαν ένα σημείο αναφοράς και επαλήθευσαν εμπειρικά την αποτελεσματικότητα του προτεινόμενου HBD-Net. Σε μελλοντική εργασία, οι συγγραφείς θα συνεχίσουν να εμπλουτίζουν το μέγεθος του δείγματος και τους σχολιασμούς υποκατηγοριών του συνόλου δεδομένων GLH-Bridge. Επιπλέον, οι στόχοι των συγγραφέων περιλαμβάνουν τη γενίκευση του προτεινόμενου HBD-Net για την ικανοποίηση της ανίχνευσης αντικειμένων πολλαπλών κλάσεων σε εικόνες μεγάλου μεγέθους. Οι συγγραφείς προσπαθούν να εξερευνήσουν μεθόδους που μπορούν να βελτιώσουν την ακρίβεια της γέφυρας μεγάλης και μικρής κλίμακας, επεκτείνοντας έτσι τη δυνατότητα εφαρμογής και την αποτελεσματικότητα του HBD-Net σε διάφορα σενάρια.