Technologieaustausch

Brückenzielerkennung in großformatigen, ultrahochauflösenden Fernerkundungsbildern basierend auf ganzheitlichem Lernen (einschließlich Datensatz-Download-Adresse)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Artikelübersicht

Die Brückenerkennung in Fernerkundungsbildern (RSIs) spielt in verschiedenen Anwendungen eine entscheidende RolleAllerdings steht die Brückenerkennung im Vergleich zu anderen Objekterkennungen vor besonderen Herausforderungen. Über RSIs hinweg weisen Brücken erhebliche Unterschiede im räumlichen Maßstab und Seitenverhältnis auf. Um die Sichtbarkeit und Integrität der Brücke sicherzustellen, ist daher eine umfassende Brückeninspektion in groß angelegten hochauflösenden (VHR) RSIs erforderlich. Das Fehlen großer Datensätze von VHR-RSIs schränkt jedoch die Leistung von Deep-Learning-Algorithmen bei der Brückenerkennung ein. Aufgrund der Begrenzung des GPU-Speichers bei der Verarbeitung großer Bilder verwenden Deep-Learning-basierte Objekterkennungsmethoden normalerweise Beschneidungsstrategien, was unweigerlich zu einer Fragmentierung der Beschriftung und einer Diskontinuität bei der Vorhersage führt.Um die Knappheit an Datensätzen zu lindern,Der Artikel schlägt einen groß angelegten Datensatz namens GLH-Bridge vor, der 6.000 VHR-RSIs umfasst, die an verschiedenen geografischen Standorten auf der ganzen Welt erfasst wurden. Die Bilder haben eine Größe von 2.048 × 2.048 bis 16.384 × 16.384 Pixel und enthalten insgesamt 59.737 Brücken. Die Brücken erstrecken sich über unterschiedliche Hintergründe und jede Brücke wird manuell mit orientierten Begrenzungsrahmen (OBB) und horizontalen Begrenzungsrahmen (HBB) kommentiert.Darüber hinaus schlagen die Autoren ein effizientes Holistic Bridge Detection Network (HBD-Net) zur Brückenerkennung in großen RSIs vor. HBD-Net übernimmt die SDFF-Architektur (Independent Detector-Based Feature Fusion) und wird durch die SSRW-Strategie (Shape-Sensitive Sample Reweighting) optimiert. Die SDFF-Architektur führt eine Inter-Layer-Feature-Fusion (IFF) durch, um mehrskaligen Kontext in der dynamischen Bildpyramide (DIP) großformatiger Bilder zu verschmelzen, und die SSRW-Strategie wird verwendet, um das Gleichgewicht der Regressionsgewichte für Brücken mit unterschiedlichem Aspekt sicherzustellen Verhältnisse.Basierend auf dem vorgeschlagenen GLH-Bridge-Datensatz erstellten die Autoren einen Brückenerkennungs-Benchmark einschließlich OBB- und HBB-Aufgaben und überprüften die Wirksamkeit des vorgeschlagenen HBD-Net.Darüber hinaus zeigen datensatzübergreifende Generalisierungsexperimente an zwei öffentlich verfügbaren Datensätzen die starke Generalisierungsfähigkeit des GLH-Bridge-Datensatzes.

Papieradresse:

https://ieeexplore.ieee.org/document/10509806

Der Datensatz ist groß, übersteigt 20 G und erfordert zum Herunterladen einen wissenschaftlichen Zugang zum Internet. Wir haben ihn bereits für alle heruntergeladen.

Download-Adresse des Datensatzes:

https://www.dilitanxianjia.com/15644/

Vergangenheit und Gegenwart

Als wichtige Infrastrukturkomponenten überspannen Brücken verschiedene Gelände und dienen als grundlegende Transporteinrichtungen. Sie sind von großer Bedeutung im zivilen Transport, bei militärischen Einsätzen und in der Katastrophenhilfe [1].Gleichzeitig wurde der Brückenbau zügig vorangetrieben und häufig nachgerüstet . Beispielsweise gab es im Jahr 2012 etwa 617.000 Brücken in den Vereinigten Staaten, und ihr Verfall wird in den nächsten 50 Jahren zunehmen, sodass mehr als 125 Milliarden US-Dollar erforderlich sind, um den Reparaturrückstand zu beheben. Daher sind Effizienz und Effektivität der Brückeninspektion von entscheidender Bedeutung für die rechtzeitige Aktualisierung von Navigationskarten und die weitere Überwachung des strukturellen Zustands und Zustands von Brücken [2], [3]. Fernerkundungsbilder (RSIs) eignen sich aufgrund ihrer großen geografischen Abdeckung und der hohen Häufigkeit von erneuten Besuchen als Basisdaten für die Brückenerkennung. Gleichzeitig hat die auf Deep Learning basierende RSI-Brückenerkennung angesichts der leistungsstarken Merkmalsdarstellungsfähigkeiten tiefer Netzwerke großes Potenzial und ist zu einem Forschungsschwerpunkt geworden [4].

Bild

Wie in Abbildung 1 dargestellt, ist die Erkennung von Brücken mit mehreren Maßstäben in RSIs im Vergleich zu anderen gängigen Objekten aufgrund zweier Hauptmerkmale eine ziemliche Herausforderung: (i) unterschiedliche Objektskalen. In hochauflösenden (VHR) RSIs variiert die Länge der Bridge-Instanzen von einigen Pixeln bis zu Tausenden von Pixeln. (ii) Extreme Seitenverhältnisse. Es gibt erhebliche Unterschiede im Ausmaß der Dehnung zwischen Brücken. Um die Erkennbarkeit kleiner oder schmaler Brücken sicherzustellen, ist die Verwendung von Bildern mit sehr hoher Auflösung (VHR) von entscheidender Bedeutung. Um gleichzeitig die strukturelle Integrität großer und langer Brücken in VHR-Bildern zu verfolgen, ist es notwendig, eine umfassende Brückenerkennung in großformatigen Bildern durchzuführen, was strenge Anforderungen sowohl an Datensätze als auch an Methoden stellt. Trotz erheblicher Fortschritte bei der Erkennung mehrerer Klassenobjekte [12], [13], [14], [15], [16] und der Brückenerkennung [4], [11], [17]Es fehlen jedoch noch umfangreiche Datensätze und geeignete Methoden zur Gesamtbrückenerkennung in großen VHR-RSIs.

Bild

Wie in Tabelle 1 gezeigt, wurden zwar viele beliebte RSI-Objekterkennungsdatensätze erstellt [6], [7], [8], [18], die Anzahl der Brücken in diesen Datensätzen ist jedoch begrenzt.Darüber hinaus sind Datensätze [4], [11], die speziell für die Brückenerkennung erstellt wurden, häufig durch die Stichprobengröße und die Bildgröße begrenzt. Einige vorhandene Datensätze bieten nur HBB-Anmerkungen (Horizontal Bounding Box) anstelle von OBB-Anmerkungen (Precision Oriented Bounding Box). Daher erscheint es unrealistisch, mithilfe des oben genannten Datensatzes ein robustes und umfassend anpassbares Brückenerkennungsmodell zu trainieren. Um das Problem der Datenbeschränkung anzugehen, haben die Autoren GLH-Bridge erstellt, einen großen Datensatz zur Brückenerkennung großer VHR-RSIs. GLH-Bridge enthält weltweit erfasste 6.000 VHR-RSIs und über 59.000 manuell kommentierte Bridges. Im Vergleich zu vorhandenen Brückenerkennungsdatensätzen erfasst GLH-Bridge die Eigenschaften von Brücken in realen Szenen besser, indem es Brücken in mehreren Maßstäben in großen VHR-RSIs annotiert und verschiedene Hintergrundtypen wie Vegetation, trockene Flussbetten und Straßenmerkmale abdeckt. Kurz gesagt, GLH-Bridge weist umfassende Vorteile und erhebliche Vorteile im Vergleich zu vorhandenen Brückenerkennungsdatensätzen auf.

Um die Forschung zu diesem grundlegenden und praktischen Problem voranzutreiben, schlagen die Autoren eine neue herausfordernde und sinnvolle Aufgabe vor: die umfassende Brückenerkennung in großen VHR-RSIs.Zur Lösung dieser Aufgabe lassen sich mögliche Lösungen in vier Hauptbereiche unterteilen: (i) Angesichts der Beschränkung des GPU-Speichers verwenden gängige Deep-Learning-basierte Objekterkennungsmethoden [15], [16], [19], [20], [21] normalerweise Beschneidungsstrategien [7], [22]. Diese Strategien weisen jedoch inhärente Einschränkungen auf und neigen dazu, große Brücken abzuschneiden, wie in Abbildung 1 dargestellt. Zusätzlich zu den Zuschneidestrategien verarbeiten einige Objekterkennungsmethoden Originalbilder mit festem Fenster durch Downsampling-Strategien mit festem Fenster [23], [24], [25], was zu einem erheblichen Verlust von Bildinformationen führt für Vorwärts- und Rückwärtsdurchläufe, unterstützt jedoch keine tiefen neuronalen Netze (DNN) mit Normalisierung; (iii) Die LMS-Methode [27] verwendet Speicherauslagerung, um den Speicher über den Systemspeicher (CPU-DRAM) und die GPU-Speicherfreigabe zu verteilen. Sie verursachen jedoch einen erheblichen Zeitaufwand und sind durch die maximale Speichererweiterungsrate begrenzt. (iv) Es wird erwartet, dass Multi-GPU-Tensor-Parallelisierungstechniken [28], [29] tiefe Netzwerke erweitern, um die Gesamtverarbeitung großer Bilder zu unterstützen. Allerdings sind sie oft ressourcenintensiv und unter Routinebedingungen schwer zu bedienen. Zusammenfassend lässt sich sagen, dass bestehende Methoden unter normalen Rechenressourcen (z. B. einer einzelnen GPU mit 24 GB Speicher) keine effektive Gesamtbrückenerkennung großer VHR-RSIs durchführen können.

Unter Berücksichtigung der oben genannten Einschränkungen möglicher Lösungen schlagen die Autoren ein Holistic Bridge Detection Network (HBD-Net) vor, das speziell für die Brückenerkennung großer VHR-RSIs entwickelt wurde. Der Ansatz der Autoren hat zwei wesentliche Vorteile: (i) Die SDFF-Architektur (Independent Detector-based Feature Fusion) zeigt bei Anwendung auf die Dynamic Image Pyramid (DIP) eine effiziente Möglichkeit, große Bilder mit minimalem Ressourcenverbrauch zu verarbeiten. (ii) Die formempfindliche Stichproben-Neugewichtungsstrategie (SSRW) gleicht die Regressionsgewichte von Brücken mit unterschiedlichen Seitenverhältnissen aus. Experimentelle Ergebnisse zu GLH-Bridge zeigen die hervorragende Leistung des vorgeschlagenen HBD-Net.

Zusammenfassend lässt sich sagen, dass dieses Papier nach bestem Wissen der Autoren das erste ist, das die Erkennung integraler Brücken in großen VHR-RSIs untersucht.Die Hauptbeiträge dieses Artikels sind wie folgt:

  • GLH-Bridge wird vorgeschlagen, der erste groß angelegte Datensatz zur Brückenerkennung großer VHR-RSIs.Dieser Datensatz enthält 59.737 Brücken mit unterschiedlichem Hintergrund und bietet eine umfassende Darstellung von Brücken in realen Szenarien.

  • Es wird ein kostengünstiges ganzheitliches Brückenerkennungsnetzwerk (d. h. HBD-Net) für großformatige Bilder vorgeschlagen, das durch eine gut konzipierte SDFF-Architektur und SSRW-Strategie großformatige Bilder effizient verarbeiten und Brücken mit mehreren Maßstäben ganzheitlich erkennen kann.

  • Mithilfe des vorgeschlagenen GLH-Bridge-Datensatzes erstellen die Autoren einen Brückenerkennungs-Benchmark, der sowohl OBB- als auch HBB-Aufgaben abdeckt. HBD-Net übertrifft bestehende, hochmoderne Algorithmen in puncto Leistung. Darüber hinaus führte der Autor datensatzübergreifende Generalisierungsexperimente durch, um die starke Generalisierungsfähigkeit von GLH-Bridge zu demonstrieren. Die Autoren hoffen, dass dieser Benchmark zur grundlegenden Bewertung der Objekterkennung in großformatigen Bildern beitragen kann.

Einfallsreichtum

Mit der Entwicklung eines neuen Datensatzes zur Brückenerkennung verfolgte der Autor zwei Ziele: (i) Füllen Sie die Lücke in umfangreichen Datensätzen zur Brückenerkennung in großformatigen hochauflösenden Fernerkundungsbildern (VHR RSIs). (ii) Weiterentwicklung einer neuartigen und herausfordernden Aufgabe: Integrale Brückenerkennung in großen VHR-RSIs.

Bild

Abbildung 2. Geografische Verteilungskarte der Stichprobenbilder aus dem vorgeschlagenen GLH-Bridge-Datensatz.

Bild

Abbildung 3. Beispiel einer Kennzeichnung gemäß der Norm, wobei der gelbe Kreis die nicht gekennzeichnete Situation anzeigt . (a) Gewässerüberquerende Straßen, die zu stark gekrümmt sind oder eine unregelmäßige Form haben, werden nicht markiert. (b) Zwei Klemmenanschlüsse sind nicht gekennzeichnet.

Bild

Abbildung 4. Darstellung der Merkmale des GLH-Bridge-Datensatzes. (a) Vergleich der Brückeneigenschaften in verschiedenen Datensätzen. (b) Verteilung der Brückenfläche in GLH-Bridge. (c) Verteilung der Brückenlängen in GLH-Bridge. (d) Verteilung der Brückendichte in GLH-Bridge.

Bild

Abbildung 5. Beispiele für Brücken in verschiedenen Kontexten im GLH-Bridge-Datensatz. (a) Brücke über die Vegetation. (b) Brücke über ein ausgetrocknetes Flussbett. (c) Brücken, die Straßen kreuzen. (d) Brücken über Gewässer.

Bild

Abbildung 6. Vorgeschlagener HBD-Net-Prozess. Es enthält die vorgeschlagene SDFF-Architektur und die SSRW-Strategie. Die SDFF-Architektur besteht aus unabhängigen Detektoren und IFF-Modulen. Ausgehend vom eingegebenen großformatigen VHR-Bild erstellen die Autoren ein DIP und senden es an den unabhängigen Detektor von SDFF, um Merkmale zu erhalten. Anschließend werden die Funktionen aller SDFF-Detektoren über das IFF-Modul zusammengeführt, um kontextbezogene und detaillierte Texturinformationen auszutauschen. Die SSRW-Strategie wird in der Stichprobenauswahlphase des Objektdetektors angewendet, um die Regressionsgewichte auszugleichen. Schließlich werden die ausgegebenen fusionierten Merkmale in den Kopf des Objektdetektors eingespeist, um die Ergebnisse jeder Schicht zu erhalten, die zur Berechnung des Verlusts mit den entsprechenden Ground-Truth-Labels verwendet werden.

Bild

Abbildung 7. Schematische Darstellung des vorgeschlagenen IFF-Moduls.Die Abbildung zeigt die Feature-Fusion-Methode zwischen zwei benachbarten Schichten.

Bild

Abbildung 8. Schematische Darstellung der vorgeschlagenen SSRW-Strategie. Die roten und blauen Punkte stellen die vom Objektdetektor ausgewählten positiven bzw. negativen Proben dar. Bei ankerbasierten Detektoren entsprechen diese Punkte den Feature-Map-Standorten, an denen die Ankerpunkte oder Vorschläge generiert wurden. Bei ankerlosen Detektoren stellen diese Punkte ein Raster auf der Feature-Map dar. Aus Gründen der Klarheit und Einfachheit werden Anker oder Vorschläge (für ankerbasierte Methoden), die mit Beispielpunkten verknüpft sind, in diesem Diagramm nicht angezeigt.

Hervorragende Leistung

Bild

Zukunftsausblick

In diesem Artikel wird ein groß angelegter Datensatz namens GLH-Bridge für die Gesamterkennung von Brücken in großformatigen hochauflösenden Fernerkundungsbildern vorgeschlagen. Der vorgeschlagene Datensatz enthält 6.000 hochauflösende Fernerkundungsbilder mit Bildgrößen zwischen 2.048 × 2.048 und 16.384 × 16.384 Pixeln und 59.737 Brücken mit unterschiedlichem Hintergrund sowie OBB- und HBB-Anmerkungen. Die große Bildgröße, die große Stichprobengröße und die Vielfalt an Objektmaßstäben und Hintergrundtypen machen GLH-Bridge zu einem wertvollen Datensatz mit den Voraussetzungen, um eine neue anspruchsvolle, aber weitreichende Aufgabe voranzutreiben: hohe Auflösung in großen Maßstäben. Gesamtbrückenerkennung in der Fernerkundung Bilder.Darüber hinaus schlagen die Autoren HBD-Net vor, eine kostengünstige Lösung, die auf die umfassende Brückenerkennung in großformatigen Bildern zugeschnitten ist.Basierend auf dem vorgeschlagenen GLH-Bridge-Datensatz,Die Autoren erstellten einen Benchmark und überprüften empirisch die Wirksamkeit des vorgeschlagenen HBD-Net. In zukünftigen Arbeiten werden die Autoren die Stichprobengröße und die Unterkategorieanmerkungen des GLH-Bridge-Datensatzes weiter bereichern. Zu den Zielen der Autoren gehört außerdem die Verallgemeinerung des vorgeschlagenen HBD-Net, um die Objekterkennung mehrerer Klassen in großformatigen Bildern zu erfüllen. Die Autoren sind bestrebt, Methoden zu erforschen, die sowohl die Genauigkeit von Brücken im großen als auch im kleinen Maßstab verbessern und so die Anwendbarkeit und Wirksamkeit von HBD-Net in verschiedenen Szenarien erweitern können.