Partage de technologie

Détection de cibles de pont dans des images de télédétection grand format à ultra haute résolution basées sur un apprentissage holistique (y compris l'adresse de téléchargement de l'ensemble de données)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Résumé de l'article

La détection de ponts dans les images de télédétection (RSI) joue un rôle essentiel dans diverses applicationsMais la détection de ponts est confrontée à des défis uniques par rapport aux autres détections d'objets. À travers les RSI, les ponts présentent des variations considérables en termes d’échelle spatiale et de rapport d’aspect. Par conséquent, pour garantir la visibilité et l’intégrité du pont, une inspection globale du pont dans des RSI haute résolution (VHR) à grande échelle est nécessaire. Cependant, le manque d’ensembles de données de grande taille de RSI VHR limite les performances des algorithmes d’apprentissage profond dans la détection des ponts. En raison de la limitation de la mémoire GPU lors du traitement d'images de grande taille, les méthodes de détection d'objets basées sur l'apprentissage profond adoptent généralement des stratégies de recadrage, ce qui conduit inévitablement à une fragmentation des étiquettes et à une discontinuité des prédictions.Pour atténuer la rareté des ensembles de données,L'article propose un ensemble de données à grande échelle appelé GLH-Bridge, qui comprend 6 000 RSI VHR échantillonnés dans différents emplacements géographiques à travers le monde. Les images varient en taille de 2 048 × 2 048 à 16 384 × 16 384 pixels et contiennent un total de 59 737 ponts. Les ponts couvrent différents arrière-plans et chaque pont est annoté manuellement à l'aide de cadres de délimitation orientés (OBB) et de cadres de délimitation horizontaux (HBB).En outre, les auteurs proposent un réseau holistique de détection de ponts (HBD-Net) efficace pour la détection de ponts dans les RSI de grande taille. HBD-Net adopte l'architecture de fusion de fonctionnalités basée sur un détecteur indépendant (SDFF) et est optimisé grâce à la stratégie de repondération des échantillons sensibles à la forme (SSRW). L'architecture SDFF effectue une fusion de fonctionnalités inter-couches (IFF) pour fusionner le contexte multi-échelle dans la pyramide d'images dynamiques (DIP) d'images de grande taille, et la stratégie SSRW est utilisée pour assurer l'équilibre des poids de régression pour les ponts d'aspect différent. ratios.Sur la base de l'ensemble de données GLH-Bridge proposé, les auteurs ont établi une référence de détection de pont comprenant les tâches OBB et HBB, et ont vérifié l'efficacité du HBD-Net proposé.De plus, des expériences de généralisation d'ensembles de données croisées sur deux ensembles de données accessibles au public démontrent la forte capacité de généralisation de l'ensemble de données GLH-Bridge.

Adresse papier :

https://ieeexplore.ieee.org/document/10509806

L'ensemble de données est volumineux, dépassant les 20 Go, et nécessite un accès scientifique à Internet pour être téléchargé. Nous l'avons déjà téléchargé pour tout le monde.

Adresse de téléchargement de l'ensemble de données :

https://www.dilitanxianjia.com/15644/

Passé et présent

En tant qu’éléments clés de l’infrastructure, les ponts enjambent divers terrains et servent d’installations de transport de base. Ils revêtent une grande importance dans les transports civils, les opérations militaires et les secours en cas de catastrophe [1].Dans le même temps, la construction des ponts était rapide et fréquemment rénovée. . Par exemple, en 2012, il y avait environ 617 000 ponts aux États-Unis, et leur détérioration va s’accentuer au cours des 50 prochaines années, nécessitant plus de 125 milliards de dollars pour rattraper le retard accumulé dans les réparations. Par conséquent, l’efficience et l’efficacité de l’inspection des ponts sont cruciales pour mettre à jour en temps opportun les cartes de navigation et surveiller davantage la santé et l’état structurels des ponts [2], [3]. Les images de télédétection (RSI) conviennent comme données de base pour la détection des ponts en raison de leur large couverture géographique et de leur fréquence élevée de revisites. Dans le même temps, compte tenu des puissantes capacités de représentation de caractéristiques des réseaux profonds, la détection de ponts RSI basée sur l'apprentissage profond a un grand potentiel et est devenue un centre de recherche [4].

image

Comme le montre la figure 1, par rapport à d'autres objets courants, la détection de ponts multi-échelles dans les RSI est assez difficile en raison de deux caractéristiques principales : (i) diverses échelles d'objets. Dans les RSI haute résolution (VHR), la longueur des instances de pont varie de quelques pixels à des milliers de pixels. (ii) Rapports d'aspect extrêmes. Il existe des différences significatives dans l’étendue de l’allongement entre les ponts. Pour garantir la détectabilité des ponts petits ou étroits, l’utilisation d’images à très haute résolution (VHR) est cruciale. Dans le même temps, afin de garantir l’intégrité structurelle des ponts grands et longs dans les images VHR, il est nécessaire d’effectuer une détection globale des ponts dans des images de grande taille, ce qui impose des exigences strictes en matière d’ensembles de données et de méthodes. Malgré des progrès significatifs dans la détection d'objets multi-classes [12], [13], [14], [15], [16] et la détection de ponts [4], [11], [17],Cependant, il manque encore des ensembles de données à grande échelle et des méthodes appropriées pour la détection globale des ponts dans les RSI VHR de grande taille.

image

Comme le montre le tableau 1, bien que de nombreux ensembles de données de détection d'objets RSI populaires aient été créés [6], [7], [8], [18], le nombre de ponts dans ces ensembles de données est limité.De plus, les ensembles de données [4], [11] créés spécifiquement pour la détection de ponts sont souvent limités par la taille de l'échantillon et la taille de l'image. Certains ensembles de données existants fournissent uniquement des annotations de cadre de délimitation horizontale (HBB) au lieu d'annotations de cadre de délimitation orientées précises (OBB). Par conséquent, il semble irréaliste de former un modèle de détection de pont robuste et largement adaptable à l’aide de l’ensemble de données ci-dessus. Pour résoudre le problème de limitation des données, les auteurs ont construit GLH-Bridge, un ensemble de données à grande échelle pour la détection de ponts de RSI VHR de grande taille. GLH-Bridge contient 6 000 RSI VHR échantillonnés dans le monde et plus de 59 000 ponts annotés manuellement. Par rapport aux ensembles de données de détection de ponts existants, GLH-Bridge capture mieux les caractéristiques des ponts dans des scènes réelles en annotant les ponts à plusieurs échelles dans des RSI VHR de grande taille, couvrant divers types d'arrière-plan tels que la végétation, les lits de rivières asséchées et les routes. En bref, GLH-Bridge présente des avantages complets et significatifs par rapport aux ensembles de données de détection de ponts existants.

Pour faire progresser la recherche sur ce problème fondamental et pratique, les auteurs proposent une nouvelle tâche difficile et significative : la détection globale des ponts dans les RSI VHR à grande échelle.Pour résoudre ce problème, les solutions potentielles peuvent être divisées en quatre domaines principaux : (i) Compte tenu de la limitation de la mémoire GPU, les méthodes traditionnelles de détection d'objets basées sur l'apprentissage profond [15], [16], [19], [20], [21] adoptent généralement des stratégies de recadrage [7], [22]. Cependant, ces stratégies ont des limites inhérentes et ont tendance à couper de grands ponts, comme le montre la figure 1. En plus des stratégies de recadrage, certaines méthodes de détection d'objets traitent les images originales de grande taille via des stratégies de sous-échantillonnage à fenêtre fixe [23], [24], [25], ce qui entraîne une perte importante d'informations sur l'image (ii) des méthodes de diffusion en continu d'images de taille [26] ; pour les passes avant et arrière, mais ne peut pas prendre en charge les réseaux neuronaux profonds (DNN) avec normalisation ; (iii) la méthode LMS [27] utilise le déchargement de mémoire pour répartir la mémoire sur la mémoire système (DRAM CPU) et le partage de mémoire GPU. Cependant, elles introduisent une surcharge de temps importante et sont limitées par le taux d'expansion maximum de la mémoire ; (iv) les techniques de parallélisation de tenseurs multi-GPU [28], [29] devraient étendre les réseaux profonds pour prendre en charge le traitement global des images de grande taille. Cependant, ils nécessitent souvent beaucoup de ressources et sont difficiles à exploiter dans des conditions normales. En résumé, les méthodes existantes ne peuvent pas effectuer efficacement une détection globale des ponts des RSI VHR de grande taille avec des ressources informatiques ordinaires (telles qu'un seul GPU avec 24 Go de mémoire).

Compte tenu des limites des solutions potentielles mentionnées ci-dessus, les auteurs proposent un réseau holistique de détection de ponts (HBD-Net) spécialement conçu pour la détection de ponts de RSI VHR de grande taille. L'approche des auteurs présente deux avantages clés : (i) L'architecture de fusion de fonctionnalités basée sur un détecteur indépendant (SDFF), lorsqu'elle est appliquée à la pyramide d'images dynamiques (DIP), démontre un moyen efficace de traiter des images de grande taille avec une consommation minimale de ressources. (ii) La stratégie de repondération de l'échantillon sensible à la forme (SSRW) équilibre les poids de régression des ponts avec différents rapports d'aspect. Les résultats expérimentaux sur GLH-Bridge démontrent les excellentes performances du HBD-Net proposé.

En résumé, à la connaissance des auteurs, cet article est le premier à explorer la détection de pont intégral dans les RSI VHR à grande échelle.Les principales contributions de cet article sont les suivantes :

  • GLH-Bridge est proposé, le premier ensemble de données à grande échelle pour la détection de ponts de RSI VHR de grande taille.Cet ensemble de données contient 59 737 ponts couvrant une variété d’horizons, fournissant une représentation complète des ponts dans des scénarios réels.

  • Proposition d'un réseau de détection de pont holistique à faible coût (c'est-à-dire HBD-Net) pour les images de grande taille, qui peut traiter efficacement des images de grande taille et détecter de manière holistique les ponts multi-échelles grâce à une architecture SDFF bien conçue et une stratégie SSRW.

  • À l'aide de l'ensemble de données GLH-Bridge proposé, les auteurs créent un benchmark de détection de pont couvrant à la fois les tâches OBB et HBB. HBD-Net surpasse les algorithmes de pointe existants en termes de performances. De plus, l'auteur a mené des expériences de généralisation d'ensembles de données croisées pour démontrer la forte capacité de généralisation de GLH-Bridge. Les auteurs espèrent que ce benchmark pourra contribuer à l’évaluation de base de la détection d’objets dans des images de grande taille.

Ingéniosité

Les objectifs de l'auteur en développant un nouvel ensemble de données pour la détection de ponts sont doubles : (i) Combler le manque d'ensembles de données à grande échelle pour la détection de ponts dans des images de télédétection haute résolution à grande échelle (RSI VHR). (ii) Faire progresser une tâche nouvelle et difficile : la détection de ponts intégrés dans les RSI VHR à grande échelle.

image

Figure 2. Carte de répartition géographique des images échantillonnées à partir de l'ensemble de données GLH-Bridge proposé.

image

Figure 3. Exemple d'étiquetage selon la norme, où le cercle jaune indique la situation non étiquetée . (a) Les routes traversant des cours d'eau qui sont trop courbes ou de forme irrégulière ne seront pas balisées. (b) Deux connexions de bornes ne sont pas marquées.

image

Figure 4. Illustration des caractéristiques de l'ensemble de données GLH-Bridge. (a) Comparaison des caractéristiques des ponts dans différents ensembles de données. (b) Répartition de la zone du pont dans GLH-Bridge. (c) Répartition des longueurs de pont dans GLH-Bridge. (d) Répartition de la densité des ponts dans GLH-Bridge.

image

Figure 5. Exemples de ponts dans différents contextes dans l'ensemble de données GLH-Bridge. (a) Pont traversant la végétation. (b) Pont traversant le lit d'une rivière asséchée. c) Ponts traversant des routes. d) Ponts traversant des plans d'eau.

image

Figure 6. Processus HBD-Net proposé. Il contient l'architecture SDFF proposée et la stratégie SSRW. L'architecture SDFF se compose de détecteurs indépendants et de modules IFF. À partir de l’image VHR de grande taille d’entrée, les auteurs construisent un DIP et l’envoient au détecteur indépendant de SDFF pour obtenir des caractéristiques. Ensuite, les fonctionnalités de tous les détecteurs SDFF sont fusionnées via le module IFF pour partager des informations contextuelles et détaillées sur les textures. La stratégie SSRW est appliquée lors de l'étape de sélection d'échantillon du détecteur d'objets pour équilibrer les poids de régression. Enfin, les caractéristiques fusionnées de sortie sont introduites dans la tête du détecteur d'objets pour obtenir les résultats de chaque couche, qui sont utilisés pour calculer la perte avec les étiquettes de vérité terrain correspondantes.

image

Figure 7. Diagramme schématique du module IFF proposé.La figure montre la méthode de fusion de caractéristiques entre deux couches adjacentes.

image

Figure 8. Diagramme schématique de la stratégie SSRW proposée. Les points rouges et bleus représentent respectivement les échantillons positifs et négatifs sélectionnés par le détecteur d'objet. Pour les détecteurs basés sur des ancres, ces points correspondent aux emplacements de la carte de caractéristiques où les points d'ancrage ou les propositions ont été générés. Pour les détecteurs sans ancrage, ces points indiquent une grille sur la carte des caractéristiques. Par souci de clarté et de simplicité, les ancres ou les propositions (pour les méthodes basées sur des ancres) associées à des points d'échantillonnage ne sont pas présentées dans ce diagramme.

Performance excellente

image

perspectives d'avenir

Cet article propose un ensemble de données à grande échelle nommé GLH-Bridge pour la détection globale des ponts dans des images de télédétection haute résolution à grande échelle. L'ensemble de données proposé contient 6 000 images de télédétection haute résolution avec des tailles d'image allant de 2 048 × 2 048 à 16 384 × 16 384 pixels, contenant 59 737 ponts couvrant différents arrière-plans, avec des annotations OBB et HBB. La grande taille de l'image, la grande taille de l'échantillon et la diversité des échelles d'objets et des types d'arrière-plan font de GLH-Bridge un ensemble de données précieux avec les conditions préalables pour faire avancer une nouvelle tâche difficile mais de grande envergure : la détection globale de ponts à grande échelle en télédétection. images.De plus, les auteurs proposent HBD-Net, une solution rentable adaptée à la détection globale des ponts dans les images de grande taille.Sur la base de l'ensemble de données GLH-Bridge proposé,Les auteurs ont établi une référence et vérifié empiriquement l’efficacité du HBD-Net proposé. Dans les travaux futurs, les auteurs continueront d'enrichir la taille de l'échantillon et les annotations de sous-catégories de l'ensemble de données GLH-Bridge. En outre, les objectifs des auteurs incluent la généralisation du HBD-Net proposé pour satisfaire la détection d'objets multiclasses dans des images de grande taille. Les auteurs s'efforcent d'explorer des méthodes susceptibles d'améliorer la précision des ponts à grande et à petite échelle, élargissant ainsi l'applicabilité et l'efficacité de HBD-Net dans divers scénarios.