技術共有

全体学習に基づく大判超高解像度リモートセンシング画像における橋梁目標検出(データセットのダウンロードアドレスを含む)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

記事の概要

遠隔検知画像 (RSI) における橋梁検出は、さまざまなアプリケーションで重要な役割を果たしますしかし、橋の検出は他の物体検出と比べて独特の課題に直面しています。 RSI 間で、橋の空間スケールとアスペクト比はかなり異なります。したがって、橋の可視性と完全性を確保するには、大規模な高解像度 (VHR) RSI による橋全体の検査が必要です。ただし、VHR RSI の大規模なデータセットが不足しているため、橋梁検出における深層学習アルゴリズムのパフォーマンスが制限されます。大きなサイズの画像を処理する場合は GPU メモリの制限があるため、深層学習ベースのオブジェクト検出方法では通常、トリミング戦略が採用されますが、これにより必然的にラベルの断片化と予測の不連続が発生します。データセットの不足を軽減するには、この記事では、世界中のさまざまな地理的場所からサンプリングされた 6,000 個の VHR RSI を含む、GLH-Bridge と呼ばれる大規模なデータセットを提案しています。画像のサイズは 2,048 × 2,048 ~ 16,384 × 16,384 ピクセルの範囲で、合計 59,737 個の橋が含まれています。橋はさまざまな背景にまたがっており、各橋には指向性バウンディング ボックス (OBB) と水平バウンディング ボックス (HBB) を使用して手動で注釈が付けられます。さらに、著者らは、大規模な RSI における橋梁検出のための効率的なホリスティック橋検出ネットワーク (HBD-Net) を提案します。 HBD-Net は、独立検出器ベースの特徴融合 (SDFF) アーキテクチャを採用し、形状依存サンプル再重み付け (SSRW) 戦略を通じて最適化されています。 SDFF アーキテクチャは、層間特徴融合 (IFF) を実行して、大きなサイズの画像のダイナミック イメージ ピラミッド (DIP) でマルチスケール コンテキストを融合します。SSRW 戦略は、異なるアスペクトを持つブリッジの回帰重みのバランスを確保するために使用されます。比率。著者らは、提案された GLH-Bridge データセットに基づいて、OBB および HBB タスクを含むブリッジ検出ベンチマークを確立し、提案された HBD-Net の有効性を検証しました。さらに、2 つの公的に利用可能なデータセットに対するデータセット間の一般化実験により、GLH-Bridge データセットの強力な一般化能力が実証されました。

用紙のアドレス:

https://ieeexplore.ieee.org/document/10509806

データセットのサイズは 20G を超えており、ダウンロードするにはインターネットへの科学的アクセスが必要です。すでに全員がダウンロードしています。

データセットのダウンロードアドレス:

https://www.dilitanxianjia.com/15644/

今昔

重要なインフラコンポーネントである橋は、さまざまな地形にまたがり、基本的な交通機関として機能します。それらは民間輸送、軍事作戦、災害救援において非常に重要です[1]。同時に、橋の建設は急速に進められ、頻繁に改修が行われました。 。たとえば、2012 年の時点で米国には約 61 万 7,000 の橋があり、今後 50 年間で劣化が進み、未処理の修理には 1,250 億ドル以上が必要となるでしょう。したがって、ナビゲーション マップをタイムリーに更新し、橋の構造的健全性と状態をさらに監視するには、橋梁検査の効率と有効性が非常に重要です [2]、[3]。リモート センシング画像 (RSI) は、地理的にカバー範囲が広く、再訪問の頻度が高いため、橋梁検出の基礎データとして適しています。同時に、ディープネットワークの強力な特徴表現能力を考慮すると、ディープラーニングに基づく RSI ブリッジ検出には大きな可能性があり、研究の焦点となっています [4]。

写真

図 1 に示すように、他の一般的なオブジェクトと比較して、RSI 内のマルチスケール ブリッジの検出は、次の 2 つの主な特徴により非常に困難です。(i) オブジェクトのスケールが多様である。高解像度 (VHR) RSI では、ブリッジ インスタンスの長さは数ピクセルから数千ピクセルまで変化します。 (ii) 極端なアスペクト比。橋ごとに伸びの程度には大きな差があります。小さい橋や狭い橋を確実に検出するには、非常に高解像度 (VHR) 画像の使用が重要です。同時に、VHR 画像で大規模で長い橋の構造の完全性を追求するには、大サイズの画像で橋全体の検出を実行する必要があり、データセットと手法の両方に厳しい要件が課されます。マルチクラスの物体検出 [12]、[13]、[14]、[15]、[16] および橋梁検出 [4]、[11]、[17] における大きな進歩にもかかわらず、ただし、大規模な VHR RSI における全体的なブリッジ検出のための大規模なデータセットと適切な方法はまだ不足しています。

写真

表 1 に示すように、多くの一般的な RSI 物体検出データセットが作成されています [6]、[7]、[8]、[18] が、これらのデータセット内の橋の数は限られています。さらに、橋梁検出用に特別に作成されたデータセット [4]、[11] は、多くの場合、サンプル サイズと画像サイズによって制限されます。一部の既存のデータセットは、精密指向バウンディング ボックス (OBB) アノテーションではなく、水平バウンディング ボックス (HBB) アノテーションのみを提供します。したがって、上記のデータセットを使用して、堅牢で広範囲に適応可能な橋梁検出モデルをトレーニングすることは非現実的であるように思われます。データ制限の問題に対処するために、著者らは、大規模な VHR RSI のブリッジ検出用の大規模データセットである GLH-Bridge を構築しました。 GLH-Bridge には、世界中でサンプリングされた 6,000 の VHR RSI と、手動で注釈が付けられた 59,000 を超えるブリッジが含まれています。既存の橋梁検出データセットと比較して、GLH-Bridge は、植生、河川敷、道路地物などのさまざまな背景タイプをカバーする、大規模な VHR RSI 内のマルチスケール橋梁に注釈を付けることで、実際のシーンにおける橋梁の特徴をより適切に捕捉します。つまり、GLH-Bridge は、既存の橋梁検出データセットと比較して、包括的な利点と大きな利点を実証します。

この基本的かつ実際的な問題に関する研究を進めるために、著者らは、大規模な VHR RSI における橋全体の検出という、新しく挑戦的で有意義なタスクを提案しています。この課題を解決するには、考えられる解決策を次の 4 つの主要な領域に分けることができます。 (i) GPU メモリの制限を考慮して、主流の深層学習ベースのオブジェクト検出方法 [15]、[16]、[19]、[20]、[21] は通常、クロッピング戦略 [7]、[22] を採用します。ただし、これらの戦略には固有の制限があり、図 1 に示すように、大きな橋が切断される傾向があります。トリミング戦略に加えて、一部のオブジェクト検出方法は、固定ウィンドウ ダウンサンプリング戦略 [23]、[24]、[25] を通じて元の大きなサイズの画像を処理するため、(ii) ストリーミング方法 [26] サイズの画像が大幅に失われます。 (iii) LMS メソッド [27] は、メモリ オフロードを使用してシステム メモリ (CPU DRAM) と GPU メモリ共有全体にメモリを分散します。ただし、これらは大幅な時間オーバーヘッドをもたらし、最大メモリ拡張率によって制限されます。(iv) マルチ GPU テンソル並列化技術 [28]、[29] は、大規模な画像の全体的な処理をサポートするためにディープ ネットワークを拡張すると期待されています。ただし、多くの場合、リソースを大量に消費するため、日常的な条件下で運用するのは困難です。要約すると、既存の方法では、通常のコンピューティング リソース (24 GB メモリを備えた単一の GPU など) の下では、大規模な VHR RSI の全体的なブリッジ検出を効果的に実行できません。

前述の潜在的なソリューションの制限を考慮して、著者らは、特に大規模な VHR RSI のブリッジ検出用に設計されたホリスティック ブリッジ検出ネットワーク (HBD-Net) を提案します。著者らのアプローチには 2 つの重要な利点があります。 (i) 独立した検出器ベースの特徴融合 (SDFF) アーキテクチャをダイナミック イメージ ピラミッド (DIP) に適用すると、最小限のリソース消費で大きなサイズの画像を処理する効率的な方法が実証されます。 (ii) 形状依存サンプル再重み付け (SSRW) 戦略は、異なるアスペクト比を持つ橋の回帰重みのバランスをとります。 GLH-Bridge の実​​験結果は、提案された HBD-Net の優れたパフォーマンスを示しています。

要約すると、著者の知る限り、この論文は大規模な VHR RSI における統合ブリッジ検出を検討した最初の論文です。この記事の主な貢献は次のとおりです。

  • GLH-Bridge は、大型 VHR RSI のブリッジ検出のための最初の大規模データセットとして提案されています。このデータセットには、さまざまな背景をカバーする 59,737 の橋が含まれており、現実のシナリオにおける橋の包括的な表現を提供します。

  • 大規模画像向けの低コストの総合的ブリッジ検出ネットワーク (すなわち、HBD-Net) を提案します、適切に設計された SDFF アーキテクチャと SSRW 戦略を通じて、大きなサイズの画像を効率的に処理し、マルチスケールの橋を総合的に検出できます。

  • 著者らは、提案された GLH-Bridge データセットを利用して、OBB タスクと HBB タスクの両方をカバーするブリッジ検出ベンチマークを作成しました。 HBD-Net は、パフォーマンスにおいて既存の最先端のアルゴリズムを上回ります。さらに、著者は、GLH-Bridge の強力な一般化能力を実証するために、データセット間の一般化実験を実施しました。著者らは、このベンチマークが大サイズ画像における物体検出の基礎的な評価に貢献できることを期待しています。

創意工夫

橋梁検出用の新しいデータセットを開発する際の著者の目標は 2 つでした。 (i) 大規模な高解像度リモート センシング画像 (VHR RSI) で橋を検出するための大規模なデータセットのギャップを埋める。 (ii) 大規模な VHR RSI における統合ブリッジ検出という、斬新かつ挑戦的なタスクを推進する。

写真

図 2. 提案された GLH-Bridge データセットからサンプリングされた画像の地理的分布図。

写真

図 3. 規格に従ったラベル付けの例。黄色の丸はラベルなしの状況を示します。 。 (a) 水を横切る道路が過度に湾曲していたり​​、形状が不規則であったりする場合は、標識は表示されません。 (b) 2 つの端子接続にはマークが付けられていません。

写真

図 4. GLH-Bridge データセットの機能の図。 (a) 異なるデータセットにおける橋の特性の比較。 (b) GLH-Bridge における橋梁エリアの分布。 (c) GLH-Bridge における橋長の分布。 (d) GLH-Bridge における橋梁密度の分布。

写真

図 5. GLH-Bridge データセット内のさまざまなコンテキストにおける橋の例。 (a) 植生を渡る橋。 (b) 乾いた河床を渡る橋。 (c) 道路を横断する橋。 (d) 水域を横断する橋。

写真

図 6. 提案された HBD-Net プロセス。これには、提案された SDFF アーキテクチャと SSRW 戦略が含まれています。 SDFF アーキテクチャは、独立した検出器と IFF モジュールで構成されます。入力された大型 VHR 画像から開始して、著者らは DIP を構築し、それを SDFF の独立した検出器に送信して特徴を取得します。次に、すべての SDFF 検出器の機能が IFF モジュールを通じて融合され、コンテキストおよび詳細なテクスチャ情報が共有されます。 SSRW 戦略は、回帰重みのバランスをとるために、オブジェクト検出器のサンプル選択段階で適用されます。最後に、出力融合特徴が物体検出器のヘッドに入力されて各層の結果が取得され、その結果は対応するグラウンド トゥルース ラベルで損失を計算するために使用されます。

写真

図 7. 提案された IFF モジュールの概略図。この図は、2 つの隣接するレイヤー間の特徴融合方法を示しています。

写真

図 8. 提案された SSRW 戦略の概略図。赤と青の点は、それぞれ物体検出器によって選択された正のサンプルと負のサンプルを表します。アンカーベースの検出器の場合、これらのポイントは、アンカー ポイントまたは提案が生成された特徴マップの位置に対応します。アンカーレス検出器の場合、これらの点は特徴マップ上のグリッドを示します。明瞭さと単純さを維持するために、サンプル ポイントに関連付けられたアンカーまたは提案 (アンカー ベースのメソッドの場合) は、この図には示されていません。

素晴らしい演技

写真

今後の展望

この論文では、大規模な高解像度リモートセンシング画像における橋梁全体の検出のために、GLH-Bridge という名前の大規模データセットを提案します。提案されたデータセットには、画像サイズが 2,048 × 2,048 ~ 16,384 × 16,384 ピクセルの範囲の 6,000 枚の高解像度リモート センシング画像が含まれており、さまざまな背景にまたがる 59,737 個の橋が含まれており、OBB および HBB アノテーションが付いています。大きな画像サイズ、大きなサンプル サイズ、オブジェクトのスケールと背景の種類の多様性により、GLH-Bridge は、リモート センシングにおける全体的な橋梁の高解像度という、新たな挑戦的だが広範囲にわたるタスクを推進するための前提条件を備えた貴重なデータセットとなっています。画像。さらに、著者らは、大きなサイズの画像における橋梁全体の検出に合わせた費用対効果の高いソリューションである HBD-Net を提案しています。提案された GLH-Bridge データセットに基づいて、著者らはベンチマークを確立し、提案された HBD-Net の有効性を実証的に検証しました。今後の作業で、著者らは GLH-Bridge データセットのサンプル サイズとサブカテゴリ アノテーションを強化し続ける予定です。さらに、著者らの目標には、提案された HBD-Net を一般化して、大きなサイズの画像におけるマルチクラスのオブジェクト検出を満たすことが含まれます。著者らは、大規模と小規模の両方の橋梁の精度を向上させ、それによってさまざまなシナリオにおける HBD-Net の適用性と有効性を拡大できる方法の探索に努めています。