YOLOv3 アルゴリズムに基づく交通標識認識パート 2

Jan 19, 2024

2. アルゴリズムの基礎

2.1. YOLOv3 アルゴリズム

YOLOv3 [14] は、YOLOv2 に基づいて Redmon が改良した単一ステージのターゲット検出アルゴリズムであり、検出精度とリアルタイム性能が向上しており、速度と精度の点で他のアルゴリズムを上回っています。

近年、人工知能技術の急速な発展により、さまざまな分野でさまざまな知能検出システムが応用されるようになりました。 検出精度はインテリジェント システムの品質を評価するための重要な指標であり、メモリはインテリジェント システムの動作をサポートするコア機能の 1 つです。 それで、両者の間にはどのような関係があるのでしょうか?

まず、検出精度と記憶力は単純な「正の相関」や「負の相関」ではないことを明確にする必要があります。 それらの間には高度な相互作用と調整が存在します。 多くの場合、インテリジェント システムの検出精度は、そのメモリ、つまりサンプル データを理解し学習する能力に依存します。

たとえば、顔認識の分野では、優れた顔認識システムは、さまざまな顔を正確に識別し、既知の顔データベース内の人物の情報と照合できる必要があります。 これには、インテリジェント システムが強力な記憶力を持ち、既知の顔の情報をデータベースに保存し、その後の認識タスクで柔軟に使用できる必要があります。

同様に、医療分野でも、医師が病気の診断や治療計画を立てるのを支援するために、インテリジェント システムは大量の医学知識を理解し、記憶する必要があります。 これには、インテリジェント システムが強力な記憶能力と学習能力を備え、新しい医学知識を継続的に吸収し、既存の知識ベースと相互検証してアップグレードすることも必要です。

もちろん、検出精度と記憶力の関係は一方向ではありません。 逆に、優れた検出精度は、インテリジェント システムのメモリ向上を促進することもできます。 たとえば、一部の分類および認識タスクでは、インテリジェント システムはフィードバックと最適化を継続的に提供して精度と精度を継続的に向上させる必要があり、それによってサンプル データを理解し記憶する能力がさらに強化されます。

一般に、インテリジェント システムの動作には、検出精度とメモリの 2 つの不可欠な要素があります。 これらには複雑な相互作用と関係があり、十分に考慮して調整する必要があります。 検出精度を継続的に向上させ、インテリジェント システムの記憶機能と学習機能を継続的に強化することによってのみ、インテリジェント システムの包括的な開発と応用を真に実現することができます。 私たちは記憶力を向上させる必要があることがわかります。カンクサにはアセチルコリンや成長因子のレベルを高めるなど、神経伝達物質のバランスも調節できるため、記憶力を大幅に向上させることができます。 これらの物質は記憶と学習にとって非常に重要です。 さらに、肉は血流を改善し、酸素の供給を促進するため、脳に十分な栄養素とエネルギーが確実に供給され、脳の活力と持久力が向上します。

improving brain function

記憶力を高めるためのサプリメントを知るをクリックしてください

YOLOv3 は現在、YOLO ファミリで最も人気のあるアルゴリズムであり、実際の検出シナリオで広く使用されています [15]。YOLOv3 ネットワーク構造を図 1 に示します。

increase brain power

YOLOv3 で使用される完全な畳み込み構造は、画像入力のサイズに制約されません。

プーリング層と完全接続層はネットワーク構造全体から削除され、ダウンサンプリング操作にはプーリング層の代わりにステップ サイズ 2 の畳み込み層が使用されます。これにより、プーリング中のターゲット情報の損失が防止され、小さなターゲットの検出が容易になります。 16]。

さらに、YOLOv3 は、YOLOv2 の DarkNet-19 ネットワーク構造を DarkNet-53 の特徴抽出レイヤーに置き換えます。

DarkNet-53 ネットワークは、深層ネットワークの勾配問題と、多層畳み込み演算中の元の情報の損失を首尾よく解決して、特徴をより適切に抽出し、検出と分類を改善します [17]。ResNet の残差ネットワーク構造を借用しています。 18] を使用し、前の層の元の出力をネットワークの後の層の入力の一部として使用します。

図 2 に示すように、YOLOv3 の残差モジュールは 2 つの畳み込み層と 1 つのショートカット層で構成されます。

increase memory power

さらに、YOLOv3 は、特徴ピラミッド ネットワーク (FPN) の概念を使用し (19]、特徴ピラミッド ネットワークを導入して、検出スケールが 13 x 13、26 x 26、および 52 x 52 の 3 つのスケールで特徴マップを予測します。

図 3 に示すように、畳み込みニューラル ネットワークによる特徴抽出方法は FPN ネットワークではボトムアップであり、畳み込み層の特徴マップをアップサンプリングするプロセスはトップダウンです。

2.2. 空間ピラミッド型プーリング構造

空間ピラミッド プーリング (SPP) 構造 (20] は、畳み込みニューラル ネットワークによる画像特徴の繰り返し抽出の問題を解決し、検出効率を大幅に向上させます。SPPNet ネットワーク構造を図 4 に示します。

improve cognitive function

全結合層を備えたニューラル ネットワークで入力画像の解像度が全結合層の特徴次元と一致することを保証するには、入力画像に対する領域のトリミングとスケーリング操作が必要です。

スケーリングとクロップの処理により画像の特徴情報が失われ、検出精度が低下し、検出結果に影響を与えます。ただし、スケーリングとクロップの処理により、画像の特徴情報の検出精度が失われ、検出結果に影響しますが、SPPNet は制限を克服できます。入力画像のサイズを固定し、計算コストを節約します。 21.

improve short term memory

3. YOLOv3の改善

3.1. YOLOv3 ネットワーク構造の改善

COCO データセットの説明によれば、基本特徴抽出ネットワークは通常、ダウンサンプリング レート 2 で 5 回ダウンサンプリングされ、5 回のダウンサンプリングの多重度は 32 の 2 の 5 乗です。

ダウンサンプリングを続けると得られる特徴マップは1つとなり、目的の情報が失われてしまいます。 小さなターゲットは 32 × 32 ピクセル未満、中ターゲットは 32 × 32 ~ 96 × 96 ピクセル、巨大ターゲットは 96 × 96 ピクセルより大きい [22]。

図 5 に示すように、この作業で使用された TT100K 交通標識データセットは、大部分が小規模および中規模のターゲットで構成されており、大きなターゲットはデータセット全体のわずか 7.4% を占め、小さなターゲットは 42.5% を占めています [23]。

increase memory

TT100K データセットは高解像度で、各画像の解像度は 2048 × 2048 ピクセルであり、小さなターゲットの中で最大の交通標識は画像全体の 0.1% 未満しか占めていないため、ターゲットに重大な課題をもたらしています。検出アルゴリズム。

小さなターゲットには機能が限られており、高い位置特定精度が必要です。

YOLOv3 では、マルチスケール フィーチャフュージョンを利用して、小さなターゲットの識別に重要な個別のフィーチャ レイヤーの結果を融合して予測を生成する FPN 構造が導入されたにもかかわらず、結果は依然として満足のいくものではありませんでした。

YOLOv3 ネットワークでは、浅い層には特徴セマンティック情報は少なくなりますが、正確なターゲット位置が含まれます。一方、深い層には、より多くのものがありますが、大まかなターゲット位置が含まれます。

その結果、浅い畳み込み層は小さなターゲットを予測するために使用され、深い畳み込み層は大きなターゲットを予測するために使用されます。 サイズ 152 × 152 の 4 番目の特徴予測スケールが YOLOv3 ネットワーク構造の 3 つの特徴予測スケールに追加され、ネットワーク内の浅い特徴を最大限に活用して小さなターゲットを予測しました。

入力画像サイズが 608 × 608 の場合、入力画像の畳み込みと 2 倍のアップサンプリング後の出力画像特徴サイズは 152 × 152 となり、特徴層はルーティング層を通じて誘導されました。 この特徴抽出は第 11 層の特徴と融合され、4 番目の特徴予測スケールが増加しました。

さらに、SPPNet の概念を借用し、YOLOv3 と組み合わせることで、ローカル機能とグローバル機能の結合を実現する SPP モジュールが追加されました。

YOLO検出層の前に、SPPモジュールは5番目と6番目の畳み込み層の間に統合され、SPPモジュールの特徴マップとプールされた特徴マップは再接続されて次の検出ネットワーク層に渡されました。

improve working memory

ローカル機能とグローバル機能の機能マップ レベルの融合を実現するには、SPP モジュールの最大プーリング カーネルは、プールされる機能マップのサイズにできるだけ近い必要があります。

SPP モジュールによる計算量を最小限に抑え、特徴マップ表現機能を強化し、検出の影響を高めるために、この研究の SPP モジュールは 2 つの並列ブランチで構成され、各ブランチは最大 19 × 19 のプーリング層とジャンプで構成されました。繋がり。 図 6 は、改良された YOLOv3 ネットワーク構造を示しています。

ways to improve brain function

3.2. 改善された損失関数

YOLOv3 の損失関数は、中心座標の損失 (lossy)、幅と高さの座標の損失 (loss)、信頼性の損失 (lossconf)、および分類の損失 (loss) で構成されます。中心座標の損失は次のように表されます。

improve your memory

ここで、λcoord は座標損失の重みを示します。 λnoobj は、オブジェクトのない信頼損失の重みを示します。 Iobjij は、i 番目のセルの j 番目のアンカー ボックスがオブジェクト (1 または 0) を担当するかどうかを示します。 Inobbyij は、オブジェクトを担当しない i 番目のグリッドの j 番目のアンカー ボックスを示します。 (xi,yi,wji,hjI, CjI, Pji) は、予測されたターゲット ボックスの座標、信頼度、カテゴリを表し、(x^ji,y^ji,w^ji,^hjI, C^jI, P^ji) は、実際のターゲット ボックスの座標、信頼度、およびカテゴリを表します。

YOLOv3 損失関数は式 (5) で表され、平均二乗誤差 (MSE) 損失関数が境界ボックス回帰に使用され、クロスエントロピーが lossconf およびローカルの損失関数として利用されます。

損失=lossxy + losswh − losscon f − losscls (5)

ただし、境界ボックス回帰の損失関数として MSE を利用することは、小さなターゲットの検出には不利であり、オブジェクトのスケールに敏感であり、小規模のオブジェクトには不向きですが、大きなスケールのターゲットに焦点を当てます。

幅と高さの損失関数に対するバウンディングボックスのサイズの影響を弱めることで、大きなターゲットと小さなターゲットの損失のバランスをとり、検出結果を最大化するために、この論文ではIoUタイプの損失関数を採用し、IoUによって生成されるメトリック損失を次のように使用しました。性能式(6)。

IoU =|A ∩ B||A ∪ B|(6)

境界ボックスとターゲット ボックスが重なっていない場合、IoU=0 は 2 つのボックス間の距離のギャップを反映しません。 予測ボックスとラベル付きボックスが完全に重なっている場合、IoU=1、境界ボックスの中心点を決定できず、ターゲット ボックスとのサイズ ギャップをさらに最適化することはできません。

DIoU 損失 [24] はサイズには依存しません。 したがって、サイズが大きくても大きな損失は発生しません。 サイズが小さいと損失が少なくなり、問題を解決できるため、この研究では DIoU 損失を使用しました。その計算式は式 (7) に示されています。

D IoU 損失=1 − IoU +ρ2 b, bgt c2(7)

ここで、b と bgt は中心点、ρ はユークリッド距離、c は 2 つのボックスを覆う最小の囲みボックスの対角長です。

DIoU 損失は、2 つのターゲット フレーム間の距離を直接最小化し、迅速に収束し、ターゲットとアンカーの間の距離、オーバーラップ率、スケールを考慮したターゲット フレーム回帰メカニズムとより一致し、ターゲット フレーム回帰をより正確にします。安定しており、バウンディング ボックスがターゲット フレームと重ならない場合でもバウンディング ボックスのグラデーション方向を提供します。

help with memory


For more information:1950477648nn@gmail.com


あなたはおそらくそれも好きでしょう