Reconhecimento de sinais de trânsito com base no algoritmo YOLOv3, parte 1

Jan 19, 2024

Abstrato:

A detecção de sinais de trânsito é um componente essencial de um sistema de transporte inteligente, pois fornece dados críticos de tráfego rodoviário para a tomada de decisões e controle de veículos.

À medida que a urbanização acelera, a população e o número de veículos continuam a aumentar, e problemas como o congestionamento do trânsito e os acidentes de segurança tornam-se cada vez mais graves, trazendo grandes inconvenientes e pressão à vida e ao trabalho das pessoas. Portanto, o surgimento de sistemas de transporte inteligentes trouxe grande comodidade às nossas vidas e também pode melhorar a segurança no trânsito. Os sistemas de transporte inteligentes também são inseparáveis ​​da memória humana.

Em primeiro lugar, os sistemas de transporte inteligentes podem utilizar meios de alta tecnologia para recolher e analisar informações de trânsito e fornecer às pessoas condições de trânsito detalhadas e precisas, o que ajuda a facilitar a viagem das pessoas e a evitar atrasos devido a informações de trânsito imprecisas, como semáforos. Para os motoristas, o sistema de transporte inteligente pode realizar análises e monitoramento em tempo real de suas rotas de condução, lembrar os motoristas de ajustar suas rotas de condução prontamente durante períodos especiais e reduzir a ocorrência de engarrafamentos, atrasos, etc. ajuda a atenção do motorista, reduz a fadiga durante a condução e, assim, melhora a segurança ao dirigir.

Em segundo lugar, o sistema de transporte inteligente também pode ser conectado ao telemóvel do condutor, à navegação do veículo e a outros sistemas através de meios técnicos como a Internet dos Veículos. Desta forma, as pessoas podem obter as informações de trânsito mais recentes a qualquer momento, conhecer o ambiente de trânsito atual e ajustar prontamente os seus planos de viagem. Ao mesmo tempo, também pode cooperar com os sistemas de controle de segurança e assistência à condução do veículo para garantir uma condução segura. Por exemplo, depois que os motoristas dominarem as rotas de condução, as informações de trânsito, etc. fornecidas pelo sistema de transporte inteligente, eles dirigirão o veículo de forma mais focada e estável, não cairão em confusão devido a mudanças repentinas nas rotas, etc., e também irão ser capaz de agir rapidamente em emergências. reagir.

Finalmente, o sistema de transporte inteligente também pode definir regras de gestão de tráfego correspondentes de acordo com as diferentes situações de tráfego urbano para garantir a viagem segura de veículos e pedestres e evitar acidentes de trânsito. Por exemplo, alterar a hora e a frequência dos semáforos com base no congestionamento do tráfego, fornecer lembretes de limite de velocidade em troços de estrada, etc., permite aos condutores responder corretamente quando se deparam com condições de estrada complexas, garantindo assim a fluidez do trânsito. e segurança.

Resumindo, existe uma estreita ligação entre os sistemas de transporte inteligentes e a memória humana. Os sistemas de transporte inteligentes podem proporcionar-nos um melhor ambiente de condução, reduzir a carga das pessoas ao conduzir e, assim, melhorar a memória das pessoas. O desenvolvimento de sistemas de transporte inteligentes é uma tendência inevitável na construção das nossas cidades modernas. Percebe-se que precisamos melhorar a memória, e a Cistanche deserticola pode melhorar significativamente a memória porque a Cistanche deserticola é um material medicinal tradicional chinês que tem muitos efeitos únicos, um dos quais é melhorar a memória. A eficácia da carne picada vem dos vários ingredientes ativos que ela contém, incluindo ácidos, polissacarídeos, flavonóides, etc. Esses ingredientes podem promover a saúde do cérebro de várias maneiras.

improve memory

Clique em conhecer 10 maneiras de melhorar a memória

Para resolver os desafios de pequenos sinais de trânsito, características imperceptíveis e baixa precisão de detecção, é proposto um método de reconhecimento de sinais de trânsito baseado no YOLOv3 aprimorado (You Only Look Once v3).

A estrutura de pooling de pirâmide espacial é fundida na estrutura de rede YOLOv3 para alcançar a fusão de recursos locais e recursos globais, e a quarta escala de previsão de recursos de tamanho 152 × 152 é introduzida para fazer uso total dos recursos superficiais da rede para prever pequenos alvos.

Além disso, a regressão da caixa delimitadora é mais estável quando a perda de distância IoU (DIoU) é usada, que leva em consideração a distância entre o alvo e a âncora, a taxa de sobreposição e a escala.

As 12 âncoras do conjunto de dados de sinais de trânsito Tsinghua – Tencent 100K (TT100K) são recalculadas usando o algoritmo de agrupamento K-means, enquanto o conjunto de dados é balanceado e expandido para resolver o problema de um número ímpar de classes de destino no conjunto de dados TT100K.

O algoritmo é comparado ao YOLOv3 e outros algoritmos de detecção de alvos comumente usados, e os resultados mostram que o algoritmo YOLOv3 aprimorado atinge uma precisão média média (mAP) de 77,3%, que é 8,4% maior que o YOLOv3, especialmente na detecção de alvos pequenos, onde o mAP é melhorado em 10,5%, melhorando significativamente a precisão da rede de detecção, mantendo o desempenho em tempo real o mais alto possível.

A precisão da rede de detecção é substancialmente melhorada, mantendo o desempenho da rede em tempo real o mais alto possível.

Palavras-chave:

Reconhecimento de sinais de trânsito; YOLOv3; estrutura de agrupamento piramidal espacial.

1. Introdução

Atualmente, a condução automatizada e os sistemas de transporte inteligentes (ITS) são as principais aplicações para tecnologias de detecção e identificação de sinais de trânsito.

Ele pode fornecer aos motoristas e veículos autônomos informações cruciais sobre o trânsito, para que estes possam fazer julgamentos de acordo com os regulamentos da estrada ou alertar e direcionar os comportamentos operacionais dos motoristas a tempo de reduzir os acidentes de trânsito.

short term memory how to improve

Os sinais de trânsito podem ser divididos em três categorias: sinais direcionais, sinais de alerta e sinais de proibição. Esses sinais têm design redondo ou triangular e são vermelhos, amarelos e azuis.

Portanto, o reconhecimento clássico de sinais de trânsito normalmente usa técnicas de aprendizado de máquina para reconhecer sinais de trânsito ou extrair informações como cor e formato dos sinais de trânsito.

A segmentação de cores para extrair características antes da identificação da classificação é usada na detecção de sinais de trânsito baseada em cores, que é facilmente afetada por variações de iluminação. A segmentação de cores não é influenciada pelas variações de brilho, de acordo com a literatura anterior [1], e utiliza o espaço HIS para examinar apenas matiz e saturação.

Devido às altas demandas de reconhecimento de cores em variáveis ​​como clima e distância de detecção, a abordagem de detecção baseada em recursos de cores pode ser empregada para reconhecimento de imagens de alta definição, mas não para reconhecimento de imagens em escala de cinza [2].

Uma abordagem de identificação de sinais de trânsito baseada na forma em imagens em escala de cinza foi proposta em outra literatura [3], que transforma a detecção de sinais de trânsito triangulares em detecção simples de segmento de linha, que pode reconhecer adequadamente os sinais de trânsito e não é afetada pela distância.

Um sistema de detecção e reconhecimento de sinais de trânsito baseado em máquina de vetores de suporte foi proposto em outra literatura [4], que utiliza a propriedade de generalização de uma máquina de vetores de suporte linear para primeiro segmentar a cor dos sinais de trânsito e depois classificar a forma.

O método de detecção separada de características de cor e forma primeiro realiza a segmentação de cores para obter a região de interesse e, se a região de interesse não for detectada, a detecção baseada em forma não será mais realizada; segundo, a segmentação de cores requer que um limite fixo seja definido manualmente, tornando a detecção de sinais de trânsito complicada e demorada.

Para resolver esses problemas e aumentar o desempenho da detecção, um estudo [5] usou a estrutura AdaBoost para realizar detecção simultânea de modelagem de cores e formas.

Mudanças nas condições externas, como semáforos, mudanças na cor dos sinais de trânsito e assim por diante, podem afetar a detecção de sinais de trânsito com base em cores e formas.

O impacto da detecção é instável, prejudicando o desempenho do sistema de reconhecimento de sinais de trânsito e tornando-o vulnerável ao vazamento de sinais de trânsito e à falsa detecção. As redes neurais estão sendo usadas com mais frequência para detectar alvos à medida que a tecnologia de aprendizagem profunda avança; exemplos desses algoritmos incluem Faster R-CNN [6], SSD [7] e YOLO [8], etc., que são principalmente separados em abordagens de detecção de estágio único e de dois estágios.

Um estudo anterior [9] apresentou uma rede de detecção aprimorada baseada em YOLOv1 para resolver os problemas de baixa precisão e velocidade de detecção lenta dos métodos padrão de detecção de sinais de trânsito.

Esta rede melhorou a velocidade de detecção de sinais de trânsito e reduziu os requisitos de hardware do sistema de detecção. Outro estudo [10] sugeriu uma abordagem de detecção de sinais de trânsito baseada em FasterRCNN aprimorado, com uma melhoria de 12,1% no mAP, que abordou com sucesso questões como baixa eficiência de reconhecimento e aumentou a precisão da detecção e reconhecimento de sinais de trânsito.

Em [11], o conjunto de dados CCTSDB foi obtido expandindo o conjunto de dados de sinais de trânsito chinês (CTSD) e atualizando as informações do marcador com base no algoritmo aprimorado de detecção de alvo YOLOv2. O conjunto de dados CCTSDB continha apenas três categorias de sinais de trânsito, o que é insuficiente para completar a desafiadora tarefa de reconhecimento de sinais de trânsito.

O conjunto de dados TT100K [12], criado pela Universidade de Tsinghua e Tencent em colaboração, foi extraído do panorama chinês do Street View e cobre uma ampla gama de condições de iluminação e climáticas, tornando-o mais representativo do ambiente de condução real. O estudo [13] usou DenseNet em vez de ResNet na rede backbone do YOLOv3 e validou-o experimentalmente no conjunto de dados TT100K.

ways to improve memory

O algoritmo melhora o desempenho em tempo real do modelo de detecção, mas a precisão e a recuperação tendem a ser baixas quando se trata de alvos pequenos, como sinais de trânsito, o que implica sérios erros de detecção.

A tarefa de detecção frequentemente se torna mais desafiadora em tarefas de detecção de alvos, uma vez que o alvo a ser detectado é normalmente grande e suas características podem ser facilmente extraídas.

Devido à estrutura FPN introduzida pelo YOLOv3, ele agora é capaz de detectar alvos em várias escalas, utilizando a fusão de recursos em múltiplas escalas, o que é apropriado para cenas de tráfego complicadas e tem se mostrado promissor na detecção de alvos pequenos. No entanto, ainda há espaço para melhorias nas imagens de alta resolução do conjunto de dados de sinais de trânsito TT100K.

Concluindo, a abordagem baseada em redes neurais pode resolver com sucesso problemas com baixa eficiência de reconhecimento, detecção perdida e detecção falsa, ao mesmo tempo que aumenta a precisão da detecção e reconhecimento de sinais de trânsito.

Os métodos baseados em redes neurais têm melhor precisão ou detecção mais rápida do que os métodos tradicionais, mas não podem obter velocidade e precisão de detecção. Além disso, a maior parte da detecção de sinais de trânsito usa o GermanTraffic Sign Dataset (GTSDB), e os sinais de trânsito na Alemanha são diferentes daqueles na China; há menos estudos sobre detecção e reconhecimento de sinais de trânsito na China.

Portanto, para resolver os problemas dos métodos acima, este artigo usa o conjunto de dados TT100K para treinar e detectar sinais de trânsito chineses e melhorar e ajustar a rede YOLOv3, principalmente com as seguintes melhorias:

(1) Adicionar uma quarta escala de previsão de recursos de tamanho 152 × 152 à estrutura da rede YOLOv3 para aproveitar ao máximo os recursos superficiais da rede para antecipar alvos pequenos. Para conseguir a fusão de características locais e globais, a estrutura espacial da pirâmide é fundida.

(2) A distância entre o alvo e a âncora, a taxa de sobreposição e a escala são levadas em consideração ao usar a perda DIoU para uma convergência mais rápida e uma regressão do quadro-alvo mais consistente. Isto torna a regressão do quadro alvo mais estável.

(3) A maioria dos sinais de trânsito no conjunto de dados TT100K são alvos de pequeno e médio porte, com apenas alguns alvos grandes.

Como resultado, usar a âncora original não é uma opção viável. O algoritmo de agrupamento K-means é usado para recalcular 12 âncoras para o conjunto de dados TT100K, e a estratégia de aumento de dados é usada para equilibrar e aumentar o número desequilibrado de categorias de destino do conjunto de dados.

memory enhancement


For more information:1950477648nn@gmail.com


Você pode gostar também