Explorando transformadores de visão auto-supervisionados para reconhecimento de marcha na natureza, parte 1

Nov 24, 2023

Abstrato:

A maneira de andar (marcha) é uma biometria poderosa que é usada como um método exclusivo de impressão digital, permitindo que análises comportamentais discretas sejam realizadas à distância, sem cooperação do sujeito.

Todos nós sabemos que o exercício ajuda a uma boa saúde. Além disso, o exercício também ajuda a melhorar a memória. Caminhar é a forma de exercício mais simples e fácil de praticar, e muitas pessoas gostam de relaxar enquanto caminham ou correm. Agora, mais pesquisas mostram que caminhar faz coisas poderosas para o cérebro.

Primeiro, caminhar estimula o sistema nervoso do cérebro, o que ajuda a fortalecer a função cerebral. Quando o corpo se move, a frequência cardíaca e o fluxo sanguíneo aumentam, o que também estimula o cérebro a produzir mais neurônios e sinapses. As conexões entre esses neurônios e as sinapses podem criar novas redes neurais e processos de pensamento mais rápidos.

Em segundo lugar, caminhar pode aliviar o estresse e a ansiedade, o que é muito importante para melhorar a memória. Quando a mente e o corpo estão em estado de tensão, depressão ou ansiedade, o cérebro libera um hormônio chamado cortisol. O cortisol danifica neurônios e sinapses no cérebro, o que pode levar à perda de memória. Caminhar alivia o estresse e a ansiedade, reduz a produção de cortisol no corpo e ajuda a manter neurônios e sinapses saudáveis.

Finalmente, caminhar aumenta a circulação sanguínea no cérebro. Alguns estudos mostram que uma boa circulação sanguínea pode ajudar a melhorar a memória. À medida que envelhecemos, os vasos sanguíneos do cérebro ficam gradualmente obstruídos, resultando num fornecimento insuficiente de oxigénio ao cérebro. Caminhar pode melhorar a saúde do coração, permitindo que o coração forneça oxigênio e nutrientes ao cérebro de forma mais eficaz, promovendo assim a memória e a função cerebral.

Portanto, caminhar é uma ótima forma de exercício tanto para jovens quanto para idosos. Além de melhorar a saúde física, caminhar também pode ajudar a melhorar a memória. Vamos caminhar uma distância todos os dias para nos tornarmos mais saudáveis ​​e melhores! Percebe-se que precisamos melhorar a memória, e a Cistanche deserticola pode melhorar significativamente a memória porque a Cistanche deserticola é um material medicinal tradicional chinês que tem muitos efeitos únicos, um dos quais é melhorar a memória. A eficácia da carne picada vem dos vários ingredientes ativos que contém, incluindo ácidos, polissacarídeos, flavonóides, etc. Esses ingredientes podem promover a saúde do cérebro de várias maneiras.

improve memory

Clique em conhecer 10 maneiras de melhorar a memória

Ao contrário dos métodos de autenticação biométrica mais tradicionais, a análise da marcha não requer cooperação explícita do sujeito e pode ser realizada em ambientes de baixa resolução, sem exigir que o rosto do sujeito esteja desobstruído/visível. A maioria das abordagens atuais é desenvolvida em um ambiente controlado, com dados limpos e anotados de padrão ouro, o que impulsionou o desenvolvimento de arquiteturas neurais para reconhecimento e classificação.

Só recentemente a análise da marcha se aventurou a usar conjuntos de dados mais diversos, em grande escala e realistas para redes pré-treinadas de maneira auto-supervisionada. O regime de treinamento auto-supervisionado permite o aprendizado de representações de marcha diversificadas e robustas sem anotações humanas manuais caras. Impulsionados pelo uso onipresente do modelo transformador em todas as áreas de aprendizagem profunda, incluindo visão computacional, neste trabalho, exploramos o uso de cinco arquiteturas diferentes de transformadores de visão aplicadas diretamente ao reconhecimento de marcha autosupervisionado.

Adaptamos e treinamos novamente o ViT, CaiT, CrossFormer, Token2Token e TwinsSVT simples em dois conjuntos diferentes de dados de marcha em grande escala: GREW e DenseGait. Fornecemos resultados extensos para disparo zero e ajuste fino em dois conjuntos de dados de reconhecimento de marcha de referência, CASIA-B e FVG, e exploramos a relação entre a quantidade de informações espaciais e temporais da marcha usadas pelo transformador visual.

Nossos resultados mostram que o projeto de modelos de transformadores para processamento de movimento usa uma abordagem hierárquica (ou seja, modelos CrossFormer) em feiras de movimento mais refinadas, comparativamente melhor do que abordagens anteriores de esqueleto completo.

Palavras-chave:

reconhecimento de marcha; autenticação biométrica; transformador de visão; estimativa de pose; aprendizagem autosupervisionada; aprendizagem contrastiva.

1. Introdução

A forma como nos movemos contém pistas significativas sobre nós mesmos. Em particular, nossa marcha (maneira de andar) foi estudada de perto em medicina [1], psicologia [2] e ciências esportivas [3]. Recentemente, a análise da marcha recebeu maior atenção [4,5] da comunidade de ciência da computação, coincidindo com o progresso exponencial do aprendizado profundo e da ampla disponibilidade de hardware de computação.

Os sistemas de análise de marcha alimentados por IA foram capazes de reconhecer indivíduos com sucesso [6–10], estimar dados demográficos, como sexo e idade [11], e estimar atributos externos, como roupas [12], sem usar quaisquer sinais de aparência externa. Esses resultados não são surpreendentes, dada a grande quantidade de diferenças individuais na marcha, que se devem a diferenças na estrutura musculoesquelética, fatores genéticos e ambientais, bem como ao estado emocional e personalidade do caminhante [13].

Os sistemas atuais só são realmente treinados e testados em ambientes internos controlados. A maioria dos métodos usa o conjunto de dados CASIA-B [6] como referência padrão para modelos de reconhecimento de marcha, contendo 124 indivíduos andando em ambientes fechados de maneira estritamente controlada, capturados com múltiplas câmeras. A complexidade do mundo real não pode ser totalmente modelada por cenários tão restritos. Apenas recentemente o foco tem sido na modelagem da marcha "na natureza", com conjuntos de dados como DenseGait [12], GREW [7] e Gait3D [14].

short term memory how to improve

Reunir um conjunto de dados em grande escala, limpo e totalmente anotado, representa um esforço tremendo em termos de recursos financeiros e de tempo alocado. O conjunto de dados GREW [7] supostamente levou 3 meses de trabalho contínuo para ser coletado e anotado. Embora tais abordagens tenham sido úteis no desenvolvimento de arquiteturas neurais para o processamento da marcha [8,9], elas não são suficientemente diversas para serem usadas adequadamente em ambientes mais relaxados do mundo real.

A comunidade de IA tem se afastado lentamente dessa abordagem em outras áreas, com métodos de aprendizagem autossupervisionada tanto para visão [15] quanto para linguagem [16] ganhando força significativa e muitas vezes superando os métodos supervisionados tradicionais. Progressos recentes na aprendizagem auto-supervisionada mostraram que os modelos auto-supervisionados são mais robustos e exibem comportamentos emergentes, não definidos explicitamente durante o treinamento.

Por exemplo, DINO [17], um transformador de visão treinado em um regime auto-supervisionado, aprendeu recursos específicos de classe, permitindo a segmentação de objetos não supervisionados, sem usar tais rótulos durante o treinamento. Cosma e Radoi [10] propuseram o primeiro método contrastivo para aprendizagem auto-supervisionada para análise de marcha, treinando um ST-GCN [18] em uma versão menor do DenseGait [12]. Seu método obteve resultados razoáveis ​​em tarefas de reconhecimento de marcha posterior e mostrou que há uma forte correlação entre o tamanho do conjunto de dados pré-treinado e o desempenho de transferência zero-shot.

Embora muitas abordagens para análise da marcha utilizem silhuetas extraídas da subtração de fundo [6,8,9], a extração de silhuetas em cenários reais de vigilância implica o uso de técnicas mais avançadas, como a segmentação de instâncias [19], que apresentam um alto custo computacional. Sequências de silhuetas ocupam espaço de armazenamento significativo e não são suficientemente flexíveis para serem usadas em outras tarefas adjacentes, como reconhecimento de atividades. Além disso, as silhuetas codificam sinais sutis de aparência, o que não deixa claro até que ponto o movimento é utilizado na identificação [20].

Por outro lado, os modelos de poseestimação 2D têm se tornado cada vez mais precisos e computacionalmente eficientes [21,22]. Os esqueletos são baratos para extrair e atualmente mais confiáveis ​​do que malhas 3D e poses 3D, especialmente à distância. Além disso, os esqueletos 2D são significativamente mais leves que as silhuetas em termos de armazenamento a longo prazo.

As arquiteturas atuais para processamento de sequências de esqueletos utilizam a estrutura gráfica espacial natural presente no esqueleto humano, introduzindo um viés indutivo no design do modelo. Modelos como o popular ST-GCN [18] e MS-G3D [23] obtiveram resultados impressionantes para reconhecimento de ação baseado em esqueleto.

Ao mesmo tempo, tem havido uma explosão no uso de modelos de transformadores em quase todas as áreas de aprendizagem profunda desde a sua aplicação inicial para processamento de linguagem natural.

Os transformadores são considerados uma arquitetura mais geral, com poucos vieses indutivos. Inicialmente, os transformadores têm lutado para se igualar aos modelos CNN para classificação de imagens [24], mas atualmente estão superando outros modelos e mostrando resultados promissores em cenários auto-supervisionados, mais do que outros tipos de arquiteturas, os transformadores têm mostrado impressionante capacidade de aprendizagem e comportamentos emergentes sob auto-supervisão. -supervisão [17].

Cosma e Radoi [12] foram os primeiros a propor o GaitFormer, uma adaptação direta do modelo do codificador do transformador de visão para reconhecimento de marcha, utilizando esqueletos individuais como "remendos" de entrada, essencialmente realizando apenas atenção temporal, ignorando as relações de atenção espacial.

O GaitFormer foi treinado de forma autossupervisionada e superou outros métodos de reconhecimento de marcha mesmo sem qualquer ajuste fino. Esse trabalho anterior é encorajador e abre caminho para um estudo mais aprofundado da aplicação potencial de arquiteturas de transformadores para análise da marcha. Os modelos de transformadores de visão podem ser adaptados para aprendizagem auto-supervisionada de representações de marcha esquelética?

A principal questão arquitetônica nos transformadores de visão é definir os relacionamentos adequados entre os patches de imagem, que definem as informações locais e globais. Quando aplicada à marcha, a escolha das dimensões do patch corresponde à quantidade de informação temporal e espacial codificada da sequência esquelética.

Neste trabalho, apresentamos um extenso estudo de cinco diferentes transformadores de visão, adaptados para reconhecimento de marcha. Exploramos o modelo ViT clássico [24], CaiT [25], CrossFormer [26], TwinsSVT [27] e ViT token-to-ken [28].

ways to improve memory

Cada arquitetura é treinada separadamente de maneira auto-supervisionada contrastante em dois conjuntos de dados "in the wild" em grande escala de sequências de esqueleto de marcha 2D: DenseGait - um conjunto de dados coletado automaticamente de fluxos de vigilância brutos, e GREW, um conjunto de dados menor que contém anotações humanas limpas.

Exploramos capacidades de transferência em dois conjuntos de dados controlados para reconhecimento de marcha, CASIA [6] e FVG [29]. Para cada conjunto de dados, analisamos a transferência direta (disparo zero) e a eficiência dos dados durante o ajuste fino, treinando com subconjuntos progressivamente maiores dos conjuntos de dados. Além disso, conduzimos um estudo de ablação sobre a relação entre dimensões espaciais e temporais para tamanhos de patch para SimpleViT e CaiT , os backbones padrão para a maioria dos transformadores de visão até o momento.

O resto do artigo está organizado da seguinte forma. Conduzimos uma visão geral de alto nível de trabalhos relacionados sobre modelos de reconhecimento de marcha e transformadores de visão. Observamos que os modelos de representação da marcha se beneficiam muito do treinamento auto-supervisionado para terem incorporações mais robustas e gerais, e os modelos transformadores têm mostrado grande capacidade de modelagem em regimes de treinamento auto-supervisionados.

Além disso, descrevemos matematicamente as cinco arquiteturas que comparamos e descrevemos o pré-processamento de dados e as transformações de esqueleto necessárias para serem executadas, de modo que os transformadores de visão tenham que operar perfeitamente em sequências de esqueleto. Também descrevemos aumentos de dados, conjuntos de dados de treinamento e benchmarking e configurações experimentais.

Apresentamos resultados em CASIA-B e FVG para cada uma das cinco arquiteturas e os dois conjuntos de dados de 'pré-treinamento in-the-wild'. Finalmente, fazemos um estudo de ablação sobre a relação entre os tamanhos dos patches espaciais e temporais e fornecemos uma breve discussão de nossos resultados. Disponibilizamos nosso código-fonte publicamente no GitHub (https://github.com/cosmaadrian/gait-vit, acessado em 28 de fevereiro de 2023) para transparência e reprodutibilidade.

2. Trabalho relacionado

Nesta seção, fazemos uma breve visão geral dos métodos existentes para reconhecimento de marcha em ambientes controlados e “na natureza”. Além disso, descrevemos os principais desenvolvimentos de modelos de transformadores e, em particular, sua aplicação no domínio da visão.

2.1. Reconhecimento de marcha

Da mesma forma que a identificação baseada no rosto, o reconhecimento da marcha depende da aprendizagem métrica. Ao contrário dos métodos tradicionais de autenticação biométrica, que dependem de uma única imagem (por exemplo, reconhecimento facial) e requerem ampla cooperação (por exemplo, autenticação biométrica baseada na íris), as características da marcha são processadas como uma sequência de instantâneos de movimento. Essa dinâmica de gestos exige mais complexidade na determinação da subsequência mais informativa, mas permite o uso de autenticação discreta à distância.

Neste contexto, a tarefa implica treinar uma rede codificadora para mapear sequências de caminhada para um espaço de incorporação onde a similaridade de incorporação corresponde à similaridade da marcha. Incorporações de caminhadas que pertencem à mesma pessoa devem estar próximas ao espaço de incorporação e aquelas que vêm de identidades diferentes precisam estar mais distantes. Neste espaço de incorporação, a inferência pode ser feita obtendo a incorporação da sequência de marcha e utilizando o vizinho mais próximo abordagem em um banco de dados de caminhadas conhecidas.

As abordagens atuais no reconhecimento baseado na marcha são divididas em duas categorias: baseadas na aparência [8,9] e baseadas em modelos [10,12,30]. Os métodos baseados em aparência primeiro obtêm as silhuetas dos sujeitos caminhando com subtração de fundo ou algoritmos de segmentação de cada quadro de vídeo.

Em seguida, a sequência de silhuetas é alimentada em arquiteturas baseadas em CNN que extraem características espaciais e temporais que são agregadas em uma incorporação final para reconhecimento. Abordagens baseadas em modelos extraem os esqueletos de vídeos RGB com modelos de poseestimation [21,22]. Sequências de esqueletos são geralmente processadas por modelos que dependem de convoluções de grafos [10,30] para obter a incorporação da marcha.

GaitSet, o trabalho de Chao et al. [8], considera a marcha como um conjunto desordenado de silhuetas. Os autores argumentam que esta representação é mais flexível do que uma sequência de silhuetas porque é robusta a diferentes arranjos de quadros ou à combinação de múltiplas direções e variações de caminhada. Eles utilizam camadas de convolução para cada silhueta para obter recursos de nível de imagem e combiná-los em um recurso de nível definido com Set Pooling. Eles obtêm o resultado final empregando sua versão do HorizontalPyramid Matching [31].

Fan et al. [9] notaram o fato de que partes específicas da silhueta humana deveriam ter sua expressão espaço-temporal, pois cada uma possui um padrão único. Sua arquitetura, GaitPart, utiliza camadas de convolução focal (FConvs), que são um tipo especializado de convolução com um campo receptivo mais restrito. Os autores argumentam que os FConvs auxiliam sua arquitetura no aprendizado de características mais refinadas para diferentes partes do corpo em movimento. Eles também introduzem os módulos de captura de micro-movimento, que são empregados para extrair as características de pequenas sequências temporais.

Teepe et al. [30] propõem o GaitGraph, que utiliza uma rede convolucional de grafos adaptada chamada ResGCN [32] para codificar as características espaço-temporais obtidas a partir da sequência de esqueletos. Li et al. [33] propõem o PTP, que é uma estrutura que agrega múltiplas características temporais de um ciclo de marcha com base na análise dos estágios mais importantes da caminhada.

Eles também utilizam uma rede convolucional de grafos para extração de características espaciais, que funciona em conjunto com PTP. Os autores apresentam um novo método de aumento de dados que modifica a marcha para ter múltiplos passos em um ciclo mais realista.

Porém, diferentemente dos trabalhos anteriores, pretendemos explorar o desempenho de arquiteturas de reconhecimento de marcha em cenários auto-supervisionados. Inspirados pelo tremendo progresso no domínio da visão computacional, propomos adaptar as arquiteturas de transformadores de visão existentes para operar em sequências de esqueleto em vez de imagens e testar sua capacidade de modelagem em cenários auto-supervisionados. A maioria dos outros trabalhos [8,9,30] concentra seus esforços no desenvolvimento de arquiteturas neurais que alcançam resultados impressionantes no reconhecimento de marcha em conjuntos de dados controlados.

No entanto, pretendemos eliminar a necessidade de anotações manuais altamente caras para conjuntos de dados de marcha e explorar maneiras pelas quais a aprendizagem auto-supervisionada é apropriada para análise de marcha.

memory enhancement

Trabalhos anteriores neste domínio [10,12] mostraram potencial para aprender boas representações da marcha a partir de conjuntos de dados pouco anotados. Cosma e Radoi [12] propuseram o GaitFormer, a primeira arquitetura baseada em transformador para processamento de sequências de esqueletos, inspirada no modelo ViT [24]. Semelhante a [12], tentamos explorar o desempenho de outros modelos de transformadores de visão, com diferentes dinâmicas espaciais e temporais no mecanismo de processamento de patches. Conjuntos de dados em grande escala para reconhecimento de marcha foram propostos no passado [7,12], o que permite o desenvolvimento de arquiteturas gerais para aprendizagem de representação.


For more information:1950477648nn@gmail.com


Você pode gostar também