A calibração de características capazes de aproximar dimensões tridimensionais, incorporando parâmetros denotados por (x, y, z), é um desafio central em sistemas de visão computacional. A pesquisa atual propõe uma solução inovadora com o uso de técnicas de visão aérea, nas quais o centro de detecção das caixas delimitadoras aproxima-se do centróide dos pedestres. Essa abordagem ajuda a mitigar as distorções de perspectiva típicas das representações bidimensionais, facilitando a percepção de uma distribuição uniforme das distâncias por toda a imagem, ao mesmo tempo que elimina os efeitos da perspectiva, permitindo uma análise mais precisa.
A implementação do algoritmo em plataformas embarcadas, como as oferecidas pela Nvidia, foi realizada com o intuito de avaliar a eficácia das metodologias propostas. A principal meta foi analisar o desempenho da técnica proposta em diferentes configurações de hardware, levando em consideração as exigências computacionais de cada uma delas. Para isso, uma série de testes foi realizada, permitindo uma comparação detalhada do custo computacional entre diferentes plataformas.
O uso das plataformas Jetson Nano e Jetson AGX Xavier serviu para explorar as variações de desempenho em ambientes com diferentes capacidades de computação. A Jetson Nano foi escolhida por sua capacidade de operar em ambientes restritos em termos de recursos, enquanto a Jetson AGX Xavier oferece uma potência computacional significativamente maior. O contraste de desempenho entre esses dois sistemas proporcionou uma avaliação clara de como a técnica proposta se comporta em diferentes configurações.
O processo de avaliação envolveu uma análise meticulosa dos custos computacionais em diversas etapas da execução da técnica, como pré-processamento, extração de características, inferência e pós-processamento. Ao desmembrar a carga computacional, foram reveladas informações importantes sobre o uso de recursos, permitindo uma análise detalhada das discrepâncias entre as plataformas testadas. Esse estudo também considerou a dependência do custo computacional em relação ao hardware específico, quantificando o overhead associado à execução do protótipo nas plataformas Nvidia.
Ao aplicar os algoritmos a dispositivos Nvidia, foi possível avaliar o desempenho do sistema em tempo real. Durante os testes, foi utilizado um câmera V2 Raspberry Pi, que se comunicava com uma unidade de computação adicional para exibir vídeos de câmeras térmicas. Os testes revelaram que a Jetson Xavier apresentou uma taxa de quadros por segundo (fps) significativamente superior à da Jetson Nano. Enquanto a Xavier conseguiu alcançar 23 fps, a Nano ficou limitada a apenas 11 fps, destacando a diferença de desempenho entre as duas plataformas.
Além disso, a análise do uso do GPU e CPU revelou informações cruciais sobre como esses componentes processam algoritmos de inteligência artificial. A Jetson Nano, por exemplo, apresentou uma taxa de utilização do GPU de 98%, enquanto o CPU alcançou 71,2%. Isso indica que o GPU desempenha um papel fundamental nas tarefas de processamento de IA, enquanto o CPU assume um papel mais secundário. Já a Jetson Xavier teve uma utilização do GPU de 86% e do CPU de 50%, evidenciando um equilíbrio mais favorável entre os componentes no processamento da técnica.
Outro aspecto importante da pesquisa foi a comparação do tamanho de armazenamento entre a abordagem proposta e outras arquiteturas de redes neurais pré-treinadas. O YOLOv4, por exemplo, exige apenas 21 MB de armazenamento, enquanto o YOLOv2 ocupa 14 MB. Esse tamanho compacto de armazenamento é um ponto significativo, especialmente em contextos onde há restrições de recursos, como em dispositivos de borda ou plataformas móveis. A vantagem do tamanho reduzido não apenas facilita a implantação dessas técnicas em ambientes com recursos limitados, como também pode gerar economias significativas em termos de infraestrutura de armazenamento.
Além disso, a pesquisa observou que a utilização de técnicas de redes neurais com uma menor quantidade de parâmetros treináveis é vantajosa, uma vez que elas são altamente adequadas para dispositivos IoT de baixo custo. Em contraste, métodos alternativos que dependem de camadas CNN expandidas, como o Resnet50, exigem mais espaço de armazenamento e apresentam desempenho subótimo em dispositivos de baixo custo, dificultando a detecção de objetos em tempo real.
A análise do consumo de energia também foi um aspecto importante da avaliação, revelando variações entre as plataformas. A Jetson Nano, por exemplo, consumiu 3,21 W durante a execução do algoritmo, um valor consideravelmente mais baixo em comparação com a Jetson Xavier, que demonstrou um consumo energético maior, o que é esperado dada sua maior capacidade computacional.
Importante compreender que, além das comparações de desempenho entre diferentes plataformas, o sucesso de uma implementação de visão computacional depende de vários fatores, como a escolha da técnica de detecção, a otimização do uso dos recursos computacionais e a adaptação do algoritmo à plataforma específica. A implementação eficiente em sistemas embarcados requer atenção ao equilíbrio entre capacidade de processamento e consumo de recursos, algo fundamental para o sucesso em aplicações do mundo real, como sistemas de monitoramento de distanciamento social, vigilância e análise de tráfego.
Como a Detecção de Derrame em Tempo Real Pode Ser Aprimorada com o Uso de Modelos YOLOv8 e Aprendizado Federado
A aplicação do aprendizado federado (FL) no treinamento de modelos de aprendizado de máquina representa uma abordagem inovadora para lidar com conjuntos de dados distribuídos e sensíveis, como os encontrados em áreas da saúde. Ao permitir que os modelos sejam treinados localmente nos dispositivos dos clientes sem a necessidade de transferir os dados brutos para um servidor central, o FL assegura a privacidade e segurança dos dados. A técnica de aprendizado federado, junto com otimizações cuidadosas nos parâmetros de treinamento, como no caso do modelo YOLOv8, oferece uma solução eficaz para detecção de objetos, com destaque para o uso de técnicas de detecção em tempo real, como a identificação de derrames.
Após o treinamento inicial dos modelos, os clientes conduzem avaliações minuciosas do desempenho do modelo utilizando métricas específicas, como precisão, recall, F1 score e mAP. Essas métricas são ajustadas para atender às necessidades particulares da aplicação em questão. A avaliação detalhada das previsões do modelo nos dados locais, com uma análise de erros precisa, permite refinar as capacidades preditivas do modelo. Esse processo iterativo é essencial para melhorar a performance geral do modelo, garantindo que ele seja capaz de lidar com os desafios específicos de tarefas complexas, como a detecção de derrames em imagens médicas.
Uma vez que o treinamento e a avaliação do modelo local estejam concluídos, os clientes enviam de forma segura os pesos do modelo atualizados de volta ao servidor central. O servidor utiliza técnicas como o FedAvg para agregar as atualizações recebidas de diversos clientes e criar um novo modelo global. A segurança dos dados é mantida ao garantir que apenas os pesos do modelo, e não os dados brutos, sejam compartilhados. Antes de utilizar o modelo global para inferência ou novas rodadas de treinamento, o servidor realiza validações adicionais para garantir a integridade e estabilidade do modelo.
Este processo de treinamento federado oferece uma solução robusta para a criação de modelos de aprendizado de máquina em ambientes onde a segurança dos dados é uma preocupação crítica, como na área da saúde. Ao manter os dados localizados e compartilhar apenas atualizações do modelo, o aprendizado federado não apenas garante a privacidade, mas também contribui para um treinamento colaborativo eficiente. Além disso, essa abordagem pode reduzir o risco de violações de dados e acessos não autorizados, aspectos essenciais quando se trata de informações sensíveis.
O uso do modelo YOLOv8 para a detecção de objetos exemplifica a capacidade do sistema de lidar com tarefas complexas. Essa arquitetura é ideal para detectar objetos em tempo real, como no caso da detecção de derrames a partir de imagens médicas. Contudo, a eficiência do modelo depende do ajuste adequado de diversos hiperparâmetros. O tamanho da imagem, que é definido como 640 pixels, afeta diretamente a qualidade da extração de características e a localização dos objetos. Imagens maiores permitem uma captura mais detalhada, o que é fundamental para a detecção de objetos menores, mas também aumenta as exigências computacionais.
Outro parâmetro importante é o tamanho do batch, que no caso é 32. O tamanho do batch determina quantos exemplos são processados antes que o modelo atualize seus parâmetros. Um tamanho maior de batch pode tornar as atualizações de gradiente mais estáveis, mas aumenta a necessidade de memória. Um batch menor pode reduzir o uso de memória, mas pode resultar em atualizações de gradiente mais ruidosas, o que impacta a estabilidade da convergência do modelo. Assim, encontrar um equilíbrio adequado entre o tamanho do batch e outros parâmetros, como a taxa de aprendizado, é fundamental para otimizar o desempenho do modelo.
O processo de treinamento do YOLOv8 é iterativo, sendo dividido em 30 épocas. Cada época representa uma iteração completa sobre o conjunto de dados. É importante destacar que um número excessivo de épocas pode levar ao overfitting, em que o modelo se ajusta demasiado aos dados de treinamento e perde a capacidade de generalizar para dados novos e não vistos. Para evitar isso, técnicas de aumento de dados, como o "Mosaic" e o "Mixup", são utilizadas. O Mosaic, com um valor de 0.8, combina múltiplas imagens para gerar um único exemplo de treinamento, melhorando a robustez do modelo ao apresentar diferentes contextos e configurações de objetos. Já o Mixup, com um valor de 0.2, interpola linearmente pares de imagens e suas etiquetas, diversificando o conjunto de dados de treinamento e tornando o modelo mais resistente a variações no dado.
O ajuste do parâmetro de taxa de aprendizado é crucial, pois controla a velocidade com que os parâmetros do modelo são atualizados durante o treinamento. Uma taxa de aprendizado muito alta pode fazer com que o modelo convirja rapidamente para uma solução subótima, enquanto uma taxa muito baixa pode tornar o treinamento excessivamente lento. O otimizador AdamW, que é utilizado nesse processo, combina as vantagens dos métodos de taxa de aprendizado adaptativa com a regularização por decaimento de peso, tornando o treinamento mais eficiente e robusto.
O ambiente de treinamento utilizado, com instâncias AWS EC2 G4 equipadas com GPUs NVIDIA T4 e uma rede de 100 Gbps, foi fundamental para lidar com as exigências computacionais do treinamento dos modelos YOLOv8. O uso de múltiplas GPUs permite a paralelização do processamento, o que reduz o tempo de treinamento e facilita a manipulação de grandes conjuntos de dados.
A otimização cuidadosa desses hiperparâmetros é crucial para garantir que o modelo YOLOv8 seja capaz de lidar com tarefas de detecção de objetos em tempo real de forma eficiente e precisa. O equilíbrio entre os diferentes parâmetros e a utilização de técnicas avançadas de aumento de dados são fundamentais para melhorar a capacidade do modelo de generalizar e, consequentemente, de atingir altos índices de precisão e eficiência em tarefas de detecção de objetos.
Quais são os lugares mais extremos e inóspitos do planeta?
Como o Aprendizado Profundo Está Revolucionando a Produção de Semicondutores?
Como Tocar a Flauta Doce: Um Guia Passo a Passo para Iniciantes
Como Sistemas e Foco Podem Acelerar Resultados e Resolver Problemas Complexos

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский