O uso de UAVs (Veículos Aéreos Não Tripulados) em redes de sensores sem fio (WSN) tem ganhado destaque devido à sua capacidade de fornecer energia de forma eficiente, especialmente em redes IoT (Internet das Coisas) em ambientes dinâmicos. A estratégia de otimizar o consumo de energia, considerando a transição entre modos de operação, desempenha um papel crucial na eficiência geral do sistema. Isso se aplica principalmente ao comportamento adaptativo, que permite ao UAV ajustar sua operação conforme as flutuações da carga de trabalho e as condições da rede, resultando em um uso de energia mais eficiente.

Quando o design do UAV é baseado em transições entre diferentes estados de operação — como o estado de transição, onde o UAV trabalha para melhorar o RNL (Rendimento da Rede de Limite Inferior), e o estado estável, focado em economizar energia — ele sacrifica temporariamente a performance para obter ganhos significativos a longo prazo. Esse design permite uma otimização contínua, onde, após cada transição, o RNL da rede melhora progressivamente até atingir um limiar predeterminado. Uma vez alcançado esse limite, o UAV muda para o estado estável, com uma operação mais eficiente em termos de consumo de energia. Essa abordagem resulta em um sistema de carregamento mais sustentável, particularmente em redes IoT de longo prazo.

A figura 3.8 ilustra a comparação do consumo médio de energia de diferentes designs de UAV, levando em consideração várias distribuições de GDs (Nós de Solo). Quando se observa uma duração mais longa de operação, o design baseado em transições se destaca por consumir significativamente menos energia do que o design original, que adota uma estratégia de operação mais constante. No entanto, em durações curtas, o design sustentável original tem uma vantagem em termos de manutenção da rede, já que não exige transições para alcançar sua eficiência.

Esse equilíbrio entre os dois tipos de design — um mais focado em transições dinâmicas e outro na operação estável — revela uma consideração crucial para o planejamento de redes de sensores sem fio sustentáveis. O design baseado em transições, ao sacrificar desempenho momentaneamente, visa alcançar um consumo de energia otimizado a longo prazo. Já o design sustentável original favorece a operação estável para redes que não exigem grandes adaptações, sendo, portanto, mais eficiente em situações de curto prazo.

O estudo detalha como esse conceito pode ser aplicado a cenários do mundo real, como o uso de UAVs para carregar redes IoT em áreas remotas ou de difícil acesso. Ao integrar UAVs que realizam transferências de energia sem fio (WPT) com o uso de trajetórias otimizadas, é possível não só minimizar o consumo de energia do UAV, mas também garantir a sustentabilidade de uma rede IoT em funcionamento contínuo. Além disso, a estratégia de transição adaptativa pode ser expandida para incluir múltiplos UAVs colaborando entre si para suportar toda a rede de sensores, uma abordagem ainda mais eficiente para grandes implementações de IoT.

É importante observar que a eficiência do design de transição não se limita apenas à otimização da trajetória do UAV. Ele também implica em decisões precisas sobre os momentos ideais de mudança entre os estados de operação e a quantidade de energia necessária para manter a rede funcionando. O papel das simulações e testes práticos é fundamental para validar os modelos propostos, pois permitem verificar o comportamento do sistema em condições reais, com variáveis como condições climáticas e características de campo alterando o desempenho esperado. Portanto, a implementação prática de tais modelos deve ser acompanhada de ajustes contínuos para garantir a máxima eficiência.

Além disso, uma atenção especial deve ser dada às questões de escalabilidade e à possibilidade de integração com outras tecnologias emergentes, como a 5G, que oferece maior capacidade de comunicação e gerenciamento de dados em tempo real, potencializando o uso de UAVs em redes de sensores. Em um futuro próximo, pode-se imaginar um cenário em que não apenas um UAV, mas uma frota coordenada de UAVs, atue para otimizar não só o fornecimento de energia, mas também o tráfego de dados, criando redes altamente resilientes e adaptáveis.

Como a Arquitetura de Aprendizado por Reforço Multiagente Pode Otimizar o Desempenho de UAVs em Missões de Coleta de Dados

O espaço de estado SlS_l abrange todas as localizações possíveis dentro da área de interesse. Cada UAV atua dentro de um espaço de ações AlA_l compartilhado entre todos os agentes do sistema. Em cada intervalo de tempo nn, cada UAV escolhe uma ação correspondente al,na_{l,n} com base no estado observado sl,ns_{l,n}. A ação al,na_{l,n} representa a direção de voo dos UAVs, podendo ser expressa de forma vetorial em seis direções: a1=[0,1,0]a_1 = [0, 1, 0] indica o movimento para frente, a2=[0,1,0]a_2 = [0, -1, 0] representa o movimento para trás, a3=[1,0,0]a_3 = [1, 0, 0] simboliza o movimento para a esquerda, a4=[1,0,0]a_4 = [-1, 0, 0] o movimento para a direita, a5=[0,0,1]a_5 = [0, 0, 1] corresponde à ascensão, e a6=[0,0,1]a_6 = [0, 0, -1] refere-se à descida. Assim, al,na_{l,n} é a ação tomada por cada agente no instante nn, e todos os UAVs agem de forma independente.

A função de transição de estado ηl\eta_l descreve a probabilidade de um UAV transitar de um estado sl,ns_{l,n} para sl,n+1s_{l,n+1} após a execução de uma ação al,na_{l,n}. Esta função é determinada principalmente pela função de deslocamento de movimento do UAV, que leva em conta tanto a física do voo quanto o modelo de comportamento da aeronave, como detalhado em equações anteriores. A função de recompensa local rlr_l visa minimizar o tempo total necessário para a coleta de dados. Ela é definida da seguinte forma:

rl=φse o UAV sair da aˊrea de operac¸a˜o, entrar em Zonas de Exclusa˜o de Voo (NFZs) ou colidir com outro UAV;r_l = \varphi \quad \text{se o UAV sair da área de operação, entrar em Zonas de Exclusão de Voo (NFZs) ou colidir com outro UAV;}
rl=ξRl,ncaso contraˊrio, onde  ξ  eˊ um valor positivo que acelera o processo de coleta de dados.r_l = \xi R_{l,n} \quad \text{caso contrário, onde} \; \xi \; \text{é um valor positivo que acelera o processo de coleta de dados.}

A penalidade φ\varphi é aplicada em situações de comportamento indesejável, como a saída da área delimitada ou o envolvimento em colisões. Por outro lado, ξ\xi está associado a ações que favorecem a aceleração da coleta, reduzindo o tempo necessário para concluir as missões.

Para avaliar o desempenho do método proposto de Aprendizado por Reforço Multiagente com Duelos (MAFRL), uma série de simulações foi realizada em um ambiente 3D urbano. O sistema de rede considerou dois UAVs e seis estações de dados (GDs), com cada GD exigindo a transmissão de 40 Mbit de dados. Os GDs foram distribuídos aleatoriamente em um ambiente urbano de 1000 m de lado, e o tempo de cada intervalo foi definido como 0,5 segundos. Os GDs foram modelados com base em um processo de Caminhada Aleatória, onde se movem de forma aleatória dentro da área designada, alterando frequentemente suas direções dentro do intervalo [0,2π][0, 2\pi], com uma velocidade de 5 m/s. Os UAVs, por sua vez, operam a uma velocidade constante de 20 m/s.

Além disso, um conjunto de métodos de comparação foi implementado para avaliar a eficácia do algoritmo MAFRL proposto. Esses métodos de comparação incluem o MAFRL sem a arquitetura de duelos, o MAFRL sem zonas de exclusão de voo (NFZs), o MAFRL com agendamento aleatório de GDs e a abordagem centralizada de Aprendizado por Reforço Profundo (MARL). A comparação mostra que o método proposto apresenta um desempenho superior, especialmente em relação aos métodos que utilizam agendamento aleatório e não utilizam a arquitetura de duelos.

Uma análise do impacto dos parâmetros hiperparâmetros foi realizada para identificar os valores ideais para a configuração do modelo. A taxa de aprendizado (lrlr) de 0,0005 demonstrou ser a mais eficaz, equilibrando a convergência rápida com uma estabilidade superior. Taxas de aprendizado muito altas (como 0,005) causam oscilações excessivas, enquanto taxas muito baixas (como 0,00005) podem resultar em uma otimização subótima. O tamanho de mini-lote de 512 também foi identificado como o ideal, proporcionando a melhor utilização dos dados amostrados e acelerando o processo de treinamento. Tamanhos de mini-lote menores, como 128 ou 256, tendem a subutilizar as amostras armazenadas, resultando em flutuações no tempo total de operação.

Em termos de desempenho, a comparação entre os diferentes métodos revelou que o método proposto, que utiliza a arquitetura de duelos e a estratégia de agendamento otimizada, apresenta um desempenho superior ao das abordagens com agendamento aleatório e sem NFZs. Isso ocorre porque a abordagem centralizada MARL, embora eficiente, exige um aumento no overhead de comunicação, o que pode ser prejudicial para a privacidade dos UAVs. A combinação da arquitetura de duelos com o agendamento otimizado permite aos UAVs encontrar rapidamente trajetórias eficientes, minimizando o tempo necessário para a coleta de dados.

Além disso, é importante notar que o design do espaço de estado e a definição das ações dos UAVs não são apenas uma questão técnica, mas uma escolha estratégica que pode impactar diretamente a eficácia de toda a operação. A introdução de Zonas de Exclusão de Voo (NFZs) no modelo foi uma medida essencial para simular ambientes urbanos realistas, onde certos espaços são restritos, e a navegação precisa ser planejada de forma mais cuidadosa. A compreensão dessas restrições no ambiente pode melhorar substancialmente a capacidade de previsão de trajetória e reduzir falhas operacionais.

Como Minimizar o Tempo de Conclusão de Missões em Sistemas de Sensoriamento UAV sob Restrições de Atraso

A minimização do tempo de conclusão de uma missão, especialmente em contextos que envolvem veículos aéreos não tripulados (UAVs), tem sido um tema de grande interesse. Uma das abordagens para abordar esse problema é a utilização de uma árvore de 1 mínima em um grafo direcionado (G′), que fornece um limite inferior para o tempo de missão de um sistema de sensoriamento. Essa árvore, que conecta os nós de maneira otimizada, pode reduzir significativamente o tempo de conclusão de uma missão, desde que as condições ideais sejam atendidas. Quando cada nó na árvore mínima de 1 tem exatamente duas arestas conectadas, formando um loop, a solução obtida é considerada globalmente ótima.

Dentro deste contexto, o objetivo da estratégia de sensoriamento proposta é atingir um tempo de conclusão de missão que se aproxime do limite inferior T. Para isso, a estratégia de sensoriamento sk,j,bk,m,πs^*_{k,j, b_{k,m}, \pi} é utilizada de forma a alcançar uma solução quase ótima. A análise de complexidade da abordagem proposta, que inclui algoritmos de otimização de trajetória, associação de BS (Base Station) e o algoritmo LKH, também precisa ser considerada. Cada uma dessas etapas influencia de maneira significativa o desempenho do sistema, especialmente quando comparada com algoritmos alternativos, como o Polyblock e o algoritmo LKH baseado em OTL (Optimal Trajectory Length).

A complexidade do algoritmo de otimização de trajetória, baseado no Polyblock, ainda não é completamente resolvida, mas a taxa de convergência do algoritmo SPTS proposto foi comparada numericamente com a do Polyblock. O desempenho do algoritmo SPTS se mostrou superior em termos de convergência, com uma redução significativa no número de iterações necessárias para atingir uma solução próxima ao limite superior de transmissão. Essa característica de convergência mais rápida é fundamental para melhorar a eficiência do sistema de sensoriamento.

Outro ponto importante é a associação entre o UAV e as estações base (BS). O algoritmo proposto para a seleção de BSs candidata, denominado OUBA, foi projetado para reduzir o número de BSs subótimas, o que, por sua vez, reduz a complexidade computacional. A verificação da eficácia deste algoritmo mostrou que ele consegue reduzir significativamente o número de BSs candidatas, tornando a associação UAV-BS mais eficiente e menos dispendiosa computacionalmente.

Ao analisar os resultados das simulações, a comparação entre o método OASPTS proposto e os métodos de base, como os esquemas Euclid-OTL-LKH e OTL-LKH, revela que o tempo de conclusão da missão do OASPTS é consideravelmente mais curto. De acordo com os experimentos, o tempo de missão do OASPTS foi até 31,2% mais rápido que os métodos de base. A análise das trajetórias do UAV também mostrou uma melhoria significativa na suavidade das trajetórias geradas pelo algoritmo proposto, ao contrário das trajetórias mais abruptas e com mais interseções observadas nos algoritmos de base.

As simulações também revelaram que o tempo de conclusão da missão aumenta com o número de tarefas. No entanto, o tempo de missão da abordagem OASPTS continua a ser significativamente menor que o dos métodos de base. Em particular, o tempo de conclusão da missão para o OASPTS foi 20% mais rápido do que o do OTL-LKH e 43% mais rápido do que o do Euclid-OTL-LKH, especialmente quando o volume de dados sensoriais aumentou.

Além disso, foi possível observar que, à medida que o limite de atraso na transmissão aumenta, o tempo para concluir a missão diminui, proporcionando mais flexibilidade ao UAV. Isso pode ser crucial em cenários com restrições de tempo e necessidade de maior adaptabilidade na estratégia de sensoriamento.

O uso de dados sensoriais maiores no sistema aumenta a complexidade do processo e, por consequência, o tempo de missão. No entanto, o OASPTS se destaca por minimizar essa relação de forma mais eficiente, ao reduzir o tempo de conclusão de missão mesmo com volumes de dados mais elevados. Este fato destaca a importância de escolher o algoritmo certo para diferentes volumes de dados, a fim de otimizar o desempenho do sistema de sensoriamento.

Os resultados também mostraram que a associação entre a quantidade de tarefas e o tempo de missão é linear. À medida que o número de tarefas aumenta, o tempo de missão também aumenta, mas com a estratégia proposta, esse aumento é menos pronunciado em comparação com os esquemas de base. A análise estatística das simulações, realizadas com 100 experimentos de Monte Carlo, demonstrou que a média do tempo de missão do OASPTS ficou entre 454 e 550 segundos, enquanto os esquemas de base apresentaram tempos de missão 13,4% e 21,4% mais longos, respectivamente.

É essencial considerar que a minimização do tempo de missão em sistemas de UAV com restrições de atraso não depende apenas da escolha do algoritmo certo, mas também de uma análise detalhada da distribuição das tarefas e das estações base, além da flexibilidade em adaptar as estratégias de sensoriamento conforme o aumento das variáveis de ambiente e da complexidade do problema. A interação entre os diversos componentes do sistema, como a otimização de trajetórias, a escolha de BSs e a adaptação à quantidade de dados sensoriais, é fundamental para garantir a eficiência e eficácia do processo de sensoriamento.

Como o Design de Trajetórias 3D e o Aprendizado por Reforço Profundo Melhoram os Sistemas UAV-Assisted MEC

Os sistemas de computação móvel de borda (MEC) assistidos por UAVs têm se mostrado cada vez mais promissores, especialmente em ambientes dinâmicos e com zonas sem voo (NFZs). Quando combinados com métodos avançados de aprendizado de máquina, como o Aprendizado por Reforço Profundo (DRL), esses sistemas oferecem desempenho robusto, aproximando-se de cenários ideais, onde a presença de NFZs não limita sua eficácia. O design de trajetórias 3D, em particular, tem se destacado como uma inovação importante, proporcionando vantagens significativas sobre os modelos de trajetórias bidimensionais (2D), melhorando a cobertura e a eficiência da coleta de dados.

No contexto dos sistemas UAV-Assisted MEC, a escolha do local de implantação e a otimização da trajetória dos UAVs são essenciais para melhorar o desempenho geral do sistema. Um dos principais benefícios de um UAV bem posicionado e com uma trajetória otimizada é a redução das distâncias de transmissão, o que facilita uma comunicação mais rápida e eficiente entre o UAV e os terminais terrestres (GTs). Além disso, a trajetória ideal permite estabelecer um canal de linha de visão (LoS) de alta probabilidade entre o UAV e os GTs, o que é crucial para a transmissão eficiente de dados. Este tipo de otimização permite, por exemplo, melhorar a capacidade de offloading, a eficiência energética e o alcance do serviço MEC.

Embora a maioria das pesquisas anteriores tenha se concentrado em cenários em que os GTs são estáticos, é importante observar que, em muitas aplicações práticas, como inspeção rodoviária ou fotografia aérea, os GTs estão em movimento. Isso torna a mobilidade dos GTs um fator determinante no sucesso da otimização da trajetória do UAV, sendo necessário um modelo que considere essa dinâmica. O uso de DRL para otimizar o design das trajetórias dos UAVs, juntamente com a alocação de recursos e decisões de offloading, tem se mostrado uma solução eficaz para lidar com as condições variáveis do canal e os padrões de mobilidade dos GTs.

Nos últimos anos, diversos métodos baseados em aprendizado por reforço (RL) foram propostos para o design de trajetórias de UAVs. Esses métodos oferecem vantagens significativas em relação aos algoritmos tradicionais, especialmente em cenários de múltiplos UAVs e múltiplas tarefas. O DRL, em particular, permite que os UAVs tomem decisões em tempo real, ajustando-se de forma adaptativa às condições variáveis do ambiente. Ao otimizar as trajetórias de voo, o offloading de tarefas e a alocação de recursos, o sistema pode maximizar a taxa de comunicação, minimizar o consumo de energia e melhorar a eficiência do processamento de dados.

Entretanto, muitos dos métodos existentes ainda não abordam completamente as questões relacionadas ao design de trajetórias 3D, o que limita o desempenho geral do sistema. Além disso, muitos desses estudos ignoram a necessidade de evitar obstáculos como edifícios, que são comuns em ambientes urbanos. A consideração do modelo 3D, em que o UAV não apenas se move horizontalmente, mas também ajusta sua altitude, é crucial para evitar tais obstáculos e otimizar o desempenho do sistema.

No que diz respeito ao modelo de canal, um dos aspectos centrais que influencia a eficiência da comunicação entre os UAVs e os GTs é a probabilidade de uma conexão LoS. O design da trajetória deve garantir que, sempre que possível, o UAV se mantenha em um canal LoS com os GTs, o que aumenta significativamente a taxa de transmissão de dados. A elevação do UAV, a distância entre ele e os GTs, e os obstáculos no ambiente desempenham um papel fundamental nesse processo. A modelagem do canal com base em probabilidades LoS oferece uma abordagem realista para otimizar a comunicação, considerando as flutuações na qualidade do sinal devido à movimentação dos GTs e das mudanças nas condições ambientais.

Além disso, a integração de múltiplos UAVs para suportar diversos GTs tem sido explorada, com abordagens baseadas em RL permitindo otimizar a qualidade do serviço (QoS) e o planejamento de rotas. Embora esses métodos apresentem avanços importantes, muitos ainda negligenciam fatores críticos como a segurança do voo e a gestão eficiente de riscos, especialmente ao operar em ambientes urbanos densamente povoados ou em áreas com vários obstáculos.

O papel do aprendizado por reforço, particularmente o DRL, é essencial para a evolução dos sistemas UAV-Assisted MEC. Ele permite a adaptação contínua do sistema, considerando variáveis como a mobilidade dos GTs, a eficiência energética dos UAVs e as mudanças no ambiente de transmissão. Ao contrário dos algoritmos tradicionais, que se baseiam em regras fixas, o DRL pode aprender e melhorar suas estratégias ao longo do tempo, tornando-se cada vez mais eficiente à medida que enfrenta novas situações. Isso garante uma solução mais robusta e escalável, essencial para aplicações em grande escala.

Por fim, ao projetar trajetórias e estratégias de offloading para sistemas UAV-Assisted MEC, é crucial considerar não apenas os aspectos técnicos relacionados à otimização de trajetórias e alocação de recursos, mas também os desafios práticos de operação em ambientes dinâmicos. A implementação de soluções baseadas em aprendizado por reforço, com ênfase no design 3D das trajetórias e na adaptação contínua às condições do ambiente, é a chave para garantir que os sistemas sejam não apenas eficientes, mas também resilientes a mudanças inesperadas no cenário de operação. Isso inclui desde a gestão de interferências e obstáculos, até a otimização do uso de energia e o suporte a uma rede de comunicação robusta e de alta qualidade.

Como otimizar o tempo de operação em redes MEC assistidas por UAVs: Um estudo de caso

O uso de veículos aéreos não tripulados (UAVs) em redes de computação de borda móvel (MEC) tem se mostrado uma solução promissora para otimizar a entrega de tarefas e melhorar a eficiência da comunicação. Este capítulo explora como a trajetória 3D de um UAV, em conjunto com o agendamento de offloading de tarefas de fontes de usuários móveis (GTs), pode minimizar o tempo de operação global. O cenário descrito envolve três tipos diferentes de modelos de mobilidade para os GTs, onde é analisado como o UAV interage com esses modelos, levando em consideração as distâncias de transmissão, a comunicação de linha de visibilidade (LoS) e a presença de obstáculos no ambiente.

Nos experimentos realizados, foram comparadas três configurações de altura de voo para o UAV: [0-50] m, [50-100] m e [100-150] m, com o objetivo de observar como essas variações afetam a velocidade de convergência e a estabilidade da trajetória do UAV. Os resultados indicaram que, no caso com a maior altura, o UAV consegue evitar obstáculos de forma mais eficiente e mantém uma comunicação mais estável com os GTs, minimizando o tempo de operação global. Em contrapartida, a presença de edifícios altos em zonas urbanas cria desafios para a comunicação e aumenta a complexidade do voo, o que contribui para tempos de operação mais longos. A pesquisa revela que a adaptação da altura de voo do UAV a diferentes condições de obstáculos pode melhorar significativamente a performance da rede.

Em todos os cenários, o UAV segue uma trajetória otimizada, ajustando sua altitude conforme a distância dos GTs e a necessidade de manter uma comunicação eficiente. Em uma das configurações, o UAV sobe após a decolagem para garantir uma linha de visibilidade limpa para os GTs, enquanto em outra, ele ajusta sua trajetória de forma a evitar bloqueios causados por agrupamentos de edifícios. Isso reflete a flexibilidade da solução proposta, capaz de adaptar-se a diferentes modelos de mobilidade dos GTs e a condições ambientais, como a dispersão de obstáculos no terreno.

Outro aspecto relevante dessa pesquisa foi a consideração do impacto da frequência do processador do UAV na eficiência do agendamento das tarefas de offloading. O estudo demonstrou que, à medida que a frequência do CPU do UAV aumentava, o tempo de processamento das tarefas de offloading diminuía, e isso levava a uma redução no tempo total de operação. Essa otimização do CPU não apenas acelera o processamento da última tarefa offloadada, mas também altera a alocação das tarefas entre os GTs, permitindo uma utilização mais eficiente dos recursos de computação do UAV.

Ao considerar diferentes cenários de mobilidade dos GTs, a solução proposta se mostrou eficaz na adaptação da trajetória do UAV, independentemente das mudanças nas condições do ambiente e nos modelos de mobilidade dos usuários. A abordagem de Markov Decision Process (MDP) utilizada para modelar o problema e a implementação de um método baseado em D3QN permitiram ao UAV aprender as melhores políticas para otimizar tanto a trajetória quanto o agendamento de tarefas de offloading. Isso demonstrou que, ao longo das simulações, o sistema se ajusta de maneira inteligente às mudanças no ambiente, proporcionando uma experiência robusta e eficiente.

O estudo também abordou a relação entre o tempo de transmissão e o processamento das últimas tarefas, apontando um equilíbrio entre o tempo de offloading e o tempo de decisão para transmitir a última tarefa a um GT de destino. A análise revelou que, a partir de uma certa frequência de CPU, o UAV deixa de ser impactado pela latência do processamento, o que lhe permite uma maior flexibilidade na alocação de tarefas.

É importante ressaltar que, ao projetar soluções como essa para redes MEC assistidas por UAVs, é necessário considerar não apenas os aspectos técnicos do sistema, como as capacidades do UAV e a eficiência do agendamento das tarefas, mas também fatores externos como a densidade e altura dos obstáculos no ambiente urbano, a mobilidade dos GTs e as condições de rede. A flexibilidade na adaptação do UAV a essas condições não só aumenta a eficiência, mas também garante maior estabilidade no desempenho do sistema.

Além disso, deve-se levar em conta que a eficiência do UAV não depende apenas das suas capacidades tecnológicas, mas também da interação dinâmica com os GTs, que podem ter diferentes comportamentos e mobilidades. Em cenários reais, essa interação deve ser cuidadosamente projetada para garantir uma performance ótima e sustentável, considerando a variabilidade do tráfego de dados e os requisitos de comunicação de cada aplicação.