Em sistemas de comunicação e coleta de dados envolvendo veículos aéreos não tripulados (UAVs), o desempenho do canal é de fundamental importância. O ganho de potência do canal é afetado por vários fatores, incluindo a ocorrência de links de Linha de Visada (LoS) e Não Linha de Visada (NLoS), além de uma atenuação adicional devido ao ambiente e características do espaço. O modelo de ganho de potência do canal em condições LoS e NLoS é expresso por hLl,j,n=α0dm,k,nβLhL_{l,j,n} = \alpha_0 d^{ -βL}_{m,k,n} e hNm,k,n=μα0dm,k,nβNhN_{m,k,n} = \mu \alpha_0 d^{ -βN}_{m,k,n}, onde α0\alpha_0 representa o ganho médio de potência no estado LoS para uma distância de referência de 1 metro, μ\mu é o fator de atenuação adicional e \betaL\betaL e \betaN\betaN são os expoentes de perda de caminho para os estados LoS e NLoS, respectivamente. Além disso, a distância euclidiana entre o UAV ll e o GD jj é dada por dl,j,n=ql,nwj,n2d_{l,j,n} = \| q_{l,n} - w_{j,n} \|_2, enquanto o ângulo de elevação θl,j,n\theta_{l,j,n} é expresso como θl,j,n=arctan(qλl,nψλj,nzl,n)\theta_{l,j,n} = \text{arctan} \left( \frac{ \| q_{\lambda l,n} - \psi_{\lambda j,n} \| }{z_{l,n}} \right).

O ganho de potência do canal hl,j,nh_{l,j,n} sofre influência de duas fontes de aleatoriedade: a ocorrência de links LoS e NLoS, bem como a atenuação de pequena escala (fading). A taxa de transferência alcançável esperada pode ser expressa considerando essas duas fontes de aleatoriedade, com a fórmula E[RLl,j,n]=Pl,j,nRl,j,n+PNl,j,nRNl,j,nE[R_{L_{l,j,n}}] = P_{l,j,n} R_{l,j,n} + P_{N_{l,j,n}} R_{N_{l,j,n}}, onde RLl,j,nR_{L_{l,j,n}} e RNl,j,nR_{N_{l,j,n}} são as taxas de transferência alcançáveis nos estados LoS e NLoS, respectivamente. Aqui, BB representa a largura de banda de transmissão, e PP é a potência de transmissão do GD jj, enquanto γj\gamma_j denota o ganho do canal.

Para os sistemas UAV-UAV, onde o UAV de serviço está em altitude mais alta do que os edifícios ao redor, pode-se assumir que o canal entre os UAVs é LoS, permitindo que a transmissão de dados entre eles ocorra com maior eficiência. A taxa de transmissão no link ascendente entre o UAV ll e o UAV de serviço é expressa como:

RU=PlhUϕ0B(zl,nzl,n2+qγl,nqγl,n2)R_U = \frac{ P_l h_U }{ \phi_0 B \left( \| z_{l,n} - z_{l,n} \|^2 + \| q_{\gamma l,n} - q_{\gamma l,n} \|^2 \right) }

Onde PlP_l é a potência de transmissão do UAV ll, ϕ0\phi_0 é a densidade espectral de potência do ruído branco em watts/Hz, BB é a largura de banda do canal disponível para a comunicação e χ\chi é o SNR de referência.

A operação do sistema segue um ciclo contínuo dividido em três fases: coleta de dados, atualização local do modelo de aprendizado federado (FL) e disseminação do modelo global. O tempo total de operação é determinado pela soma dos tempos de cada uma dessas fases. O tempo de coleta de dados, por exemplo, é expresso por:

TC=l=1LNClκTC = \sum_{l=1}^L NC_l \kappa

onde NClNC_l é o número total de intervalos de tempo necessários para que os UAVs completem a coleta de dados de seus GDs. O tempo para atualização do modelo FL local pode ser descrito por:

TU=ωlRUTU = \frac{\omega_l}{R_U}

onde ωl\omega_l é o tamanho total dos parâmetros do modelo local a ser transmitido ao UAV de serviço. E, finalmente, o tempo para a disseminação do modelo global é dado por:

TD=ωlRDTD = \frac{\omega_l}{R_D}

O objetivo do design é minimizar o tempo total de operação, otimizando de forma conjunta a trajetória dos UAVs e a programação de comunicação com os GDs. O problema de otimização é modelado como uma programação matemática, levando em consideração várias restrições, como a capacidade de um UAV se comunicar com apenas um GD por vez e a necessidade de completar a coleta de dados de todos os GDs.

No contexto do aprendizado federado, o problema se complica ainda mais devido à natureza não convexa da região factível, especialmente devido à presença de zonas sem voo (NFZs). A mobilidade dos GDs e as restrições impostas pelas NFZs introduzem dinâmicas e incertezas no sistema. Para lidar com esses desafios, a abordagem proposta é reformular o problema como um Processo de Decisão de Markov (MDP) e aplicar o aprendizado de reforço federado multiagente (MAFRL), que permite que cada agente (neste caso, cada UAV) aprenda uma política ótima para minimizar o tempo total de operação.

Além disso, é essencial entender que, ao utilizar técnicas de aprendizado de reforço, como o DRL (Deep Reinforcement Learning), os UAVs podem melhorar suas decisões ao longo do tempo, aprendendo a otimizar suas trajetórias e sua comunicação com os GDs. Isso traz vantagens como a adaptação dinâmica às condições do ambiente e à variação das condições de sinal, o que seria muito mais desafiador utilizando algoritmos tradicionais de otimização. O processo de aprendizagem contínua também ajuda a lidar com a aleatoriedade do sistema, onde o ambiente pode mudar de maneira imprevisível devido a fatores como ruídos e interferências.

Ao aplicar o MAFRL, a coordenação entre UAVs se torna mais eficiente, pois os UAVs podem compartilhar informações e estratégias aprendidas ao longo do processo, melhorando a operação global do sistema de coleta de dados e otimização de trajetórias. Isso resulta em uma redução significativa do tempo total necessário para completar a tarefa, ao mesmo tempo em que mantém a qualidade da comunicação e a eficiência no uso de recursos.

Como Equilibrar Sensoriamento e Comunicação em Sistemas ISAC com UAVs: Uma Nova Perspectiva

Em muitos cenários de comunicação e sensoriamento, as exigências para ambos os processos podem ser assimétricas. Por exemplo, objetos de baixa velocidade podem precisar de um sensoriamento menos frequente, enquanto alvos de alta velocidade exigem taxas de sensoriamento mais altas. A literatura atual sobre ISAC (Sistemas Integrados de Sensoriamento e Comunicação) ainda não abordou adequadamente essa variação na frequência de sensoriamento. Forçar a execução simultânea de ambas as funções pode levar a ineficiências, como desperdício de espectro e aumento da interferência, além de um consumo de energia elevado, especialmente em veículos aéreos não tripulados (UAVs) com poder limitado. Portanto, é necessário estudar o impacto da frequência de sensoriamento nas taxas de comunicação alcançáveis, particularmente para sistemas ISAC habilitados por UAVs, que podem se beneficiar da flexibilidade do movimento autônomo dos UAVs.

A proposta que exploramos neste trabalho é um sistema ISAC habilitado por UAVs, no qual o UAV realiza sensoriamento periódico enquanto fornece comunicação de enlace descendente para vários usuários. O mecanismo de sensoriamento e comunicação integrado e periódico (IPSAC) proposto permite um equilíbrio flexível entre sensoriamento e comunicação ao otimizar o beamforming de transmissão, a associação de usuários, o tempo de sensoriamento e a trajetória do UAV, levando em conta os requisitos práticos de frequência de sensoriamento. Diferentemente dos métodos tradicionais de ISAC, que forçam o UAV a realizar ambas as funções simultaneamente, nossa abordagem oferece maior flexibilidade. Ambos os casos de comunicação independente e sensoriamento contínuo são tratados como casos especiais em nosso framework.

O sistema que sugerimos propõe o uso de um mecanismo IPSAC, equilibrando poder de sensoriamento, frequência e desempenho da comunicação em cenários de múltiplos usuários e alvos. O problema de ISAC periódico é formulado com o objetivo de maximizar as taxas alcançáveis, cumprindo simultaneamente as restrições de sensoriamento e de padrão de feixe. Derivamos soluções de forma fechada para o beamforming em qualquer posição do UAV e para as taxas ótimas alcançáveis quando o número de antenas é infinito. Uma solução algorítmica baseada em penalidade é proposta para otimizar conjuntamente o beamforming, a associação de usuários, o tempo de sensoriamento e a trajetória do UAV.

Pesquisas anteriores sobre UAVs posicionados estrategicamente para aprimorar o desempenho de comunicação e sensoriamento geralmente não abordaram a integração desses dois processos. Estudos anteriores concentraram-se principalmente em usar UAVs para comunicação ou para sensoriamento, sem considerar os desafios das ondas e do beamforming integrados. A introdução de sistemas ISAC habilitados por UAVs trouxe novas complexidades, como o balanceamento das restrições do padrão de feixe, alocação de recursos e trajetória do UAV, com o objetivo de maximizar as taxas alcançáveis. Isso exige técnicas mais avançadas que otimizem tanto a trajetória do UAV quanto o design do beamforming, enquanto consideram frequências de sensoriamento flexíveis.

Sistemas ISAC habilitados por UAVs oferecem maior flexibilidade em comparação com os sistemas de implantação fixa, permitindo ajustes em tempo real no cronograma de sensoriamento, padrões de feixe e trajetórias de voo. Essa capacidade de adaptação leva a uma alocação de recursos mais eficiente e a um desempenho geral mais aprimorado do sistema. Vários estudos recentes exploraram a interação dinâmica entre as trajetórias do UAV e o desempenho do ISAC, propondo mecanismos mais sofisticados que equilibram de maneira mais eficaz as funções de sensoriamento e comunicação. No entanto, nosso trabalho vai além, abordando uma lacuna crítica ao considerar a necessidade de frequências de sensoriamento adaptáveis.

Considerando os requisitos práticos de pontualidade para tarefas de sensoriamento, propomos um mecanismo ISAC que busca equilibrar o sensoriamento e a comunicação em cenários com múltiplos usuários e alvos. Cada tarefa de sensoriamento deve ser realizada ao menos uma vez em cada quadro ISAC. O tempo total de missão é dividido em intervalos discretos, permitindo uma simplificação na modelagem das trajetórias e do beamforming. Em cada intervalo, a localização do UAV é considerada constante, o que facilita a análise.

Em relação ao modelo de comunicação e sensoriamento, os canais entre o UAV e os usuários são dominados por um componente de linha de visão (LoS). O ganho de canal entre o UAV e o usuário segue o modelo de perda de caminho no espaço livre, levando em consideração a distância entre o UAV e o usuário. O efeito Doppler causado pelo movimento do UAV pode ser totalmente compensado tanto pelos usuários de comunicação quanto pelos receptores de sensoriamento, permitindo maior precisão nas medições e na comunicação.

Além disso, a estrutura de quadro ISAC que propomos envolve a implementação de uma técnica de acesso múltiplo por divisão de tempo (TDMA), onde apenas um alvo é sensoriado em cada intervalo de tempo. Isso minimiza a complexidade computacional e evita interferências nos canais LoS. O UAV realiza o sensoriamento de cada alvo de forma sequencial, garantindo que cada alvo seja sensoriado uma vez por quadro.

É importante compreender que, além da proposta técnica, a flexibilidade de ajustar a frequência de sensoriamento é um dos aspectos-chave para alcançar a eficiência no uso de recursos em sistemas ISAC. A dinâmica entre as funções de sensoriamento e comunicação exige um planejamento cuidadoso das trajetórias e do beamforming, não apenas para maximizar as taxas alcançáveis, mas também para garantir a eficiência energética e a minimização de interferências. A capacidade de adaptar a frequência de sensoriamento conforme as necessidades específicas de cada alvo ou usuário é essencial para o sucesso desse tipo de sistema em cenários do mundo real.