O paradigma do aprendizado federado enfrenta um desafio fundamental: como coordenar eficientemente múltiplos dispositivos de borda, cada um com seus próprios dados privados, para treinar um modelo comum sem expor suas informações? Essa dificuldade se acentua em cenários onde o acesso à estrutura interna do modelo é limitado ou inexistente — uma situação típica em ataques de caixa-preta. O algoritmo FedZO (Federated Zeroth-Order) propõe uma solução baseada na otimização sem derivadas, tornando possível operar mesmo na ausência de informações analíticas como gradientes.
No centro da proposta está a agregação via AirComp (Computação via Ar), uma técnica que permite transmitir atualizações dos dispositivos por meio de canais analógicos superpostos, aproveitando as propriedades físicas do canal de comunicação para realizar agregações em tempo real. Cada dispositivo transmite apenas o valor escalar do quadrado da norma de sua atualização local, ∥Δt∥²ᵢ, enquanto o servidor central estima e envia de volta os coeficientes de canal, minimizando a sobrecarga de comunicação. Essa estratégia é crucial, já que a transmissão de vetores de alta dimensão impõe um custo significativamente maior.
A análise de convergência do FedZO assistido por AirComp revela uma forte dependência da razão sinal-ruído (SNR). Quando o SNR mínimo, denotado por γ, tende ao infinito — representando um canal livre de ruído — a taxa de convergência se aproxima da ideal, observada em condições perfeitas. Por outro lado, com redução do SNR, há um impacto negativo na velocidade de convergência, embora esta ainda permaneça estável e previsível, como demonstrado teoricamente.
Nos experimentos, o FedZO é testado no contexto de ataques de caixa-preta colaborativos, cujo objetivo é gerar uma perturbação universal que, embora imperceptível visualmente, possa induzir erro no classificador. Neste cenário, mesmo com acesso limitado ao modelo de rede neural profunda, os dispositivos são capazes de otimizar uma função de perda adversarial complexa, usando apenas avaliações da função — característica típica de otimização de ordem zero.
A métrica central é a perda do ataque, que mede a capacidade de enganar o modelo com o mínimo de distorção perceptível. Ao variar o número de iterações locais H ∈ {5, 10, 20, 50}, observa-se que o aumento de H leva a uma redução mais rápida da perda do ataque. O ganho de eficiência com mais iterações locais comprova o potencial de aceleração linear teorizado para o FedZO.
Quando comparado a algoritmos como DZOPA e ZONE-S, o FedZO demonstra desempenho superior mesmo com um número reduzido de atualizações locais. O DZOPA, originalmente desenhado para arquiteturas ponto a ponto, não se adapta bem ao modelo cliente-servidor do FedZO. Já o ZONE-S, embora atinja uma precisão de ataque razoável, compromete a distorção, resultando em perturbações mais visíveis.
Outro fator crítico é a quantidade de dispositivos participantes. A experimentação com M ∈ {5, 10, 25, 50} mostra que o aumento de dispositivos leva a uma convergência mais acelerada. Isso ocorre porque mais dispositivos contribuem com informações diversas, promovendo maior diversidade de atualizações e uma representação mais robusta do espaço de otimização.
Sob diferentes níveis de SNR — −10 dB, −5 dB, 0 dB — o desempenho do FedZO com agregação AirComp continua estável. Mesmo com ruído, o algoritmo consegue manter uma taxa de convergência comparável à do caso sem ruído, especialmente quando SNR = 0 dB. Isso reforça a viabilidade do FedZO em ambientes reais de comunicação, onde interferências são inevitáveis.
A precisão dos
Como o Algoritmo Baseado em GNN Otimiza o Aprendizado Federado Assistido por RIS em Dispositivos de Borda
O design de uma rede neural baseada em grafos (GNN) para otimização do aprendizado federado assistido por RIS (Reconfigurable Intelligent Surface) envolve uma abordagem robusta para a coordenação eficiente entre dispositivos de borda, RIS e servidor de borda. O princípio fundamental de tal abordagem é a utilização de um único codificador para todos os módulos dentro da mesma camada, com a finalidade de garantir a equivariância e robustez da rede neural. No entanto, os projetos detalhados de diferentes módulos podem variar dependendo das operações de agregação e combinação entre os nós.
Cada nó de dispositivo agrega informações de todos os outros nós, garantindo que cada nó obtenha uma quantidade suficiente de CSI (Channel State Information) e facilitando a coordenação entre os dispositivos de borda, o RIS e o servidor de borda. Isso se reflete na atualização do vetor de representação no nó , que pode ser expresso como uma combinação das representações codificadas dos nós adjacentes, incluindo as operações de agregação e combinação (eq. 5.22). A equação apresenta uma combinação eficiente dos dados de cada nó com as representações de outros dispositivos, o servidor de borda e o RIS. O uso de diferentes funções de agregação permite manter a invariância de permutação durante o processo de aprendizado.
Neste modelo, o nó agrega o vetor de representação médio dos outros nós de dispositivo, de modo que o alinhamento de sinal dependa de todos os canais, e não apenas do mais forte. Por outro lado, a combinação das representações do RIS e do servidor de borda não altera a propriedade de invariância de permutação dos dados. Isso permite que a rede neural aprenda melhor a representação do canal com base nas informações dos nós RIS e servidor de borda.
Após a atualização das representações dos dispositivos, o algoritmo de aprendizado baseado em GNN processa a última camada, gerando os parâmetros de transmissão, o vetor de mudança de fase e o fator de desnoising. Esses parâmetros são obtidos por meio de decodificadores específicos, um para cada tipo de nó (dispositivos de borda, RIS e servidor de borda), com funções de ativação Sigmoid para restringir a faixa de saída. A transformação afim usada para escalar as representações garante que o design de cada nó seja ajustado ao nível necessário para a comunicação eficiente.
Uma das grandes vantagens desse método é sua escalabilidade. A rede proposta não necessita ser re-treinada quando o número de dispositivos de borda varia, o que é uma melhoria significativa em relação aos métodos tradicionais baseados em redes neurais profundas (DNN), que exigem treinamento completo ao introduzir novos dispositivos ou alterações no ambiente de rede. Essa escalabilidade é particularmente importante em cenários de redes dinâmicas, onde a topologia de dispositivos pode mudar com frequência.
O treinamento do algoritmo GNN ocorre de forma offline, utilizando métodos de gradiente estocástico mini-batch em um formato não supervisionado. Durante o treinamento, o objetivo é minimizar o erro médio de tempo, respeitando as restrições de potência de transmissão. A função de perda é composta por um termo de erro, que reflete a diferença entre os valores previstos e os reais, e um termo regularizador para garantir que as restrições de potência sejam atendidas. A regularização é ajustada de forma a garantir que a média da potência de transmissão não ultrapasse os limites definidos, e a técnica ReLU é utilizada para simplificar os cálculos durante a retropropagação.
Para prevenir o overfitting, o processo de treinamento é interrompido quando a variância das últimas 100 perdas logarítmicas de treinamento é inferior a um limiar pré-definido. Esse critério de parada garante que a rede tenha aprendido a generalizar sem se ajustar excessivamente aos dados de treinamento.
Além disso, a implementação de RIS no contexto de redes de dispositivos de borda é particularmente desafiadora, devido à necessidade de refletir as ondas de rádio de maneira inteligente e otimizar a comunicação sem fio entre o servidor de borda e os dispositivos de borda. A configuração de RIS permite uma melhoria significativa na qualidade do canal, manipulando ativamente a fase das ondas de rádio refletidas. A modelagem das distâncias e os coeficientes de canal seguem distribuições específicas, como a distribuição de Rician, levando em consideração tanto os caminhos line-of-sight (LOS) quanto os non-line-of-sight (NLOS).
O uso de RIS no aprendizado federado permite um ganho de eficiência, ao aproveitar a capacidade de manipular o ambiente de RF para melhorar a comunicação entre os dispositivos de borda e o servidor. A otimização do alinhamento de fase e a consideração das variáveis de canal dinâmicas, como o ângulo de chegada (AOA) e o ângulo de partida (AOD), tornam possível uma transmissão mais robusta e eficaz.
Com a simulação realizada em um cenário de reconhecimento de dígitos manuscritos utilizando o conjunto de dados MNIST, o desempenho do algoritmo GNN proposto pode ser avaliado com relação à eficácia na coordenação e no uso dos canais de comunicação entre os dispositivos de borda, o RIS e o servidor de borda. Os resultados mostram que, ao contrário de métodos convencionais, a GNN oferece uma solução escalável e eficiente para problemas complexos de aprendizado federado em redes assistidas por RIS.
Qual é o impacto da programação de dispositivos e otimização de trajetórias de UAV no aprendizado federado via UAV?
No contexto de redes habilitadas por UAV (Unmanned Aerial Vehicle, ou Veículo Aéreo Não Tripulado), o processo de Aprendizado Federado de Bordo (FEEL, do inglês Federated Edge Learning) é fortemente influenciado pela programação dos dispositivos e pela trajetória do UAV, além de outros fatores como as condições de canal e o número de rodadas de comunicação. Esse modelo de aprendizado distribuído exige que os dispositivos e o UAV colaborem continuamente para atualizar seus modelos, o que, por sua vez, impõe uma série de desafios em termos de desempenho e eficiência.
O FEEL envolve uma sequência de rodadas de comunicação, onde os dispositivos localmente atualizam seus modelos e os transmitem ao UAV, que centraliza o processo de agregação e distribuição de parâmetros globais. A eficiência desse processo depende, em grande parte, de uma programação eficaz dos dispositivos e da otimização do trajeto do UAV, além da gestão do tempo entre os diferentes estágios: computação local, envio de modelos locais, computação global e download do modelo global. Quando o UAV se move, as condições do canal podem mudar a cada rodada, o que afeta a qualidade da comunicação e o desempenho do aprendizado. Assim, é crucial garantir que o UAV, além de otimizar sua trajetória, minimize as variações de condições do canal e as latências de comunicação.
A localização do UAV é um fator determinante, pois, ao longo da missão, ele precisa se deslocar de forma a garantir que a distância entre ele e os dispositivos seja mantida de maneira constante, evitando, assim, a degradação do sinal. As variáveis envolvidas incluem a velocidade máxima do UAV, a duração de cada rodada de comunicação, a alocação de tempo entre as fases de computação e de transmissão, além da necessidade de manter a distância entre o UAV e os dispositivos dentro de certos limites. A utilização de um modelo de perda de caminho em espaço livre ajuda a calcular o ganho do canal, o que permite uma gestão mais precisa da comunicação.
Além disso, a escolha de um esquema de múltiplos acessos, como TDMA (Time Division Multiple Access), para a transmissão dos modelos locais, também desempenha um papel fundamental na redução da interferência entre os dispositivos e na melhoria da eficiência do sistema. Esse esquema garante que cada dispositivo tenha seu próprio slot de tempo para transmitir seu modelo, o que contribui para a redução de colisões de dados e melhora a utilização da largura de banda do sistema.
O processo de atualização dos modelos no FEEL pode ser realizado de forma síncrona, onde todos os dispositivos devem completar sua computação local e só então enviar seus modelos ao UAV, ou de forma assíncrona, onde os dispositivos atualizam seus modelos independentemente. A abordagem síncrona, embora mais simples e com garantias de convergência, pode gerar um aumento no tempo total do processo de aprendizado, especialmente quando se trabalha com dispositivos de baixa capacidade computacional ou quando os dados a serem processados são grandes. A eficiência do processo, portanto, depende de uma gestão precisa do tempo e da carga de trabalho dos dispositivos.
Ademais, deve-se observar que o tempo de computação local e a energia consumida pelos dispositivos variam conforme suas especificações, como a frequência da CPU e a quantidade de dados a serem processados. Esses parâmetros precisam ser levados em conta ao planejar a programação dos dispositivos e as rodadas de comunicação, pois um desequilíbrio pode levar a atrasos ou a um consumo excessivo de energia, prejudicando a eficiência global do sistema.
Quando o UAV otimiza sua trajetória e ajusta a programação dos dispositivos, ele não só melhora a eficiência do processo de aprendizado, mas também potencializa a acurácia da convergência do FEEL, ao minimizar as variações e atrasos nas condições de comunicação.
Um aspecto importante que deve ser enfatizado ao lidar com FEEL em redes habilitadas por UAVs é o impacto do ambiente físico, como obstáculos, variações de terreno e condições climáticas, que podem alterar as condições de sinal entre o UAV e os dispositivos. A capacidade do UAV de adaptar-se rapidamente a essas mudanças é crucial para manter a qualidade da comunicação e garantir a eficiência do aprendizado.
A gestão eficiente da energia também é um aspecto relevante, especialmente em sistemas de UAVs com baterias limitadas. A otimização do tempo de missão, ao reduzir o número de rodadas de comunicação ou a duração das mesmas, pode ter um efeito direto na eficiência energética do sistema. Embora a energia não tenha sido o foco deste estudo, a consideração desse fator em um modelo futuro pode contribuir para uma maior sustentabilidade do sistema de aprendizado federado baseado em UAVs.
Como o Algoritmo TD3 é Usado para Alocação de Recursos em Redes de Comunicação sem Fio
O algoritmo TD3 (Twin Delayed Deep Deterministic Policy Gradient) se destaca por sua aplicação na alocação eficiente de recursos em sistemas de comunicação sem fio, especialmente em redes com múltiplos dispositivos de borda (edge devices) e servidores de borda. A complexidade das redes móveis modernas exige uma abordagem robusta para lidar com a distribuição dinâmica de largura de banda e potência de transmissão, e o TD3 apresenta uma solução interessante, baseando-se em redes neurais profundas e no aprendizado por reforço. A seguir, detalharemos como esse algoritmo é estruturado e treinado, com foco nas redes do tipo ator-crítico.
No algoritmo TD3, a função-valor de ação é aproximada por um crítico que calcula valores Q, representando o retorno esperado de um determinado estado e ação. Esses valores são utilizados para guiar a escolha das melhores ações dentro de um espaço de estados contínuo. O processo é complexo, mas eficaz, pois a estrutura do TD3 permite que o modelo aprenda a alocar recursos como largura de banda e potência de transmissão de maneira ótima, levando em consideração as dinâmicas de rede em tempo real.
Estrutura das Redes no TD3
O modelo TD3 é composto por duas redes principais: a rede ator e a rede crítico. Ambas são implementadas utilizando redes neurais profundas (DNNs), cujas camadas totalmente conectadas extraiem as características do estado e da ação para mapear a política e os valores Q. A rede ator seleciona a ação ideal para um dado estado, enquanto o crítico avalia essa ação através da função de valor Q. A combinação desses dois componentes permite que o sistema aprenda a alocar recursos de forma eficiente, ajustando constantemente a política com base nos dados coletados.
A rede ator realiza a alocação de recursos com uma abordagem diferenciada: para a alocação de largura de banda, uma função softmax é utilizada, garantindo que a soma das saídas seja igual a 1, representando a distribuição percentual da largura de banda. Já para a alocação de potência, a função sigmoide é aplicada, limitando as saídas no intervalo de 0 a 1, refletindo a porcentagem de potência máxima disponível para cada dispositivo ou servidor de borda. Dessa forma, o TD3 não só permite a alocação de recursos, mas também garante que os resultados estejam dentro de limites realistas de operação.
Treinamento das Redes
O treinamento da rede crítico é realizado por meio da minimização de uma função de perda, que é definida como o erro quadrático médio (MSE) entre os valores Q estimados e os valores alvo. A função de perda é expressa como:
onde é o valor alvo, calculado com base no retorno observado e na previsão do próximo estado . Para evitar vieses de superestimação que possam afetar a atualização da política do ator, o TD3 utiliza duas redes críticas independentes, e . O valor final de é calculado com o mínimo entre essas duas redes, o que reduz os erros causados por estimativas imprecisas.
No treinamento da rede ator, a política é atualizada usando um gradiente determinístico da política, o que permite a busca pela ação ótima para maximizar os valores Q estimados. Esse processo é fundamental para garantir que as alocações de recursos, como largura de banda e potência, sejam feitas de forma a otimizar o desempenho da rede, levando em consideração não só a alocação em si, mas também a interação complexa entre os diferentes dispositivos e servidores de borda.
Atualização das Redes de Referência
Além das redes online (ator e crítico), o TD3 também possui redes de referência (target networks), que são versões mais estáveis das redes principais. Essas redes de referência são atualizadas de forma menos frequente para evitar instabilidade no processo de treinamento. A atualização dessas redes segue a regra de interpolação ponderada, onde os parâmetros das redes online são misturados com os parâmetros das redes de referência, garantindo que as atualizações sejam graduais e controladas.
A fórmula geral para a atualização das redes de referência é dada por:
onde representa a proporção de atualização, determinando a quantidade de atualização das redes de referência a partir das redes online. Esse mecanismo ajuda a estabilizar o aprendizado, minimizando oscilações excessivas que poderiam prejudicar o desempenho do sistema.
Considerações Importantes
Embora o algoritmo TD3 seja altamente eficaz na alocação de recursos, é crucial que o modelo seja treinado com um conjunto de dados representativo e que as condições de operação da rede sejam monitoradas de forma contínua. A alocação de largura de banda e potência pode ser influenciada por uma série de fatores externos, como interferência de sinal, variações no tráfego de rede e mudanças nas condições dos dispositivos de borda. Por isso, a performance do TD3 pode ser sensível a essas condições e ajustes finos no treinamento podem ser necessários para garantir a eficiência do sistema.
Além disso, a implementação de redes neurais profundas exige um cuidado adicional com a arquitetura e a escolha de hiperparâmetros, como a taxa de aprendizado e a estrutura das camadas da rede. Erros na configuração dessas variáveis podem levar a um desempenho subótimo, afetando a qualidade da alocação de recursos.

Deutsch
Francais
Nederlands
Svenska
Norsk
Dansk
Suomi
Espanol
Italiano
Portugues
Magyar
Polski
Cestina
Русский