O desenvolvimento de aplicações inteligentes, como carros autônomos e cidades inteligentes, tem impulsionado uma mudança de paradigma das "coisas conectadas" para a "inteligência conectada", especialmente com a chegada do 6G. Para suportar essa transformação e garantir uma inteligência conectada escalável e confiável, o aprendizado federado na borda (Federated Edge Learning - FEEL) tem surgido como uma estrutura disruptiva de aprendizado de máquina colaborativo. O FEEL possibilita o treinamento de modelos preservando a privacidade, trocando apenas atualizações de modelos locais, em vez de dados brutos privados.

Apesar da grande promessa do FEEL, a implementação deste framework sobre redes sem fio ainda enfrenta desafios significativos. Entre os principais obstáculos estão os gargalos de comunicação severos causados pela troca periódica de atualizações de modelos de alta dimensionalidade, a lenta convergência devido à heterogeneidade estatística e sistêmica, além da questão da confiabilidade em relação a inferências e ataques do tipo Bizantino. Para enfrentar esses desafios, é necessário o desenvolvimento de esquemas eficazes tanto na comunicação quanto no aprendizado.

Do ponto de vista algorítmico, é essencial considerar a variedade de algoritmos de otimização federada. As metodologias discutidas vão desde algoritmos de primeira ordem até métodos de segunda ordem, com ênfase na análise da convergência para demonstrar o impacto dos parâmetros de aprendizado e comunicação nas redes sem fio. Um algoritmo de otimização federada de primeira ordem é apresentado como uma solução inicial, usando o conceito de computação "over-the-air" (AirComp) para suportar a agregação rápida de modelos locais. O design conjunto da seleção de dispositivos e o beamforming também são otimizados para aprimorar o desempenho do aprendizado.

Porém, em cenários nos quais a informação do gradiente não está disponível, a solução de primeira ordem não é viável. Assim, o livro propõe um algoritmo de otimização federada de segunda ordem, com o objetivo de reduzir o número de rodadas de comunicação necessárias para a convergência. Essa abordagem, embora eficaz, impõe um aumento na carga computacional local em cada rodada de comunicação. Além disso, um algoritmo de otimização federada de ordem zero é introduzido, utilizando um estimador estocástico do gradiente do tipo mini-lote, que mantém a convergência tanto em canais sem erro quanto em canais com desvanecimento.

O desafio de melhorar a arquitetura de redes para suportar o FEEL é tratado de maneira detalhada. Uma das questões cruciais discutidas é a mitigação do problema de atrasos de comunicação, que pode ser resolvido com o uso de superfícies inteligentes reconfiguráveis (RIS) e veículos aéreos não tripulados (UAVs). A utilização de RIS em um contexto de FEEL é proposta como uma solução para aliviar o gargalo de comunicação, enquanto a implementação de algoritmos baseados em redes neurais gráficas permite otimizar os deslocamentos de fase do RIS e os transceptores.

Além disso, os UAVs são explorados devido à sua mobilidade e posição elevada, fatores que podem ser usados para melhorar a performance do FEEL. O impacto da programação dos dispositivos na performance de convergência é analisado, e é proposta uma otimização conjunta da trajetória do UAV e o agendamento dos dispositivos para minimizar a latência de treinamento.

O aprendizado federado na borda também exige uma abordagem robusta de privacidade e segurança. Uma arquitetura baseada em blockchain descentralizada é sugerida como uma maneira de fortalecer a agregação global dos modelos e implementar um protocolo de consenso com tolerância a falhas Bizantinas, resistindo assim a ataques maliciosos. A introdução de técnicas de agregação de modelos privados de maneira diferencial permite que o FEEL preserve a privacidade dos dados dos usuários, ao mesmo tempo que mantém um nível adequado de precisão no aprendizado. Um algoritmo alternativo de minimização em duas etapas é desenvolvido para equilibrar o desempenho do aprendizado com as restrições de privacidade, oferecendo um avanço significativo na implementação do FEEL de maneira confiável e escalável.

Além de entender os algoritmos e as arquiteturas que sustentam o FEEL, é essencial que o leitor considere as implicações práticas e os trade-offs entre desempenho, privacidade e segurança no design de sistemas de aprendizado federado. O equilíbrio entre a redução da latência de comunicação e a manutenção da precisão do modelo é um desafio contínuo, que exige uma abordagem adaptativa. A aplicação de técnicas avançadas de segurança, como a agregação de modelos resistente a falhas Bizantinas e o uso de blockchain, torna-se cada vez mais importante à medida que o aprendizado federado se expande para cenários críticos, como sistemas de veículos autônomos e infraestruturas de cidades inteligentes.

Como a Análise de Convergência Afeta a Eficiência no Aprendizado Federado

O aprendizado federado no contexto de redes neurais e modelos gráficos apresenta desafios substanciais, principalmente na otimização dos parâmetros do modelo global. O comportamento da função de perda global, a seleção de dispositivos e a ruído nos canais têm um impacto significativo no desempenho dos algoritmos de aprendizado. Neste capítulo, abordaremos uma análise matemática detalhada sobre como esses fatores influenciam a convergência e a eficiência do modelo em sistemas de aprendizado federado, com foco na análise da direção de descida, gradientes locais e matrizes Hessianas.

No cenário ideal de aprendizado federado, o vetor de parâmetros do modelo wtw_t evolui ao longo das iterações em direção à solução ótima ww^*. Para isso, é crucial entender como os gradientes e Hessianas locais, aproximando a direção de descida global, afetam essa trajetória de aprendizagem. A direção de descida ideal, denotada por pp^*, pode ser calculada pela fórmula:

p=2F1(wt)F(wt)=Ht1gtp^* = \nabla^2 F^{ -1}(w_t) \nabla F(w_t) = H_t^{ -1} g_t

onde HtH_t é a matriz Hessiana global e gtg_t o gradiente global. A presença de ruídos de canal e a seleção de dispositivos podem causar desvios desta direção ideal, levando à aproximação p^tp̂_t. O impacto dessa aproximação é essencial para garantir a eficácia do algoritmo de otimização. Em um cenário real, a direção de descida obtida pode ser expressa como:

p^t=p+(pˉtp)+(ptpˉt)+p~tp̂_t = p^* + (p̄_t - p^*) + (p_t - p̄_t) + p̃_t

onde pˉtp̄_t é a direção de descida média, ptp_t representa a direção média sem a seleção de dispositivos, e p~tp̃_t é o erro de aproximação. O entendimento dessa fórmula ajuda a perceber como os erros de seleção de dispositivos e a presença de ruído podem afetar a precisão do modelo.

Além disso, o erro no vetor de parâmetros δt=wtw\delta_t = w_t - w^* serve como uma métrica para a análise de convergência do modelo. A relação entre a direção de descida local e global é fundamental, pois um desvio significativo entre elas pode indicar que o algoritmo não está convergindo corretamente para a solução ótima.

Assumindo que a função de perda global FF seja LL-suave e fortemente convexa, a existência de uma solução ótima única ww^* está garantida. Da mesma forma, as funções de perda locais FiF_i são suavemente convexas e duas vezes diferenciáveis, o que facilita a utilização de aproximações locais. No entanto, mesmo sob essas condições ideais, os desvios entre as direções de descida local e global podem ser significativos, principalmente em presença de erros de canal e ruídos.

A análise de convergência se torna crucial para entender como esses desvios impactam a aproximação da solução ótima. Para isso, lemas matemáticos como o Lemma 3.1 e o Lemma 3.2 fornecem bases formais para caracterizar a relação entre as matrizes Hessianas locais e globais. O Lema 3.3, por exemplo, estabelece uma medida de quão próximo o vetor de direção de descida p^tp̂_t está de pp^*. A propriedade do erro ϵ\epsilon, que está presente em cada iteração, pode ser controlada e minimizada por ajustes na seleção de dispositivos e na configuração dos vetores de formação de feixe.

Na prática, a otimização do sistema envolve a minimização do erro acumulado, representado pela diferença entre a perda global esperada e a solução ótima. O ajuste contínuo do conjunto de dispositivos ativos StS_t, dos vetores de formação de feixe ata_t e dos fatores de escala ηt\eta_t em cada iteração é necessário para reduzir esse erro. É fundamental que o algoritmo mantenha uma taxa de convergência eficiente, o que é garantido pela sua capacidade de alternar entre uma taxa de convergência quadrática e linear, dependendo do tamanho do erro δt\delta_t.

Por fim, a implementação prática do algoritmo de aprendizado federado deve considerar que, em muitos casos, o erro acumulado tende a ser controlado de forma eficaz por essas otimizações. A presença de ruído de canal, a seleção dinâmica de dispositivos e a aplicação do passo de Newton local são fatores que devem ser monitorados para garantir que o algoritmo se aproxime rapidamente da solução ótima, respeitando a taxa de convergência definida.

Como a Blockchain Pode Tornar o Aprendizado Federado de Borda Mais Confiável?

O algoritmo para a atualização do modelo local de cada dispositivo de borda segue a equação wtk=wt1kηFk(wt1k;Sk)w_t^k = w_{t-1}^k - \eta \nabla F_k(w_{t-1}^k; S_k), onde FkF_k é a função de perda local calculada a partir de um lote de amostras SkS_k selecionadas aleatoriamente do conjunto de dados local, e wtkw_t^k representa o modelo do dispositivo de borda DkD_k no round tt. O gradiente Fk(wt1k;Sk)\nabla F_k(w_{t-1}^k; S_k) e η\eta representam o gradiente da função de perda e a taxa de aprendizado, respectivamente. Este passo é crucial, pois o cálculo da latência de computação ocorre quando o dispositivo de borda ajusta seus parâmetros locais de modelo.

Uma vez que o modelo local é treinado, o próximo passo é a sua transmissão para o servidor de borda primário. Para garantir a segurança e a integridade das informações, cada dispositivo de borda DkDD_k \in D utiliza os recursos wireless alocados para enviar seu modelo local ao servidor primário, por meio de transações no formato wk,Dk\langle w_k, D_k \rangle. Esses pacotes de dados, contendo o modelo local wkw_k, são digitalmente assinados pelos dispositivos para garantir a autenticidade e integridade dos dados, impedindo que entidades não autorizadas possam modificar ou corromper as informações. As transações são verificadas no blockchain, que funciona como um registro público e imutável das interações.

O processo de verificação e agregação do modelo global é realizado com o uso de algoritmos como o multi-KRUM, que garante a segurança da agregação mesmo em cenários com dispositivos maliciosos. O algoritmo multi-KRUM tem como objetivo escolher os modelos locais mais representativos para a média, minimizando a influência de modelos distorcidos ou enviesados, como os de dispositivos comprometidos. Para isso, ele calcula as distâncias euclidianas entre os modelos locais e seleciona aqueles mais próximos uns dos outros, ignorando os modelos que se afastam do comportamento esperado. O modelo global é, então, obtido pela média dos modelos selecionados.

Após a validação e agregação do modelo global, o servidor primário gera um novo bloco que inclui os modelos locais validados e o modelo global. Este bloco é então transmitido para os servidores validador que, por meio do protocolo PBFT (Practical Byzantine Fault Tolerance), garantem a correta validação e consenso sobre o bloco. O processo de validação é realizado em várias etapas, que incluem o pré-preparar, preparar, comprometer e responder. Cada uma dessas etapas possui latências computacionais associadas, como a verificação de assinaturas digitais, e latências de comunicação relacionadas à transmissão de mensagens entre servidores.

O consenso é alcançado quando a maioria dos servidores validadores concorda com o bloco gerado, o que garante que o modelo global seja efetivamente confiável. Após o consenso, os servidores validadores retornam mensagens de resposta ao servidor primário, indicando que o bloco foi armazenado corretamente no blockchain, e o modelo global validado é então transmitido de volta aos dispositivos de borda para dar início ao próximo round de treinamento.

A interação entre o servidor primário e os dispositivos de borda, facilitada pela blockchain, reduz significativamente as chances de manipulação dos modelos locais, proporcionando um aprendizado federado mais robusto e seguro. Além disso, a blockchain atua como uma camada adicional de confiança, permitindo que todas as transações sejam auditáveis e imutáveis, o que é particularmente importante em contextos onde a privacidade e a segurança são essenciais.

Porém, é importante notar que, embora a blockchain ofereça um sistema seguro e confiável para o gerenciamento de modelos locais e globais, o processo de validação e consenso ainda está sujeito a latências computacionais e de comunicação, que podem impactar o desempenho do sistema como um todo. A escolha do protocolo de consenso, como o PBFT, pode influenciar diretamente a eficiência do sistema, pois ele exige que todos os participantes validem as transações antes de serem adicionadas ao blockchain.

Além disso, o processo de treinamento de modelos em dispositivos de borda pode ser limitado pela capacidade de computação desses dispositivos. Mesmo com a utilização de blockchain, os dispositivos de borda com menor poder de processamento podem não ser capazes de realizar atualizações de modelos de maneira eficiente, o que pode afetar a velocidade de convergência do modelo global. Estratégias para balancear a carga de trabalho entre dispositivos de borda com diferentes capacidades de computação podem ser exploradas para otimizar a performance do sistema.

Por fim, é crucial compreender que a eficiência do aprendizado federado de borda depende não apenas da segurança oferecida pela blockchain, mas também de como os recursos são alocados e como as diferentes latências são gerenciadas. A escolha de protocolos de comunicação eficientes e a gestão adequada de recursos são fundamentais para garantir que a implementação de sistemas como o B-FEEL (Blockchain-Facilitated Edge Learning) alcance seus objetivos de maneira eficaz e escalável.