O aprendizado de máquina exige inerentemente grandes quantidades de dados para trabalhar e desenhar padrões. Nos últimos anos, houve um esforço para garantir que as informações utilizadas permaneçam privadas. O Google anunciou hoje uma biblioteca de privacidade diferencial de código aberto usada por seus próprios produtos.
A análise de dados diferencialmente privados é uma abordagem baseada em princípios que permite que as organizações aprendam com a maioria de seus dados, garantindo simultaneamente que esses resultados não permitam que os dados de qualquer indivíduo sejam distinguidos ou reidentificados.
Segundo a empresa, essa biblioteca de privacidade diferencial “ajuda a alimentar alguns dos principais produtos do Google”. Ele permite que desenvolvedores e organizações implementem recursos que, de outra forma, poderiam ser “difíceis de executar do zero”. O Google se concentrou especialmente em facilitar o uso e a implantação:
- Funções estatísticas: As operações mais comuns de ciência de dados são suportadas por esta versão. Os desenvolvedores podem calcular contagens, somas, médias, medianas e percentis usando nossa biblioteca.
- Testes rigorosos: Conseguir a privacidade diferencial correta é um desafio. Além de um amplo conjunto de testes, incluímos uma ‘biblioteca Estocástica de Verificador Diferencial de Privacidade Estocástica’ para ajudar a evitar erros.
- Pronto para usar: A utilidade real de uma versão de código aberto é responder à pergunta ‘Posso usar isso?’ É por isso que incluímos uma extensão do PostgreSQL junto com receitas comuns para você começar. Descrevemos os detalhes de nossa abordagem em um documento técnico que acabamos de lançar hoje.
- Modular: Projetamos a biblioteca para que ela possa ser estendida para incluir outras funcionalidades, como mecanismos adicionais, funções de agregação ou gerenciamento de orçamento de privacidade.
Um serviço do Google que aproveita a privacidade diferencialmente é o Maps, dado o grande número de contribuições de usuários de crowdsourcing. Isso inclui o recurso de horários populares que indica se um local é comercial e pratos populares. Também é usado pelo Google Fi MVNO e Gboard.
Em março, o Google também trouxe técnicas de privacidade diferenciais para desenvolvedores de ML de terceiros, usando o TensorFlow Privacy e Federated. A empresa está investindo em novas tecnologias de privacidade e deseja vê-las implantadas mais amplamente.
Estamos empolgados em disponibilizar amplamente essa biblioteca e esperamos que os desenvolvedores considerem aproveitá-la enquanto desenvolvem suas estratégias abrangentes de privacidade de dados. Da medicina, ao governo, às empresas e além, é nossa esperança que essas ferramentas de código aberto ajudem a produzir insights que beneficiem a todos.