« Cela prouve la bonne volonté de Google, mais, techniquement, cela ne sert pas à grand-chose, tempère Luc Bouganim, directeur de recherche à l'Inria (Institut national de recherche en informatique et en automatique) et spécialiste de la protection des données. A tout moment, on aura au moins 18 mois de données identifiées et plusieurs années de données anonymes : on pourra alors assez facilement étudier des similarités entre les données identifiées et anonymes et réaffecter les trois derniers digits de l'adresse IP. » En fait, Google va appliquer ce que les experts appellent la « K-anonymité », une technique qui remonte déjà à 1998. Elle consiste à dégrader les données de façon à cacher un individu parmi d'autres personnes (dans le cas de Google, K = 256). Problème, il suffit souvent de croiser la base de données «anonymisée » avec d'autres fichiers qui ne le sont pas pour retrouver l'identité exacte de la personne recherchée. Pire : si ces K personnes présentent toutes les mêmes caractéristiques (par exemple, si elles souffrent d'une maladie identique), l'« anonymisation » ne sert à rien puisque l'on obtient tout de même des données personnelles sur chacun des individus « cachés ».
Aussi, depuis 2006, on ajoute souvent à la « K-anonymité » la « L-diversité » : on mélange les données dans chaque groupe de K personnes de façon à ce qu'il y ait au moins L valeurs distinctes de leurs caractéristiques (par exemple, 10 salaires différents s'il s'agit d'un fichier des rémunérations). « C'est ce que l'on fait actuellement de mieux en «anonymisation» », estime Luc Bouganim. Dans le cas de Google, il faudrait s'assurer que les requêtes d'un groupe de 256 personnes recouvrent un très grand nombre de centres d'intérêt (musique classique, médecines douces...) et ne portent pas uniquement sur la pornographie ou l'alcool, par exemple. Une autre technique d'« anonymisation » très aboutie est la fonction de « hachage » : les données textuelles (noms, adresses...) qui permettent d'identifier un individu sont cryptées et remplacées par un chiffre. « C'est comme si je prenais un cochon, que je le passais à la moulinette et que je vous confiais les saucisses, explique Jeff Jonas, chief scientist chez IBM, qui est à l'origine d'une méthode de hachage. Même si je vous donne la moulinette, vous ne pouvez pas refaire le cochon. » Cette technique sert surtout à protéger l'intégrité des bases de données : si un pirate informatique s'empare d'un fichier « haché » au moment de son transfert, soit via Internet, soit sur un support physique, à l'extérieur d'une entreprise ou d'une administration (pour enrichissement ou vérification), il ne peut rien en faire. Un argument qui séduit énormément les Américains, souvent victimes de vols d'identité. Mais le hachage ne protége pas vraiment l'identité des personnes fichées : dans les faits, l'entreprise ou l'administration propriétaire du fichier haché en conserve une version originale et, surtout, un index qui lui permet de savoir qu'à tel chiffre correspond tel individu.
Article de Jacques Henno paru dans Les Echos (rubrique "Innovation") le 18-04-2007 sous le titre "L'anonymat des internautes difficile à garantir"