Google FLoC : révolution ou nouvel enfer ?
Rédigé par Didier Publié le 25/05/2021
La technologie FLoC de Google, pour “Federated Learning of Cohorts”, est une partie du projet “Privacy Sandbox”, qui vise à améliorer le respect de la vie privée en ligne. Cette initiative est supervisée par le W3C (World Wide Web Consortium), organisme à but non lucratif dont la mission est de fixer les standards du Web, depuis 1994.
Google FLoC : le concept
Le FLoC permet de travailler sur des grappes d’internautes suffisamment nombreux pour éviter une identification d’un individu, tout en gardant un niveau de performances élevées pour les campagnes des annonceurs. Le principe est le suivant : chaque site se voit attribuer jusqu’à cinq catégories, la navigation des internautes est enregistrée (ainsi que leurs conversions) et les individus sont regroupés dans une cohorte avec des habitudes de navigation et de consommation similaires. C’est sur ce groupe (et non pas sur une personne) que se fera le ciblage. Les cookies tiers (qui permettent d’identifier une personne via son navigateur) ne sont alors plus nécessaires.
Google estime que sa méthode obtiendrait 95% du rendement de ce qui se faisait jusqu’à maintenant. Sur le papier, c’est donc une petite perte d’efficacité pour un grand pas en avant dans le respect de la vie privée. On peut s’avancer à dire que Google anticipe un durcissement des lois sur les cookies (RGPD en tête). La firme de Moutain View a déjà annoncé qu’elle comptait supprimer les cookies tiers d’ici 2022 et compte bien embarquer avec elle un maximum de parts de marché. Le FLoC ne peut en effet fonctionner que si de nombreux acteurs entrent dans le jeu : éditeurs de navigateurs, éditeurs de sites, annonceurs publicitaires, etc.
Expérimentation technique en situation réelle
0.5% des internautes seraient déjà concernés par ce pistage d’un nouveau type. Il existe un site pour savoir si vous êtes cobayes du FLoC. Pour l’instant, seuls les utilisateurs de Google Chrome en version 89 et supérieure peuvent être concernés.
Votre browser utilise un algorithme appelé SimHash qui prend en entrée votre historique de navigation sur sept jours, et qui recalcule votre FlocID une fois par semaine. Vous êtes alors classé dans un groupe parmi 33.000 cohortes d’intérêt (pour la beta). Le bon côté, reconnaissons-le, c’est que les serveurs distants ne peuvent pas avoir directement accès à vos données privées, puisque c’est votre navigateur qui se tape le boulot, et qu’il est techniquement strictement impossible de “dé-hasher” des données.
Pour les curieux, le code du composant est disponible ici : https://source.chromium.org/chromium/chromium/src/+/master:components/federated_learning/
Un accueil majoritairement négatif
Chez les éditeurs de navigateurs, la réponse a été quasiment unanime : certains sont complètement contre et refusent en bloc d’intégrer FLoC à leur solution, comme Brave et Vivaldi, et les autres ont fait savoir que le déploiement de la solution de Google n’était pas à l’ordre du jour. Safari étant installé par défaut sur tous les Macs et Edge sur tous les ordinateurs Windows, on parle, au bas mot, d’un tiers des parts de marché mondiales qui n’adhèrent pas à la vision de Google du tracking nextgen.
Même DuckDuckGo, qui propose une extension pour améliorer la vie privée de ses utilisateurs, compte couper les vannes du FLoC. Chez WordPress, une discussion est en cours pour désactiver le FLoC par défaut. Ça priverait Google d’une manne énorme puisque ce CMS représente, à lui seul, 40% des sites internet.
Quel est le problème ?
Les éditeurs de site peuvent opt-out du programme en renvoyant le header Permissions-Policy: interest-cohort=()
sur toutes les pages de leur site. Si vous inspectez les headers HTTP renvoyés par Soumettre.fr, vous verrez qu'on a volontairement désactivé le FLoC, grâce à un package Laravel fourni par Spatie.
L'Electronic Frontier Foundation a tout simplement qualifié FLoC de "très mauvaise idée". L'EFF, c'est du sérieux. C'est une ONG qui combat depuis 1990 pour défendre les libertés sur Internet. Fondée par des pontes de l'informatique d'alors (Sun Microsystems, Lotus, etc), elle fédère un grand nombre de personnalités issues des milieux open source, cyberpunk et underground, qui ont une farouche volonté de ne pas être pistés lorsqu'ils utilisent internet. Alors oui, pour certain, c'est un délire de geek barbu, mais quand on a vu comme moi les systèmes de pistage se répandre sur le monde dans les dernières décennies, ça compte beaucoup. Pour ces gens, FLoC ne suffit pas à garantir l'anonymat des données, ce qui peut conduire à des dérives discriminatoires ou des ciblages prédateurs ("Predatory Targeting"). On vous laisse imaginer jusqu'où ça pourrait aller.
Votre FLoC ID, qui identifie quelle cohorte vous a été assignée, est envoyé à tous les sites avec lesquels vous interagissez (à priori, il sera accessible en JavaScript). Un des problèmes soulevé est que les ID soient recalculés une fois par semaine. Ça semble compromettre un ciblage à long-terme, mais en surveillant l'évolution de l'ID (et donc, du groupe d'appartenance) d'un utilisateur ciblé (parce qu'il est inscrit et connecté sur votre site, par exemple), on pourra suivre l'évolution des intérêts d'une personne en ligne. En regardant quelle cohorte Google vous a assignée cette semaine, on pourrait imaginer deviner si, par exemple, si vous comptez changer d'emploi (apparition de sites de petites annonces), si vous vous posez des questions sur votre sexualité, ou pour qui vous votez. Vous voyez le problème ? Il est vrai que Google a publié une liste de comportements exclus du ciblage dans ses "Personalized advertising policy principles", mais veut-on vraiment qu'une firme privée, ayant un enjeu économique énorme, soit le seul acteur a pouvoir fixer des limites ? On a déjà vu chez Facebook notamment que ça ne se passait pas idéalement pour tout le monde (et c'est un euphémisme). D'autant plus que les catégories concernées sont déjà couvertes par le droit français (pas de ciblage ethnique, ni lié à l'orientation sexuelle, etc). De la même manière, comment cela va-t-il se passer, dans des pays moins "permissifs", et/ou aux gouvernements un peu trop indiscrets ? Ou chez nous, dans 15 ans, si des élections amènent au pouvoir quelqu'un que vous ne souhaitez vraiment pas y voir ?
En combinant cet identifiant avec un fingerprint de votre navigateur, il sera souvent assez facile de vous ré-identifier personnellement : en partant de votre footprint (user agent, résolution d'écran, extensions chargées, etc), il faudra vous distinguer des quelques milliers d'utilisateurs de votre cohorte, contre plusieurs millions actuellement.
2 commentaires
Et l'adresse IP, sauf à utiliser un VPN ou Tor.
Bel article merci.... pour l'ouverture des yeux ;)
La question est maintenant en tant qu'éditeur de sites qui aimons bien envoyer de la publicité ciblée par intérêts, qu'est-ce que cela va engendrer pour l'économie ?
J'entends les arguments de part et d'autre, mais ou est la bonne mesure et que faire ?
En 1998, nous cherchions à monétiser des bandeaux pub, maintenant c'est la guerre du tracking !
Le QR code pour manger ou aller se divertir va dans le même sens ...
Quelle société se prépare à nous ? Black Mirror aurait vu juste ?