Publicité sur Internet

Cookies et Third Parties

Depuis la visite d'un site web, je suis la cible de publicités sur le sujet.
Comment est-ce possible ? Comment sont-ils au courant ?

Une connaissance me posait cette question et cela a motivé la rédaction de cet article.

Cookies et Third Parties !

L'affichage d'une page internet consiste en de multiples requêtes HTTP : une fois le fichier HTML téléchargé (description de la page, du contenu), votre navigateur devra encore télécharger les images et autres composants.

On y trouve notamment les fichiers qui contribuent au côté esthétique/présentation (CSS, Cascading Style Sheets) et dynamique (client-side scripting, souvent JavaScript). Par extension, cette technique est également appliquée par des fournisseurs de services, qui proposent d'ajouter leur contenu sur les pages visitées. Ce contenu peut même varier en fonction de votre emplacement géographique sur la planète.

A titre d'exemple, le chargement d'une des pages de ce site internet représente 21 requêtes, pour un total de 363 KB téléchargés (en 267ms).

Lors du chargement de la page web, il est également possible de créer des "cookies", de petits fichiers stockés sur votre machine qui permettent d'enregistrer des états et vous reconnaître pour de prochaines visites. A ce sujet, lire les paragraphes "pistage" et "tierce partie" de la page Wikipedia dédiée aux cookies. Les cookies permettent en effet de suivre un internaute au fil de ses requêtes sur un site internet. Le profilage est facilité : l'exploitant du serveur web/de l'application vous identifie et journalise vos différents accès, déduit ce qui vous intéresse, en consultant votre parcours (identité, contenu visité, horaires).

La combinaison des deux éléments est clé. La page web contient des appels vers d'autres éléments (externes) qui génèrent leurs propres traces, à leur tour : celles spécialisées dans la publicité, dans la gestion des cookies, et autres services encore. Ces différentes sociétés se lient entre elles par contrat et délivrent chacune leurs spécialités. On les appelle les "Third Parties".

Et il est même possible qu'une des sociétés avec lequel vous contractez, externalise une partie de son propre service. Vous vous retrouvez donc avec un "Fourth Party". Le fournisseur (de pub) d'un de vos fournisseurs (de pub).

Analysons quelques sites!

Mon blog, celui que vous lisez à l'instant

Comme premier exemple simple, que se passe-t-il lorsque vous visitez une page de ce blog, mettons celle consacrée à Magic Maze ? Aucun third party. Les fichiers CSS sont installés sur ce serveur. Ce blog utilise également JQuery 3.6.0 (au moment de la publication), servi également depuis ce serveur web. Les images viennent également de ce serveur. Aucune source externe. C'est le cas le plus simple.

Dans cet exemple de requête, 360KB sont téléchargés sur votre ordinateur, via 11 différentes requêtes HTTP GET. La page HTML déclenche le téléchargement de fichiers CSS, JavaScript, images, etc.

https://www.exoscale.com

Passons maintenant à l'analyse du site d'Exoscale (Public Cloud), qui communique beaucoup sur le respect de la vie privée. Exoscale revendique une conformité à 100% avec le réglement Européen RGPD, la loi la plus stricte en matière de protection des données. Voyons ce qu'il en est :

Le graph est un peu plus complet. On note que la grande majorité du contenu est servie depuis le domaine principal exoscale.com ou des sous-domaines associés (stats.exoscale.com). Deux autres sources sont cependant listées (Third parties):

  1. fast.fonts.net : téléchargement d'une police de caractère spécifique.
  2. cdn.cookielaw.org : organisation au service du respect des données privées, ils assurent la conformité des cookies avec les lois. Ces derniers dépendent visiblement de geolocation.onetrust.com (Fourth party engagée pour leur "Data Privacy Management Software").

Les différents domaines sont évalués et classés par catégories. Ainsi, on remarque que la visite du site www.exoscale.com implique un CDN (=Content Delivery Network) pour délivrer le contenu statique (fonts.net) et 2 domaines liés au "consentement/cookies" (cookielaw.org et onetrust.com). Le reste est délivré via Exoscale (First Party, dans le tableau ci-dessous).

Exoscale dit vrai : traitement très sérieux de la 'privacy' !

https://www.qoqa.ch

L'analyse du site www.qoqa.ch est intéressante, car il s'agit d'un des sites de e-commerce bien connu ici. On remarque que le graphique est plus "étendu" ou plus "développé" que les précédents. Il comporte davantage de composants externes.

Comme lors de l'exercice précédent, les sources externes ont été catégorisées et décomptées. Le tableau ci-dessous montre que la plupart des domaines sont externes, avec une majorité d'entres eux dédiés à la publicité (40). Lors d'une visite sur le site https://www.qoqa.ch, ce n'est pas moins de 227 requêtes HTTP qui sont déclenchées, sur 51 domaines qui n'appartiennent pas à QoQa. Tout ce matériel représente 1.5 MB de données, scripts et images.

Un zoom sur le graphique de Qoqa (extrait) montre que Pinterest, Facebook, Google et doubleclick.net sont désormais au courant de l'article qui vous intéresse. La société Doubleclick, membre du Groupe Google depuis 2007, est une régie spécialisée dans le ciblage comportemental sur internet. Dans l'exemple de QoQa.ch, ce sont 28 sociétés actives dans la publicité qui vous surveillent. CQFD : vous vous intéressez à un article proposé par QoQa, les réseaux sociaux vous proposeront de la publicité ciblée qui revient sur votre "intérêt".

https://www.amazon.com

D'un site e-commerce bien connu en Suisse romande, on rebondit sur LE site du e-commerce mondial : Amazon ! Chez eux, la carte se révèle beaucoup plus grande et comporte quelques constellations. Elle comporte plus de 700 liens.

Ci-dessous, je partage le détail des requêtes. La page principale d'amazon est liée avec 16 sociétés actives dans la publicité sur internet. Sans trop de surprise, Amazon nourri surtout ses propres services, sa société Amazon Ads.

CNN.com : le joli feu d'artifice !

Passons désormais sur un site de News bien connu, cnn.com . Wow ! Le graphique prend des proportions étonnantes !

Chez CNN, la catégorie "First party" représente une proportion inférieure à 10% des domaines questionnés (et nombre de requêtes) ! Lorsque vous visitez ce site internet, vos données sont collectées par un grand nombre d'organisations ! On y dénombre 58 sociétés partenaires, actives dans la publicité. Ils s'intéressent à ce qui vous intéresse. Combiné à votre identité, âge, emplacement géographique, on peut désormais vous présenter du contenu qui vous maintiendra intéressé.

https://www.pronhub.com

Passons un peu de temps sur un autre business, celui consacré au Pr0n. Le revenu dégagé par cette industrie est énorme et je m'attendais personnellement à résultat croustillant. Il n'en est rien, sans doute parce que les sociétés ne souhaitent pas s'afficher avec cette industrie-là. Sans trop de surprise, une large majorité du contenu est servi via un CDN, impérativement requis pour délivrer le contenu vidéo sur toute la planète, sans lag.

Le tableau des requêtes montre tout de même que Google est associé, via sa société fille "DoubleClick Ads". La société TrafficJunky est spécialisée dans la publicité Pr0n et affiche fièrement ses statistiques : "TrafficJunky serves 4.6 billion daily ad impressions". On a donc une industrie parallèle, pour ce vertical spécifique.

 

Conclusion

La motivation de ces quelques recherches provient d'une envie de mieux comprendre et d'expliquer ce qu'il se passe aujourd'hui sur internet. J'espère que le partage de ces quelques exemples donne une première idée sur la question.

La législation européenne sur la protection de la sphère privée (RGPD) a provoqué la mise en oeuvre systématique d'un avertissement sur les cookies, qui poursuit un besoin d'informer, de vous laisser le choix. Malheureusement, la plupart des utilisateurs valident les cookies sans y donner l'attention requise. Finalement, pour faire l'économie de quelques clics, le pistage est accepté. Certaines solutions rendent même votre choix très alambiqué, avec une quasi impossibilité de décliner les cookies de tracking ! Au final, vous êtes systématiquement suivis, pistés au fil des pages visitées.

Le profilage se déroule et les sociétés actives dans la publicité sur internet se livrent une concurrence acharnée en cherchant à être présentes sur un maximum de sites internet. Ceci pour mieux revendre leurs services de publicités ciblées. La statistique ci-dessous (2018) présente la proporition du trafic web collectée par les "Top trackers". Google (via DoubleClick) collecte les données de 80% du trafic.

Source: WhoTracks.me, by Cliqz GBMH.

Les données sont ainsi valorisées et sont même utilisées à des fins financières et politiques (cas des élections américaines. Et d'autres sans doute.). A ce sujet, relire les éléments autour de "Cambridge Analytica".

Une meilleure attention doit être portée sur le sujet. Pour cela, l'extention "Privacy Badger" devrait être plus largement installée. Il s'agit d'un plug-in gratuit pour votre navigateur, chargée de bloquer l'accès aux Third Parties.

Outils d'analyse utilisés

Au service de la privacy

 

Haut de page