Come veniamo tracciati su un sito web

Data Science Italy Tecnologia Settembre 9, 2019 | 0

Che cosa si intende innanzitutto con “tracciamento degli utenti”? Con “tracciamento degli utenti” si intende la possibilità per un sito web di conoscere la sequenza delle pagine visitate all’interno del sito dai singoli utenti, non solo nella singola visita, ma anche in una successiva visita a distanza di giorni e riconoscere che questo utente è lo stesso che ha compiuto degli accessi al sito nei giorni scorsi.

User tracking: utilità per il sito web e per l’utente

Esistono diverse tipi di soluzioni per questo obiettivo, ma cerchiamo prima di capire quali sono i motivi che portano il sito web a cercare di avere queste informazioni, ma capire anche che cosa ci guadagna l’utente stesso. Il sito web conoscendo l’esatte pagine visualizzate, i prodotti visualizzati nel caso di un e-commerce dall’utente, può ad esempio compiere dei suggerimenti mirati per l’acquisto di nuovi prodotti per quell’utente specifico. L’utente d’altra parte può essere seccato del fatto che il sito web lo tracci, ma è anche vero che è nel suo interesse che i prodotti consigliati siano di suo interesse. Vi sono numerosissimi altri motivi che possono motivare l’user tracking, ma non è questo l’obiettivo dell’articolo.

Login esplicito

Uno dei metodi più semplici e di cui è a conoscenza anche il lettore, è il tracciamento tramite username e password: quello che viene chiamato login esplicito. È evidente la potenza e l’efficacia di questo metodo: il poter tracciare l’utente non solo attraverso visite a distanza di giorni, ma anche su dispositivi differenti. Un esempio ne è Facebook, che sa esattamente le ricerche e le azioni da te compiute, non solo sul cellulare, ma anche sul computer, in quanto l’accesso avviene con il medesimo account.

Svantaggi

Il problema di questo metodo risiede nel fatto che è efficace per siti popolari, aziende di grandi dimensioni, come Facebook o Google, per banche, ma non per un piccolo sito a conduzione familiare ad esempio. Questo perché all’utente tipico di internet, costa fatica compiere qualsiasi azione, anche compilare un semplice form di registrazione di un account. Dunque se hai un tuo sito web che pubblicizza dei prodotti o servizi, questo non è il tuo metodo, anzi sarebbe controproducente.

URL con ID

Questo metodo si avvale dell’URL: l’url, per i meno esperti, è l’indirizzo web che potete osservare anche in questo momento in alto in questa pagina, all’interno del vostro browser. All’interno dell’url potete osservare un punto interrogativo: tutte le scritte dopo quel punto interrogativo sono dati che vengono passati al server al momento del caricamento della pagina o di qualche altra azione (metodo GET per il passaggio dei parametri per i più esperti).

Esempio di URL: si può osservare il punto interrogativo e la & che separa i diversi dati

Dunque questo metodo prevede l’assegnazione di un certo ID numerico, al momento della prima visita a una pagina del sito. Da quel momento quell’ID comparirà per tutta la durata della navigazione fra le pagine del sito web. È un ID univoco, che corrisponde solamente a te.

Svantaggi

Il problema di questo metodo è il fatto che al momento in cui io chiudo la connessione con il sito web e vi accedo nuovamente anche solo alcune ore dopo, il sito web mi assegnerà un diverso ID, perché non ha la possibilità di riconoscere che tu sei lo stesso utente che ha navigato precedentemente. Come potete osservare viene meno uno degli obiettivi che avevamo dichiarato all’inizio dell’articolo: la possibilità di tracciare l’utente attraverso visite diverse.

Fingerprints (impronta)

Questo metodo si basa sull’assunto che statisticamente la probabilità che due dispositivi abbiano le stesse identiche caratteristiche in tutto il mondo è prossima allo zero. Le fingerprints sono una collezione di tutte le impostazioni del browser, comprese risoluzione dello schermo, plugin, fuso orario, ma non solo, anche marca del computer, indirizzo IP con cui mi collego ad internet, lingua della tastiera, dispositivo mobile o personal computer, sistema operativo ecc.

Se associamo un ID e queste impostazioni è possibile tracciare un certo utente: questo è il metodo più efficace a livello di precisione e di efficacia, ma ha un difetto enorme e per questo nella realtà non viene utilizzato. Tutte queste informazioni sopracitate (che sono anche molte di più) occupano un’enorme quantità di memoria, considerando anche quanti dispositivi esistono nel mondo.

Cookies

Questo è il metodo effettivamente utilizzato nella realtà, molto probabilmente ne avete sentito parlare diverse volte, ma cosa sono i cookies? I cookies sono delle stringhe (insieme di caratteri alfanumerici per semplificare), generate dal server in cui risiedono le pagine del sito web a cui si effettua l’accesso e che risiedono in uno specifico file all’interno di una cartella dover risiede il browser, sul tuo computer.

Quindi il procedimento è simile a quello dell’URL con ID, perché ti viene assegnato sempre un ID al momento della tua prima visita. Ma a differenza di quest’altro metodo di tracciamento, dalla seconda visita in poi, è il browser stesso a fornire il cookie al server (se esiste, ma se è la seconda volta che accedi al sito web è molto probabile che esista). Quindi anche attraverso visite diverse l’utente continua ad essere tracciato.

Eccesso e difetto di cookies

Perché ho detto che il cookie “probabilmente” esiste la seconda volta che accedi, ma non è certo? Perché un utente può eliminare i cookies (per conoscere la procedura, molto semplice tra l’altro, potete cercare un articolo noioso per quanto utile di Salvatore Aranzulla). Questo comporta che venga assegnato, nel caso in cui l’utente abbia eliminato i cookies, un nuovo cookie alla successiva visita al sito web: dunque ora esistono due cookies differenti assegnati allo stesso utente.

Si parla dunque di eccesso di cookies: lo stesso utente (reale), viene contato più volte se elimina il cookie e accede nuovamente al sito. Ma esiste anche il caso inverso, ovvero il difetto di cookies: ad esempio in una famiglia in cui tutti accedono al medesimo sito dallo stesso dispositivo. Corrisponde un solo cookie a più persone. Questo è il motivo per cui il fingerprints teoricamente è il più efficace.

Alcune analisi mostrano come mediamente un cookie duri 3 giorni e poi venga eliminato. Dopo un mese è presente solo un quarto dei cookies rilasciati il mese prima. Quindi anche i cookies presentano degli svantaggi.

Correlati

Privacy

Come veniamo tracciati su un sito web