Statistiche sito web (molto lungo e tecnico)

Dovrei definire dei requisiti per le statistiche del sito web della mia
azienda, sapreste consigliarmi dei parametri di valutazione del sito web
che possano essere un utile strumento per il mktg?

Ciao Alfredo ciao a tutta la lista,

mi chiamo Stefano (Bago per gli amici) e mi occupo prima per piacere poi
per lavoro di misurazione del traffico di siti web da ormai 3 anni.
L'argomento in questione è molto vasto e minato: provo a darti qui i primi
spunti e a segnalarti i link ad alcuni articoli scritti da me e dai miei
colleghi in passato sull'argomento.

Non credo che si possa parlare di "parametri di valutazione" utili e di
parametri di valutazione non utili al marketing. I parametri e i numeri di
un sito sono interessanti o meno in relazione alla specifica analisi che
ti interessa fare in un determinato momento.

Quindi, non credo tu debba cercare N parametri utili per "fare marketing"
(qualcuno ci ha provato, ma a mio parere con scarso successo), ma
piuttosto dovresti cercare uno strumento di analisi del traffico che ti
permetta di trovare ogni volta il dato specifico che ti interessa nella
maniera più precisa ed affidabile possibile, poi sarai tu a dover imparare
a interpretare questi dati conoscendo bene il sito al quale si riferiscono.

In uno strumento di analisi del traffico di un sito web valuterei i
seguenti elementi: qualità dei dati che mi vengono forniti,
completezza/ricchezza degli stessi, strumenti forniti per la ricerca del
risultato. Di seguito provo ad approfondire ognuno di questi punti.

1) QUALITA' DEI DATI

Si parla spesso e forse troppo di termini come page-views (a), visitor
sessions (b), unique visitors (c) senza mai darne una reale definizione
(ma piuttosto si lascia l'interpretazione all'immaginazione
dell'interlocutore).
In particolare i logfiles di un sito (e l'analisi dei logfiles è solo uno
dei metodi possibili: vedi [1]) contengono un elenco di richieste
(requests) che sono state fatte al webserver, per ognuna delle quali
vengono memorizzate più informazioni possibili. Non esistendo standard che
stabiliscano come debba essere analizzato il traffico, sta allo strumento
di analisi dei log definire come conteggiare page-views, visitor sessions,
unique visitors e spiders o altri "parametri".

Di seguito provo a spiegare alcuni dei termini principali utilizzati come
unità di misura del traffico di un sito web e ad evidenziare come e perchè
non sono in realtà unità di misura ben note e definite come ci si
aspetterebbe.

A. Pageviews o pagine viste:
Molti software conteggiano come page-views qualunque richiesta che abbia
una estensione nota di pagina (.asp, .cfm, .php, .htm, etc) ma forse non è
del tutto corretto; Pensa ad un sito che utilizza i "frames": il
visitatore ha l'impressione di vedere una singola pagina web ma in realtà
il webserver registrerà 3/4 richieste a pagine html che quindi verranno
conteggiate come page-views erroneamente; Pensa, altrimenti, a tutti i
redirect che spesso vengono utilizzati all'interno di un sito: è giusto
che vengano conteggiati come pagine viste? io non vedo niente di più che
se il redirect non ci fosse, però finiscono per essere conteggiate come
pagine viste. E un popup automatico che mi viene visualizzato ogni volta
che guardo la home di un sito, dovrebbe essere conteggiata come pagina
vista? di nuovo no, a mio parere.

Per la maggior parte dei software si tratta semplicemente di configurare
dei filtri per escludere dal conteggio tutte quelle pagine che ricadono in
uno di quei casi, ma il problema è che non esiste qualcuno che stabilisce
che cosa va considerato filtrato e che cosa no e quindi se io ti dico che
il mio sito fa cento mila page-views al mese tu non puoi sapere quanto
"pulito" sia quel dato.

B. Visitor sessions o sessioni o visite:
Cosa si intenda per visita ad un sito dal punto di vista logico credo sia
molto semplice e quindi passo subito ad una definizione tecnica delle
visite. Come dicevo prima nel logfile di un server web non sono presenti
informazioni sulle visite ma solo sulle richieste, quindi è necessario
raggruppare una serie di richieste che si "IPOTIZZA" siano state generate
dallo stesso visitatore in un delimitato periodo di tempo e chiamarle
"visita".

Questo procedimento viene tipicamente chiamato "tracking delle sessioni"
(vedi [2]) e la più semplice tecnica consiste nel considerare due
richieste appartenenti alla stessa visita se sono generate dallo stesso
indirizzo IP e sono distanti al massimo 15 minuti l'una dall'altra. Ad
ogni tecnica applicata risponderanno risultati differenti: questo per dire
che anche per le "visitor sessions", come per le "page-views", non esiste
una regola ufficiale e ogni software/algoritmo porterà a risultati
differenti.

A differenza del dato delle page-views che può essere spesso raffinato
tramite configurazioni, il sistema di tracking è quasi sempre "hard-coded"
nel software di analisi e quindi poco configurabile.

C. unique visitors o visitatori unici:
In maniera simile al tracking delle sessioni esiste anche un tracking dei
visitatori con l'aggravante che è molto più difficile tecnicamente
riconoscere un visitatore e gli algoritmi possono essere estremamente poco
affidabili. Evito di scendere in dettaglio altrimenti perdo la metà di voi
nei tecnicismi di cookies/firewalls/proxy: in generale il mio consiglio è
di basare tutte le proprie analisi e scelte su pagine viste e visite
(page-views e visitor sessions) piuttosto che sui visitatori.

Nei casi reali credo che un sistema di analisi del traffico possa
sbagliare di pochi punti percentuale sui primi due, mentre per l'ultimo
penso l'errore cresca enormemente. I cookies utente possono aiutare molto,
ma questo errore rimarrà molto, molto alto.

D. gli spiders dei motori di ricerca e i robot dei servizi web:
E' importante che le richieste generate dagli spider dei motori di ricerca
e dai robot di servizi web (e.g. www.netcraft.com) vengano escluse
dall'analisi del traffico al sito web per evitare che il loro "strano"
comportamento ci porti ad errate conclusioni sul modo di navigare il
nostro sito. Per darvi un esempio pratico il 16% del traffico di
www.mlist.it ([3] e [4]) nel mese di febbraio 2002 è stato generato da
questi robottini: la durata media delle visite degli spider è stata di 37
minuti mentre quella dei visitatori veri è stata di 9 minuti... lascio a
voi le conclusioni (e questo è solo un esempio)

2) COMPLETEZZA/RICCHEZZA DEI RISULTATI DELLE ANALISI.

Un URL, un referring URL, un IP o uno User-Agent sono informazioni
tecniche spesso poco comprensibili e quindi è fondamentale che i dati
tecnici siano il più possibile puliti e semplici da leggere. Questa è la
parte più facile perchè troverai demo e report di esempio per quasi tutti
i software/servizi di analisi del traffico web e puoi confrontarli tu
direttamente: io sono un tecnico e quindi ti darei la mia visione da
tecnico che non credo sia valida per te.

Una sola nota tecnica per evidenziare alcune differenze apparentemente
sottili ma notevoli dal punto di vista della completezza dei risultati: un
visitatore che naviga dall'indirizzo 212.171.212.56 appartenente ad una
rete di telecom italia e utilizzato per accessi dial-ip di telecom
(E@sy.ip service) molti software non lo catalogano come italiano poichè
non è disponibile un "hostname" associato, mentre altri ti dicono
correttamente che è italiano. I primi di direbbero anche che
punto-informatico.com è americano o "commerciale" senza dirti che è
italiano. (Da notare che circa la metà del traffico generato da utenti
italiani proviene da IP che soffrono dello stesso problema dell'IP preso
in esempio!)

3) STRUMENTI FORNITI.

Ho iniziato l'intervento dicendo che non esistono N parametri con i quali
posso trarre tutte le conclusioni importanti in materia di traffico su un
sito web e il motivo principale è che le problematiche quotidiane sono le
più disparate e le statistiche necessarie ogni giorno possono essere
differenti. Credo quindi che sia necessario che le statistiche siano molto
complete o che lo strumento di analisi ci permetta di scegliere il dominio
dell'analisi (periodo, sezione del sito, tipologia di utenza, tipologia di
visita, e chi più ne ha più ne metta)

Mi fermo qui, sperando di non essere stato troppo tecnico e di essere
riuscito a trasmettere chiaramente le mie idee.
Ciao,
Stefano (a.k.a. Bago)

Alcuni articoli ad integrazione del mio intervento (necessitano di
registrazione)
[1] OTTENERE I DATI SUL TRAFFICO: DUE APPROCCI ALLA MISURAZIONE
(http://www.impression.it/newsl etter/env/numero-2.html)
[2] TRACKING DELLE SESSIONI
(http://www.impression.it/newsl etter/env/numero-1.html)
[3] SPIDER, CRAWLER E ROBOT. GLI AUTOMATISMI DEL WEB
(http://www.impression.it/newsl etter/env/numero-4.html)
[4] Statistiche del sito www.mlist.it
(http://www.webknowler.it/wk/s- mlist.html)