Archivi categoria: Conferenze

Conoscere le serp per migliorare il posizionamento: categorie, intenti e personalizzazione.

22/12/2010ConferenzeMarco

Questo appunti sono relativi al mio intervento svoltosi durante il quinto Convegno GT. Spero che la trattazione sia abbastanza chiara da poter accontentare sia chi ha partecipato, fornendogli utili spunti complementari ed ulteriori riferimenti, sia chi invece non lo ha fatto, fornendogli una buona idea di quello che ho detto.

A ciascuno va un invito a porre domande e a fare osservazioni attraverso i commenti, ma anche un ringraziamento per la pazienza che dimostrerete nella lettura di un testo che purtroppo non è accorciabile.

Buona lettura. (Spero!)

Di cosa parliamo?

Per entrare in argomento, partiamo da alcune considerazioni, tratte da altri interventi.

Francesco Tinti, citando dipendenti Google, ha trovato conferme del fatto che su siti differenti vengono utilizzati algoritmi differenti.
Matteo Monari e Paolo Dello Vicario ci hanno spiegato come, a seconda del settore nel quale si opera, ci si possano aspettare dal motore di ricerca risposte differenti ai backlinks “artificiali”.
Michele De Capitani, anche riportando il webinar di Madri, ha sottolineato la crescente importanza che sta prendendo la semantica all’interno degli algoritmi di Google.

Sembra che i siti vengano, in qualche maniera, suddivisi in categorie. Ma da cosa nascono queste differenze? Come interagiscono con l’algoritmo di Google?

La domanda può essere capovolta: cosa non sempre consideriamo quando prendiamo in considerazione i “classici 200 e più” fattori di posizionamento? Fondamentalmente la seo per come siamo abituati a studiarla percepisce spesso il motore di ricerca in maniera distorta: pensiamo che Google prenda una query, la inserisca nel suo mega-algoritmo e presenti i risultati in serp.

La realtà è molto più complicata, soprattutto per quanto riguarda le prime posizioni: interviene la catalogazione. In buona sostanza, appena ricevuta una query, il motore di ricerca tenta di capire a quale argomento si riferiscano le parole cercate e quale intento possa esserci dietro la richiesta, successivamente recupera tutti i dati che ha sull’utente ed inserisce il complesso delle informazioni nei suoi vari algoritmi.

Il risultato è una serp molto differente da quella che ci immaginiamo, molto più utile a chi l’ha richiesta.

Sia chiaro, tutti questi algoritmi prendono come base i fattori dei quali sempre discutiamo (backlinks, on page, trust,…) ma semplicemente gli danno un peso differente. Il nostro scopo allora non sarà tanto quello di trovare nuove leve di intervento, quanto piuttosto di usare al meglio, sito per sito e serp per serp, quelle che già abbiamo a disposizione e che da sempre stiamo studiando.

Cominciamo allora ad approfondire la conoscenza delle varie fasi della costruzione di una serp, basandoci su esempi e brevetti, per poterne estrarre consigli utili alla nostra seo.

Come sempre, quando si parla di brevetti, la cautela deve rimanere elevatissima: non è detto infatti che ogni invenzione sia stata poi realmente implementata o che i motori di ricerca non abbiano deciso di evolvere i meccanismi nel tempo. Tuttavia, cercando di rimanere il più possibile attaccati ai principi che hanno motivato questi brevetti, confrontandoli con l’analisi delle serp e lasciando in secondo piano gli aspetti più tecnici, possiamo avere un utile scorcio su quelli che possono essere le logiche interne a Google.

Le categorie nelle serp

Iniziamo dalla necessità di Google di classificare i contenuti che indicizza: sapere di che cosa parla un contenuto permette una più alta pertinenza dei risultati nei confronti della query ed una maggiore capacità di personalizzare i contenuti a seconda degli interessi del singolo utente.

Uno dei possibili metodi per riuscire nell’intento è descritto nel brevetto Generating Improved Document Classification Data Using Historical Search Results“ depositato l’8 aprile 2009 e reso pubblico il 14 ottobre scorso. Questo documento ci guiderà per tutto l’intervento e ci svela molti particolari interessanti quindi è necessario un minimo di approfondimento.

Nel documento sono definite 4 entità:

L’utente, caratterizzato da: identificatore, preferenze impostate manualmente ( siti contrassegnati come favoriti, lingua preferita, elenco degli argomenti segnalati come preferiti) e la lista di categorie. La lista contiene una serie di coppie nelle quali ad ogni possibile categoria è assegnato un numero in base a quanto si suppone essere forte l’interesse di un utente per quella determinata categoria.
Il documento, caratterizzato da: URL, fattori classici (Anchor text, PageRank,…) e l’elenco di categorie implementato come visto sopra.
La query, caratterizzata: dalla parola (o dall’insieme di parole simili) che l’ha generata, informazioni riguardanti la lingua e l’area geografica di interesse e dall’elenco di categorie, generato in base alla vicinanza semantica della query alla corrispondente categoria.
Il query log nel quale sono memorizzati: l’identificatore dell’utente che ha digitato la ricerca, la parola che ha ricercato, i risultati che ha trovato e tutte le informazioni sul suo comportamento in serp rivelato attraverso il browser, la toolbar o l’analisi dei log del server. Questi dati comprendono l’elenco dei risultati selezionati, la durata della visita e l’attività del mouse.

Allestito un sistema in grado di gestire questo tipo di informazioni, il concetto sul quale si basa Google per riempire i vari elenchi di categorie è relativamente intuitivo.

Una query nella quale saranno cliccati con maggiore frequenza documenti di determinate categorie sarà considerata inerente a quelle categorie; documenti che tenderanno ad essere apprezzati dall’utente per ricerche in un certo ambito saranno considerati inerenti per quel campo; utenti soliti eseguire di una certa categoria e cliccare su determinati risultati saranno ritenuti interessati a quegli ambiti.

Per come lo abbiamo descritto, in questo circolo di influenze, manca un punto di inizio: esso viene fornito inizialmente inserendo nel sistema la classificazione per alcune pagine-seme. Questi documenti possono essere stati scelti manualmente e si è certi che si riferiscano ad un determinato argomento.

Il metodo descritto è quindi in grado di mantenere un giudizio sempre aggiornato sulle preferenze dell’utente, sull’utilizzo delle parole chiave e sulle categorie dei vari documenti riuscendo rapidamente ad adattarsi ai cambiamenti.

L’algoritmo presentato, ci informa il brevetto, “può essere utilizzato per profilare un sito web se la classificazione di almeno un sottoinsieme delle sue pagine è nota”. In siti con più argomenti si considererà il peso specifico di ciascun tema in rapporto al totale delle pagine, mentre in altri casi “la mancanza di un argomento in comune tra almeno un numero minimo di pagine in un sito web può impedire che il sito venga classificato (ad esempio en.wikipedia.org)”.

Esaurita la parte teorica, andiamo a porci qualche domanda utile a migliorare la nostra SEO.

Perché è utile rientrare nella giusta categoria?

Ovviamente per essere considerati da Google rilevanti per una determinata ricerca…

Per ricevere traffico tematizzato e sfruttare al massimo la capacità di AdSense di adattarsi ai contenuti circostanti…

Ma soprattutto perché già da oggi, ma sicuramente molto di più in futuro, Google funziona così (cito dal brevetto): “in risposta alla query di un utente, il motore di ricerca identifica un set di risultati e li ordina inizialmente a seconda della loro rilevanza rispetto la query. Prima di inviare i risultati all’utente il motore può riordinare i risultati confrontando la classificazione di ciascun risultato con il profilo dell’utente”.

In sintesi appartenere alla giusta categoria si traduce nella possibilità di ottenere più traffico, di maggior qualità e conseguentemente maggiori conversioni e introiti pubblicitari.

Cosa posiamo fare per rientrare nella giusta categoria?

Al primo posto metto la strategia SEO che a lungo termine paga di più in assoluto: investire in contenuti, servizi ed usabilità del sito.

Secondariamente, nel brevetto, appare importante la percentuale di click ricevuta in serp. Ovviamente questo parametro è utile anche a prescindere dall’argomento trattato quindi è bene tenere presente che, secondo uno studio pubblicato da Google nel 2010, orientativamente:

Ogni termine in grassetto nel title aumenta le probabilità di click di un fattore x1.06.
Ogni termine in grassetto nell’abstract aumenta le probabilità di click di un fattore x1.01.

Questi dati sono assolutamente approssimativi in quanto pesantemente influenzati dalla posizione del risultato e dalla qualità generale della snippet (come meglio evidenziato nello studio citato) ma dimostrano con certezza una correlazione positiva.

Se ne deduce il consiglio all’utilizzo di title pertinenti con la query ed un invito a scegliere accuratamente quando inserire e quando omettere la description. Se è vero infatti che al fine del posizionamento non si valuta il contenuto della descrizione è anche vero che poter decidere quale abstract visualizzerà Google porta dei vantaggi. Il consiglio è quello di inserirla quando la si può ottimizzare per un certo set di parole chiave e di lasciarla scegliere a Google quando invece si spera di ricevere un traffico di tipo long tail.

Terzo modo per influire sulla categorizzazione è quello di incidere sui primi valori, assegnati algoritmicamente, prima che la pagina venga introdotta nel circolo. Riporta infatti il brevetto che:

“Inizialmente il valore di rilevanza di una pagina web nei confronti delle differenti categorie è stimata. Molti approcci noti nel settore (ad esempio analisi del contenuto delle pagine web, di alcuni termini chiave e/o dei links) possono essere utilizzati per generare la classificazione iniziale.”

Ma quali sono queste tecniche note nel settore?

Analisi dei termini chiave: un possibile algoritmo che utilizza questo approccio è dettagliato nel brevetto “System and method for determining a composite score for categorized search results” registrato da Google nel 2004 e reso pubblico ad ottobre. In pratica si tratta di associare un determinato peso alla pagina in base alle parole o alle frasi che contiene: un approccio che pare davvero superato. Unico pregio la presumibile velocità nella classificazione utile quando è necessario ottenere una risposta immediata con scarse informazioni di contesto (ad esempio per categorizzare un messaggio di stato).

Analisi dei contenuti della pagina: generalmente si parla di LDA, PLSA o HTMM (con quest’ultimo ritenuto più affidabile dei precedenti). In ogni caso si tratta di algoritmi di analisi statistica molto sofisticati dal punto di vista matematico basati sulla ricerca di schemi nel linguaggio.

Analisi dei link: un possibile approccio è espresso dal brevetto “Variable Personalization of Search Results in a Search Engine” registrato da Google nel marzo 2010 e reso pubblico 4 mesi dopo. In questo caso per capire l’attinenza del documento ad una categoria vengono contati i backlink provenienti da siti riconosciuti come autorevoli nella vostra categoria (stile TrustRank).

Come capire allora da chi è bene farsi linkare, dove navigano gli utenti che voi volete intercettare e chi guadagna adesso nel vostro settore con la pubblicità? Per risondere a queste domande possiamo utilizzare diverse tecniche partendo dallo strumento di Google AdPlanner (per utilizzare ogni strumento è necessario effettuare il log-in).

Attraverso questo tool, se il vostro sito è abbastanza grande, potrete capire come siete categorizzati dal motore di ricerca ma cosa più interessante potrete scoprire su quali siti merita maggiormente farsi citare perché già adesso stanno intercettando il vostro pubblico.

Selezionando la ricerca per pubblico sarete infatti in grado di capire quali sono i siti principali di qualsiasi categoria. Raggiunti questi portali potete ulteriormente espandere la ricerca verificando quali domini sono più spesso visitati dagli utenti dei siti scelti.

Con ogni probabilità non vi sarà particolarmente facile strappare backlink a realtà così affermate, ma ogni citazione guadagnata sarà estremamente importante per tutti i motivi esposti sopra.

Ricerche navigazionali, transazionali e informazionali: Google capisce l’intento.

Passiamo adesso ad un altro tipo di catalogazione, molto più generale. Prendiamo spunto da quanto detto da Matt Cutts in uno dei suoi video: “La filosofia di Google circa i risultati di ricerca è sempre stata la stessa: se qualcuno scrive su Google X noi tentiamo di restituire le informazioni di più alta qualità circa X. Talvolta si tratta di una ricerca per brand, talvolta di una ricerca informazionale, talvolta di una ricerca navigazionale e talvolta di una richiesta transazionale.”

Ma cosa rappresentano queste nuove categorie, in cosa si differenziano e come possiamo sfruttare questa divisione per aumentare i nostri visitatori e le nostre conversioni?

Cominciamo da una breve descrizione. Le categorie si dividono l’una dall’altra in base ai bisogni e all’intenzione dell’utente che le esegue:

Ricerca branded: in queste ricerche l’utente cerca le pagine ufficiali di un determinato marchio. Esempi di query di questo tipo sono “nike”, “fiat”, “geox” ma anche “giorgiotave”.
Ricerche navigazionali: richieste di questo tipo implicano la volontà di raggiungere una precisa pagina web della quale si conosce o si suppone l’esistenza con lo scopo di compiere qualche azione. In quest’ottica Google viene utilizzato quasi come un potenziamento della barra degli indirizzi del browser. Esempi di query di questo tipo sono “facebook login”, “canale youtube Ligabue” o “sito ufficiale le iene”.
Ricerche transazionali: si aspettano da Google un sito sul quale poter intraprendere una azione (scaricare una canzone, prenotare un hotel, trovare un’offerta, tracciare un itineario).
Ricerche informazionali: sono state effettuate con lo scopo preciso di trovare sulla pagina una determinata nozione. Esempi possono essere “data di nascita napoleone”, “definizione alterco” o “risultato di barcellona real madrid”.

In letteratura i primi due gruppi sono generalmente considerati coincidenti, ma al nostro scopo è bene mantenere le categorie separate visto che Google sembra farlo. Qualora vogliate maggiori suggerimenti su come distinguere le varie query e su come potrebbe suddividerle un algoritmo, vi sonsiglio la lettura di questa ricerca universitaria del 2007.

Quali sono i motivi principali per i quali è conveniente cominciare a ragionare in questi termini?

Per prima cosa il comportamento dell’utente appare significativamente differente di fronte a serp di differenti categorie: studi hanno evidenziato come il “classico triangolo d’oro” sia in realtà la media tra la grande concentrazione di attenzione sui primi 2 risultati delle query informazionali ed una visione più ampia, fino ai primi 6 risultati, per le query relazionali.

In pratica questo si traduce in una ovvia ridefinizione degli obiettivi: se la vostra pagina viene visitata al fine di compiere un’azione, potrete accontentarvi di essere nei primi cinque risultati, se invece offrite informazioni dovete ambire necessariamente alla prima posizione.

Ulteriore motivo per il quale merita porsi il problema delle 4 differenti categorie è la differenza nel modo di gestirle da parte di Google. Qualche consiglio per sfruttare al meglio ogni richiesta.

Il fatto che i brand ricevano per il loro nome una forte spinta da parte di Google, non vuol dire che non valga la pena impegnarsi con la seo per queste query, anzi! Compariamo le serp restituite cercando “geox” e “giorgiotave”, cercando di capire dove si potrebbero mettere le mani. Probabilmente nessuno dei due network perderà visitatori, dato che riescono entrambi a monopolizzare la serp tuttavia in un caso è praticamente impossibile capire in quale parte del sito si sta per accedere, le descrizioni sono pessime, viene lasciato molto spazio a news finanziarie veramente inutili per chi vuole acquistare scarpe ed il primo risultato invitante è quello di Wikipedia. Quante persone avranno trovato più preciso per quello che stavano cercando una delle pubblicità a lato? Dall’altra parte trovate invece l’intero sviluppo del brand, con pagine in grado di soddisfare qualsiasi esigenza possa avere un utente che effettua la ricerca “giorgiotave”. Ancora una volta una organizzazione razionale dei contenuti in sottodomini e cartelle, interlinkate con giudizio, permette a Google di fornire agli utenti risultati migliori.

Questa mancata ottimizzazione nella struttura si ripercuote, con effetti molto maggiori, sulle query di altro genere inerenti il brand: chi dovesse cercare “scarpe geox” selezionerà difficilmente il sito ufficiale mentre chi scriverà “cappotti geox” non avrà la minima possibilità di finire sul sito dell’azienda. In quest’ottica la mancata ottimizzazione per query branded e navigazionali è la peggiore pecca in quanto trascina altrove clienti che avevate in qualche maniera già acquistato: accade comunemente, infatti, anche in siti di dimensioni minori, come ad esempio quelli degli hotel, che del traffico per parole chiave del tipo “nome hotel recensioni” o “nome hotel prezzi” venga assorbito da siti concorrenti con il rischio concreto di perdere ospiti. Si consideri poi che tipicamente ottimizzare un dominio per questo tipo di query è un’operazione poco dispendiosa e dunque con un interessante ROI.

Sempre riflettendo sulle possibili intenzioni dell’utente, l’aspetto più interessante nell’analisi delle serp sta, probabilmente, in questa domanda: come si comporta il motore quando riceve una query generica del tipo “fiat panda”? Ritiene che la ricerca sia di tipo branded/navigazionale, ossia suppone che chi ricerca sia interessato a trovare la pagina riguardante la Panda del sito della Fiat? Suppone che l’utente stia cercando informazioni, quindi gli restituisce schede tecniche, recensioni, immagini? Decide che l’utente sta cercando di acquistare una macchina e quindi gli propone comparatori di prezzi e siti di annunci?

Una risposta Google non ce la da, tuttavia il tema viene ampiamente trattato da Microsoft nel brevetto “Diversifying search results for improved search and personalization” che spiega come la query possa essere alterata prima di essere restituita all’utente affinché rappresenti “un certo numero di argomenti, di tipologie,di generi,di domini, di anzianità dei documenti, di localizzazioni, di caratteristiche commerciali, di intenzioni dell’utente, ecc”.

Per sommi capi, è come se Bing valutasse quali categorie si possono celare dietro ad una query e restituisse i risultati di conseguenza.

Come sempre si fa in questi casi, mi sono allora messo alla caccia di dati sperimentali: ho cercato un elenco delle auto più vendute, aggiornato a qualche mese fa, affinché potesse essersi sviluppato un mercato dell’usato. Si noti che le automobili sono divise per tipologia in modo da riuscire ad analizzare le più disparate fasce di popolarità e diffusione.

Quello che ho trovato è che in tutte le serp del tipo “nome produttore + nome modello” sono sempre presenti pagine aziendali, almeno un sito di annunci o un comparatore di prezzo e qualche pagina informativa.

Ad aumentare i sospetti vi è il fatto che i siti presentati, fatta eccezione per la quasi onnipresente Wikipedia, sono spesso differenti: non c’è quindi un grande portale ad essere particolarmente forte, ma tante realtà autorevoli che a rotazione vengono presentate in serp.

Il dubbio iniziale potrebbe sfociare in considerazioni molto interessanti: Google sembra cercare di racchiudere in prima pagina almeno un risultato per ogni possibile intenzione dell’utente, anche a costo di favorire url che l’algoritmo di classificazione aveva ritenuto meno rilevanti. Oltreoceano c’è chi parla appunto di una netta divisione delle serp, dove per ogni intento di ricerca viene associata una percentuale di visibilità in serp, proporzionale al numero di utenti statisticamente interessati.

Alcune domande sorgono spontanee: volendo entrare in una serp sufficientemente generica, posso trovare delle scorciatoie?

Se, ad esempio, il mio e-commerce non riesce a posizionarmi per determinate parole chiave posso tentare di attirare traffico attraverso un sito informativo?

Pur non essendoci una conferma ufficiale da parte di Google, credo che l’attenzione a questi fattori sia comunque estremamente importante. Prendiamo infatti una query e sottoponiamola ad Insight for search: lo strumento ci racconta con quale scopo viene eseguita. I bisogni degli internauti, che Google sappia capirli o meno, sono comunque già differenziati e quindi si possono considerare separati anche i mercati.

Con un esempio: se tra 100 persone che cercano la parola “panda”, solamente 10 sono interessate a scaricare il software antivirus non importa quale posizione io riesca a raggiungere: non otterrò mai conversioni da chi voleva comprare la macchina o a chi cercava immagini dell’animale. Al contrario se nessuno in serp offrisse l’antivirus, probabilmente l’utente approfondirebbe la ricerca ed essere il sito leader per la distribuzione del software (con query più specifiche) mi porterebbe comunque buona parte di quei 10 visitatori.

Studiare le richieste degli utenti ed i risultati dei motori, in un certo senso, ci avvicina allo studio del mercato: ecco allora che fare SEO sulle serp diventa un’utile strategia non soltanto per migliorare le prestazioni ma anche per individuare i segmenti emergenti e le migliori opportunità di guadagno. Volete inserirvi in una categoria iper-competitiva? Sapete chi dovete battere. Avete intenzione di aprire un sito originale ed in grado di superare nei servizi la concorrenza? Allora potete riuscire a stimare i vostri spazi.

Personalizzazione: come la serp si adatta all’utente

Arriviamo adesso all’ultimo fattore che affligge pesantemente la composizione delle serp: la personalizzazione.

Settimanalmente sul Forum GT troviamo le solite domande: ho tre pc connessi allo stesso modem, perché su uno dei pc il sito è al primo posto mentre sugli altri due è in seconda pagina?

Come mai “da alcuni pc che io uso la posizione del sito era in prima pagina, invece nel pc del cliente sempre digitando la stessa query, era in 4° pagina”?

La risposta è sempre la stessa: una ricerca può venire stravolta in base al browser che si utilizza, in base al proprio IP, in base alle vostre ricerche precedenti, a dove vi trovate o, come abbiamo visto nel primo brevetto presentato, a seconda delle vostre abitudini (quali argomenti vi interessanto, in quale lingua riuscite a leggere). Nei casi riportati, con ogni probabilità, il sitema pensava semplicemente di restituire i siti preferiti, senza immaginare che dietro alle ricerche si nascondessero intenti SEO.

Per capire come funziona la personalizzazione torniamo al primo brevetto presentato, quello che, se vi ricordate, classificava query ed utenti oltre che i documenti.

Ricordiamoci le parole di Google, secondo il quale: “prima di inviare i risultati all’utente il motore può riordinare i risultati confrontando la classificazione di ciascun risultato con il profilo dell’utente”. I pesi da attribuirsi alle categorie dovranno essere proporzionali a due fattori: la “frequency” e la “recency”.

Per vedere all’opera il potenziale della “frequency” ho provato a ricostruire il mio profilo, partendo dalla web history del mio account e mi sono reso conto di poter appartenere per lo meno a 2 categorie: quella degli italiani che si cimentano con documenti in inglese e quella degli appassionati di informatica.

Ho quindi cercato “dos” prima con il mio browser abituale, poi con un altro browser, sempre sullo stesso pc ma stavolta non loggato. Le differenze sono notevoli: su dieci risultati, solo 7 sono a comune e le posizioni appaiono sfalsate. In particolare si può notare proprio una iniezione di termini inglesi e di risultati informazionali tecnici al posto di quelli transazionali.

Cerchiamo adesso di capire cosa sia la “recency” attraverso un nuovo esempio.

Cercate, attraverso l’apposita casella del browser, la parola “torino”. Memorizzate la posizione del sito del Torino Calcio: quarto. Giustamente la parola può riferirsi alla città di Torino o anche alla Provincia, quindi non c’è ragione per stupirsi di un posizionamento del genere.

Provate adesso a cercare “juventus”, parola che sicuramente Google ha inserito in una categoria sportiva.

Ottenuti i risultati cercate nuovamente “torino”: se è successo anche a voi quel che è successo a me, troverete in prima posizione il sito della società calcistica. Una sola ricerca, fortemente tematizzata e molto vicina nel tempo (appartenente alla medesima sessione) è bastata agli algoritmi di Google per capire che noi stavamo cercando siti sportivi e non amministrativi.

Altro esempio, meno evidente ma molto più interessante per capire fin dove si possa spingere l’importanza di una giusta categorizzazione: cercate prima “mela”. Possiamo notare come in terza posizione vi sia un blog per il quale la parola “mela” ha un significato molto differente rispetto a quello che è abituato ad attribuirgli l’utente medio. Proviamo allora a cercare “apple” e poi nuovamente “mela”: stavolta il significato nascosto avrà guadagnato maggior rilevanza.

Purtroppo questi cambiamenti, per loro natura sono difficilmente preventivabili o generalizzabili, tuttavia abbiamo buoni strumenti per misurarli: per una idea di massima possiamo affidarci ai dati provenienti dalla sezione “Query di ricerca” degli Strumenti per Webmaster di Google, mentre per avere indicazioni più chiare è possibile configurare il nostro software di analisi dei referrer affinché tracci la posizione in serp sulla quale l’utente ha cliccato per raggiungerci (qui le istruzioni su come realizzare il monitoraggio in Google Analytics).

Sapere che qualcuno ci sta visitando per determinate query attraverso la personalizzazione è un segnale molto importante per la SEO: spesso infatti possiamo interpretare il fenomeno come un campanello di allerta in grado di farci capire che con un piccolo sforzo ulteriore forse possiamo raggiungere migliori risultati in una determinata serp.

Prima di terminare, mi sono posto un’ultima domanda: visto che a categorie differenti corrispondono algoritmi differenti, è possibile ingannare Google nella catalogazione, cercando qualche scorciatoia?
Forse sul breve periodo sì, gestendo sapientemente le snippet in serp, curando la linkbuilding ed i testi.
Sul medio periodo però la tecnica è destinata a fallire: prima o poi perderemo il controllo dei baklinks naturali e prevarranno le esperienze di navigazione degli utenti.

In questo caso la soluzione migliore è dunque affiancarsi un sito di differente tipologia: se già abbiamo un e-commerce, proviamo ad aprire un blog cercando di attirare quel traffico informativo che altrimenti ci è impossibile intercettare.
Coprendo così completamente un settore, aumentando la propria autorevolezza e raccogliendo citazioni dalle fonti più disparate si potrebbe infine ottenere un grosso bonus (sia agli occhi degli utenti che dei motori di ricerca): essere considerati un brand.

Ulteriori approfondimenti:

Finito! Domande?

PageRank: Google lo supera e ci consiglia come migliorare i backlink.

02/10/2010ConferenzeMarco

Questo è il riassunto del mio intervento al Symposium Gt 2010; chi di voi non dovesse neppure sapere di cosa si tratti può tranquillamente leggere il post senza perdersi nulla.

Spero possiate arrivare alla fine del lunghissimo articolo con abbastanza energie per riuscire a porre domande attraverso i commenti: mi rendo conto che certi aspetti siano controversi e sarò ben felice, eventualmente, di chiarirli con voi.

Vi consigli di curiosare tra tutti i documenti linkati e di domandare qualora troviate aspetti non sufficientemente giustificati.

Buona lettura!

Di cosa parleremo

Presenteremo il classico PageRank;
Analizzeremo le sue debolezze e come Google vi ha posto rimedio;
Impareremo quali sono le caratteristiche tecniche di un link e quindi a crearne di buoni;
Scopriremo come mai Google cerca sempre più informazioni sui comportamenti degli utenti;
Ci prepareremo a vedere con occhi differenti la link building e pure la struttura interna del nostro sito.

Il PageRank in breve

Probabilmente tutti conoscete l’algoritmo: se una pagina ha valore 6 e tre link in uscita, ciascuno dei documenti collegati riceverà un valore di 6/3=2. Un documento di questo tipo, adesso, potrà esso stesso passare il suo valore di PageRank e così via per innumerevoli iterazioni.

Proviamo però a rivedere i passaggi tenendo a mente una definizione differente di PageRank, estrapolata dal documento con il quale Google viene spiegato dai suoi creatori sul sito dell’università di Standford:

“Il PageRank può essere pensato come un modello del comportamento dell’utente. Immaginiamo che vi sia un “navigatore casuale” al quale viene data una pagina web casuale e che inizi a cliccare sui link, senza mai premere il tasto “indietro” ma semmai annoiandosi per poi ricominciare da una nuova pagina casuale. La probabilità che il navigatore casuale visiti una pagina è il suo PageRank.”

“PageRank can be thought of as a model of user behavior. We assume there is a “random surfer” who is given a web page at random and keeps clicking on links, never hitting “back” but eventually gets bored and starts on another random page. The probability that the random surfer visits a page is its PageRank”

Tornando all’esempio, allora, mettiamo 6 navigatori sulla prima pagina: navigando a caso si troveranno, statisticamente, in due su ciascuno dei tre documenti collegati. Da questi potranno poi passare ad ulteriori pagine a seconda del numero dei link che ha la pagina sulla quale sono atterrati.

Giusto?

Il superamento

Ma un navigatore reale cliccherà su ciascun link con uguale probabilità? Penso che anche voi, come me, clicchiate più frequentemente su di un link accattivante nella parte centrale del documento rispetto ad una piccola citazione nel fondo della pagina. E allora ha senso considerare i due collegamenti come identici?

Quali che siano state le vostre risposte alle domande (retoriche) qui poste, sappiate che proprio questi ragionamenti hanno spinto Google verso il brevetto che andremo ad analizzare:

“L’invenzione può offrire “un modello del navigatore ragionevole” che indica che quando un navigatore accede un documento con una serie di links, il navigatore seguirà alcuni di quei link con maggiore probabilità rispetto agli altri. Questo “modello del navigatore ragionevole” riflette il fatto che non tutti i link associati ad un documento hanno la stessa probabilità di essere seguiti.”

Insomma, prima avevamo un “navigatore casuale”, adesso un “navigatore ragionevole”. Prima avevamo i link, adesso abbiamo buoni o cattivi link. Penso che meriti allora leggere cosa Google verifichi per sapere se un link è buono oppure no e cosa possiamo fare noi per fargli piacere i nostri backlinks.

Mini-disclaimer

Il fatto che Google abbia brevettato un sistema, non vuol dire che lo implementi o che l’abbia realizzato completamente; tuttavia la lettura dei documenti sembra confermare molte delle teorie che rimbalzano da anni trai SEO di tutto il mondo ed i riscontri con la pratica sono numerosi.

Anche se scritto nel 2004 (ma reso pubblico solo nel maggio di quest’anno) il brevetto ha una grosso valore pure per la visione futura di quello che sarà il motore di ricerca dato che Caffeine ha recentemente messo nelle mani degli ingegneri di Google un potenziale molto maggiore di un tempo.

Il brevetto

Il principio del brevetto è abbastanza semplice: cerchiamo di capire qual’è la probabilità che un link venga cliccato ed in base a questo numero passiamo il valore da pagina a pagina. Come fare? Ad esempio, ci dice Google, possiamo scaricare il codice della pagina ed analizzare questi fattori:

Formattazione dell’anchor text:
- dimensioni;
- colore (stesso colore dello sfondo);
- stile (corsivo, sottolineato…).

Perché ci interessa? Per prima cosa notiamo che avere link dello stesso colore dello sfondo non è soltanto penalizzante, ma anche inutile, in quanto questi collegamenti, secondo il brevetto, non passano il loro valore normalmente. Vediamo anche che enfatizzare nella pagina i collegamenti più importanti può incuriosire maggiormente l’utente e di conseguenza aumentare il peso del link. Pensateci la prossima volta che vi viene data la possibilità di formattare il testo di un vostro backlink.

Posizione del link:
- above o below the fold in uno schermo 800×600;
- numero in una lista HTML;
- zona della pagina (top, bottom, destra, sinistra…).

Perché ci interessa? Questi sono i punti più rilevanti, non necessariamente per la loro praticità ma perché hanno trovato riscontri importanti: il più autorevole è in questo video di Matt Cutts nel quale si conferma che i link nel footer possono essere considerati differentemente, ma è stato confermato (slide 5) anche che i primi collegamenti di una lista passano maggior valore dei successivi. Se fino ad oggi avete costruito gli elenchi dei vostri menù senza pensarci, è l’ora di riorganizzarle. La visualizzazione della pagina per determinare se un testo sia sopra o sotto la linea visibile comporta probabilmente un eccessivo bisogno di risorse da parte di Google, ma i metodi per segmentare l’HTML ed individuare le parti di codice ripetute in più pagine sono già una certezza. Tenete lontano i link importanti da quelle zone, fino a che potete.

Contenuto dell’anchor text:
- numero di parole;
- quanto le parole usate sembrano essere pubblicitarie;
- come il significato dell’anchor text si adatta al contesto semantico di alcune parole scritte prima o dopo il collegamento;
- quanto l’anchor ha a che fare con l’argomento del documento.

Perché ci interessa? Colgo innanzi tutto l’occasione per puntualizzare quale metrica stiamo analizzando: non il posizionamento per una singola parola chiave, ma qualcosa di molto più generico, il valore di un intero documento. Se volendo spingere una singola chiave dobbiamo procurarci link in ingresso solamente con le parole per le quali ci vogliamo posizionare, adesso il consiglio può essere migliorato: spendete qualche parola in più per incoraggiare il click, aumentare la visibilità dell collegamento o per differenziarvi dalla massa.

Pensando invece alla compravendita di link, si capisce come con gli ultimi 3 punti Google l’abbia pesantemente colpita. Un collegamento con testo “download mp3” può non avere nessun valore in un sito sportivo, mentre può passare moltissimo valore in un sito di recensioni musicali, soprattutto se integrato in una frase. La prossima volta che cercherete backlinks, anche da acquistare, tenete a mente questi aspetti.

Tipologia di link (ad esempio un collegamento con immagine)
- se è un immagine, dimensioni dell’immagine.

Perché ci interessa? Nel posizionamento per una singola parola chiave, il testo di ancoraggio ha una forza universalmente riconosciuta; ma se si tratta di passare valore allora non è detto che non sia meglio optare per un’immagine (magari ottimizzata a dovere).

Se il link porta all’interno del solito dominio:
- se punta ad una URL più o meno lunga rispetto a quella del documento stesso;
- se l’url di destinazione ha un redirect verso un nuovo documento.

Perché ci interessa? Questo aspetto è interessante perché ci ribadisce come una struttura delle url stabile e razionale sia di aiuto al corretto posizionamento: attenzione ad aggiungere sottocartelle inutili e ad applicare troppo spesso i redirect che, come sappiamo, non fanno passare tutto il valore originario del link.

Adesso che abbiamo una panoramica di tanti degli elementi che Google può valutare e, spero, una buona serie di dubbi in testa possiamo passare alla seconda parte del brevetto: l’analisi dei comportamenti degli utenti.

Quale metro migliore per studiare la probabilità che un link venga cliccato che analizzare i percorsi di navigazione degli utenti? Google oggi può farlo e già nel 2004 aveva capito come:

“Ad esempio, il browser web o un programma di aiuto al browser possono memorizzare dati riguardanti i documenti acceduti dagli utenti e i link che eventualmente hanno cliccato; possono memorizzare la lingua dell’utente deducendola, ad esempio, dalle pagine visitate; possono registrare gli interessi degli utenti determinandoli, ad esempio, a partire dai segnalibri e dalla lista dei preferiti.”

Dove trova il motore di ricerca tutti questi dati? Dal 2004 procurarsi quante più informazioni possibili diventa un chiaro obiettivo di Google che difatti possiede il più vasto apparato di monitoraggio degli utenti al mondo.

Oggi il motore di ricerca può contare sui dati di navigazione provenienti da:

Google Toolbar;
Google Chrome (che attualmente rappresenta il 7.52% degli utenti online);
Google Analytics (utilizzato dal 47,7% dei siti web);
Tante fonti “minori” come Google Reader, GMail, Igoogle. Google URL Shortener…

Mai notata la pagina “Site Overlay” di Analytics? Ci sono le percentuali di click riguardanti i link interni già pronte per determinare, idealmente, quanto PageRank far passare in ciascuno dei vostri collegamenti interni!

La prospettiva che si apre è estremamente interessante, ma può Google basarsi solo sui dati? E per le pagine nuove e poco trafficate? Probabilmente un approccio che consideri solamente il comportamento degli utenti è troppo dispendioso, anche considerando la nuova architettura Caffeine.

Ecco allora l’ultima parte del brevetto: forse la più suggestiva. Non più un algoritmo statico per il PageRank ma un modello in continua evoluzione, dove i dati raccolti dalle azioni degli utenti (o meglio ancora da classi di utenti) diventino regole sempre più efficaci con le quali pesare le caratteristiche tecniche del link. Anche in questo caso, sfruttiamo direttamente gli esempi che ha inserito Google nel suo brevetto:

“Ad esempio, l’unità che genera il modello può generare una regola che indica che un link posizionato sotto l’intestazione “More Top Stories” sul sito web cnn.com ha un’alta probabilità di venire selezionato; può generare una regola che indica che un link associato ad un URL contente la parola “domainpark” ha una bassa probabilità di venire selezionato; può generare una regola che indica che il link associato ad un documento che contiene popup ha una bassa probabilità di venire selezionato; può generare una regola secondo la quale se un link è associato ad un dominio con estensione .”tv” ha una bassa probabilità di venire selezionato; può generare una regola che indica che un link associato ad un URL di destinazione con molteplici trattini ha una più bassa probabilità di venire selezionato.”

Attenzione a non dare troppo peso a questi esempi: anche ammettendo che il motore di ricerca implementi proprio la regola riguardante i .tv ciò non pregiudica ad un dominio .tv un buon posizionamento. Stiamo comunque parlando di uno dei tanti fattori che Google usa per passare il valore dei link. Ciò che il motore di ricerca prova a misurare e ad introdurre nei suoi algoritmi è la diffidenza che l’utente medio ha mostrato in passato per questo genere di estensione.

Seguendo questo modello, il motore di stimerà a quali caratteristiche dei link converrà conferire maggior peso e quali invece saranno praticamente ininfluenti; il processo si affina ed è pensato in continuo mutamento tendendo, idealmente, ad una perfetta capacità predittiva.

A questo punto, è logico pensare ad una nostra pagina con accanto ai link delle percentuali: ciascun valore rappresenterà la probabilità che un link venga cliccato e di conseguenza il valore che passerà per quel collegamento. Con il vecchio PageRank tutti questi valori sarebbero stati identici.

Ci stiamo scordando di qualcosa che viene sempre fuori quando si parla di PageRank: il rel “nofollow”. Come si comporta l’algoritmo in questo caso? Beh, credo che si comporti in maniera perfettamente intuitiva. Tutte le percentuali sono calcolate comunque però i link con il nofollow non passano nessun valore: non c’è quindi alcun vantaggio per i rimanenti link e dunque neanche per il webmaster che ne ha il controllo. Anche in questo caso vi sono voci più autorevoli della mia a confermare l’ipotesi. Se eravate abituati a governare il PageRank all’interno del vostro sito, probabilmente ora dovrete farlo modificando l’intera struttura e non soltanto inserendo un attributo.

Quanto questo nuovo PageRank ha migliorato le serp di Google in questi 6 anni? Quanto potrà farlo nei prossimi mesi grazie alle infrastrutture più potenti che Google ha messo nelle mani degli ingegneri?

La domanda più importante però, per noi, è un’altra: come possiamo sfruttare questa continua evoluzione? Tanti piccoli consigli ci sono già saltati in mente prima, mentre snocciolavamo le possibili caratteristiche tecniche ma penso sia necessario trarre da questo brevetto 2 grosse linee guida.

Primo: Inserisci i tuoi backlinks in modo che siano cliccati. Fatica per proporre un tuo guest post, spendi tempo nel farti conoscere dagli altri, sforzati di produrre informazioni di qualità; non dedicare troppo tempo al link facile, fuori contesto o in posizione improbabile.

Secondo: Inizia a pensare alla seo e all’usabilità come ad una cosa sola. Rendi più accessibili le voci per le sezioni che sei più interessato a posizionare, elimina il superfluo, vedi se le pagine con le percentuali di abbandono maggiore possono essere migliorate (semplificando i form, proponendo alternative di navigazione, …). In tutto questo, se non lo fai ancora, fatti aiutare da un tool come “Site Overlay” di Google Analytics: saprai dove finiscono con maggiore probabilità gli utenti e dunque, negli intenti di Google, dove fluirà la maggior parte del valore dei link interni.

Queste considerazioni escludono i social network: l’omissione è voluta perché credo che i link provenienti dai social siano difficilmente trattabili con questo tipo di approccio. Sono praticamente tutti uguali per caratteristiche tecniche, hanno quasi tutti il nofollow, nascono, si spostano e spariscono ad una velocità ingestibile per un algoritmo basato su più passaggi come il PageRank. A mio modo di vedere Google ha sviluppato altri algoritmi per calcolare l’influenza dei social, probabilmente basati ancora sui collegamenti ma di natura abbastanza differente da quanto visto oggi.

Prima di passare alle vostre domande, vorrei farmene una da solo: sei convinto che la strada descritta in questo intervento, sia la migliore per un buon posizionamento?

La risposta è, ovviamente, no. Nel breve periodo, per progetti che necessitano di una grande visibilità per un tempo breve vi sono tecniche che a mio modo di vedere funzionano meglio: infilate i vostri link dovunque potete, automatizzate il possibile e riempite il sito di pagine finalizzate alla conversione.

Se però avete ambizione di abitare la rete per un periodo medio/lungo, di fidelizzare il cliente o comunque di servire con il vostro lavoro un business solido e duraturo, beh, allora la strada segnata in questo intervento è sicuramente la migliore.

Altri riferimenti utili:

UPDATE: Cliccando qui potete scaricare le slide dell’intervento. Purtroppo non penso ci sia stata alcuna registrazione (mi sarei fatto prendere in giro volentieri).

Marco Quadrella

Appunti / Appuntamenti di Digital Marketing. (Per ora…)