X
Skimbu è stato abbandonato, ma è stato sostituito da due grandi progetti: visita ora Tasc.it e Abits.it!

Google: come funziona?

Pubblicato da il giorno 9 febbraio 2012

Google. Dietro a questa strana parola si cela il motore di ricerca per eccellenza e l’unica entità capace di mettere ordine nel caos delle pagine web. Ma cosa si nasconde sotto il cofano di Google? Scopriamo come avviene il procedimento di indicizzazione dei contenuti e le basi del processo di elaborazione dei risultati di una ricerca.

Perché Google?

Mi sembra dovuto premettere che il funzionamento che sta alla base di Google può essere in larga parte attribuito a molti altri motori di ricerca, che differiscono per algoritmo utilizzato e per i nomi assegnati ai vari componenti. La scelta di parlare di Google, com’è evidente, è dettata dalla sua diffusione, dalla sua importanza “storica” e dalla sua fama di miglior strumento di ricerca.

Un ragno chiamato Googlebot

Google possiede un software, chiamato Googlebot, a cui è affidato il compito di indagare la rete. Il software in questione trascorre le sue giornate a saltare di pagina web in pagina web cercando informazioni nuove e degne della considerazione del motore di ricerca. Un programma di questo tipo si chiama genericamente spider ed è una caratteristica peculiare di ogni motore di ricerca (anche se molti motori come Virgilio, AOL, Supereva e fino a qualche tempo fa anche Yahoo, non possiedono uno spider di proprietà e si appoggiano alle ricerche del Googlebot).

I criteri seguiti dal Googlebot

Forse non tutti sanno che i server (in genere) supportano l’intestazione HTTP “If-Modified-Since“, che permette al server di comunicare se le pagine di un certo sito hanno subito modifiche dopo una data richiesta. Il Googlebot lo sa, e nei suoi salti si limita a chiedere al server di eventuali modifiche o aggiunte: se il server risponde negativamente lo spider passa oltre. Per guadagnare ulteriore tempo, inoltre, non vengono passati tutti i siti in ogni momento: alcuni sono controllati una volta a settimana e altri più volte al giorno, a seconda della frequenza con cui vengono aggiornati.

L’analisi del contenuto

Nel paragrafo che segue parlerò di elementi dell’HTML che, seppur di base, possono non essere compresi da chi non conosce il linguaggio.

Supponiamo che lo spider sia arrivato su Skimbu in due diverse occasioni: in occasione di un articolo di approfondimento sui social network (“I Social Network Sono Davvero Social?“) e in occasione di un’analisi del nuovo motore Volunia (“Volunia – Il Social Search“). In entrambi i casi viene (ovviamente) scansionato l’HTML e i suoi tag principali. I tag “title” e “h1” sono i primi ad essere individuati in quanto rappresentano i titoli dell’articolo e, oltre a dover essere visibili nei risultati, descrivono l’argomento e pertanto vengono considerati per il posizionamento nei risultati (di cui parlerò più avanti). A differenza di quanto credono molti, non vengono considerati per il posizionamento i tag “keywords” e “description”, anche se la descrizione verrà letta per essere visibile nei risultati. Sarà data importanza anche alle parole in grassetto o a quelle scritte in caratteri di dimensioni maggiori.

Ma come si comporta il motore di ricerca nei confronti del contenuto dei due articoli appena citati? Vengono prima scartati articoli, preposizioni, congiunzioni, ecc. e dei restanti termini viene stilata una classifica di frequenza. Vediamo nel dettaglio come questa classifica viene interpretata.

Articolo: “I Social Network Sono Davvero Social?”

Le parole più lette (anche nei titoli) sono senza dubbio “Social” e “Network”, quindi in questo caso è semplice individuare l’argomento principale. La parola “social” è presente 26 volte mentre “network” 14 volte. Si ripete spesso anche “condivisione” e “comunicazione”, che saranno incluse nell’argomento. Le parole in questione sono però (purtroppo per Skimbu) diffusissime anche su molti altri siti, quindi gli verrà data meno importanza per il posizionamento nei risultati.

A Google piacciono le parole più rare (anche semplici errori di battitura) e per questo motivo apprezzerà sicuramente la presenza nell’articolo della parola “Genesi” in un titolo, che nella ricerca avrà più importanza di “nascita” (anch’essa presente nell’articolo). Sarà quindi più probabile trovare l’articolo cercando “genesi social network” piuttosto che “nascita social network”.

Articolo: “Volunia – Il Social Search”

In questo caso la valutazione è leggermente differente. Analizziamo la parola “Volunia”. Un giorno prima dell’articolo era una parola piuttosto rara, quindi un articolo su Volunia sarebbe stato più semplice da trovare nei risultati. Alla mattina del 6 Febbraio però, quando lo spider interroga Skimbu, la parola Volunia è insolitamente alta, e anche le ricerche degli utenti per quella parola iniziano ad intensificarsi. In questo caso Google darà più importanza agli articoli su Volunia scritti dopo la mattina del 6 Febbraio, cioè dopo l’intensificazione delle ricerche per quella parola, in modo da fornire all’utente le notizie più recenti riguardo all’argomento e non vecchi articoli di approfondimento (anche se inerenti a Volunia).

L’ordinamento dei risultati: il PageRank

Per garantire la massima validità dei risultati di ricerca, Google non si basa solamente sul contenuto della pagina, ma anche sul PageRank, che il risultato di un algoritmo che assegna un valore numerico (da 0 a 10) a ciascun elemento del web, allo scopo di quantificarne l’importanza relativa: se un sito ha il Rank più alto di un altro, apparirà prima nei risultati (a parità di inerenza alle parole cercate). Senza il meccanismo del ranking, ogni risultato sarebbe una semplice lista di pagine che contengono l’informazione cercata; in questo modo Google si occupa anche del lavoro di scegliere i siti più pertinenti e autorevoli.

Alcuni PageRank (Aggiornati all’8/02/2012):

  • Wikipedia (Internazionale): 9
  • Wikipedia (Italia): 7
  • Skimbu: 5
  • Yahoo (Italia): 8
  • Apple (Internazionale): 9
  • Facebook: 9
  • Twitter: 10

Come viene calcolato il PageRank

Variabili:

  • PR[A] è il PageRank della pagina A che vogliamo calcolare.
  • n è il numero di pagine che contengono almeno un link verso A. Pk rappresenta ognuna di tali pagine.
  • PR[Pk] sono i valori di PageRank di ogni pagina Pk.
  • C[Pk] sono il numero complessivo di link contenuti nella pagina che offre il link.
  • d (damping factor) è un fattore deciso da Google e che nella documentazione originale assume valore 0,85

Quella che vedete non è la formula completa usata da Google per il ranking delle pagine, ma è solo una versione semplificata ricavata dall’algoritmo inizialmente sviluppato dai fondatori Brin e Page, utile per comprendere il funzionamento generale del PageRank. Vado ora ad interpretare la formula per chi non ama la matematica o non ne conosce il linguaggio.

Il Rank di una pagina web si basa sostanzialmente sui link che conducono ad essa da altre pagine. Più pagine contengono link al mio sito, più alto sarà il suo valore di PageRank. Si nota però che il valore finale non dipende direttamente dal numero di link, ma dipende dal rapporto tra il PageRank della pagina che ospita il link e il numero complessivo di link di quella pagina. In altre parole… più alto è il Rank della pagina che contiene il link al mio sito, più alto sarà il mio Rank; più alto è il numero di link della pagina che offre il link, più basso sarà il mio Rank. Nell’algoritmo compare anche un fattore “d”, un valore deciso e modificabile da Google, che regola il rapporto tra i Rank di pagine collegate da link e il valore di Rank minimo attribuito ad ogni pagina.

Non è tutto così semplice: l’algoritmo di google non tiene conto solamente dei fattori da me descritti ma ne analizza molti altri secondo criteri che possono premiare un sito o punirlo in termini di posizionamento. Come dice lo stesso Matt Cutts (il portavoce di Google), Google utilizza più di 200 fattori per determinare il posizionamento di una pagina web nei risultati.

Eccezioni all’ordine dettato dal PageRank

A rigor di logica i siti con un Rank molto alto, online da tanti anni e ricchi di contenuti dovrebbero comparire quasi sempre nei primi risultati. Come può dunque un sito appena nato (quindi con un PageRank basso) ottenere visualizzazioni e quindi aumentare il suo Rank se si deve accontentare degli ultimi posti tra i risultati? Google ha la soluzione: ogni sito, a prescindere da qualsiasi fattore, ha il diritto di essere estratto in maniera casuale e di comparire temporaneamente nei primi 10 risultati del motore di ricerca. Ciò permette a Google di offrire sempre pagine web nuove ad ogni ricerca e ai siti appena nati di farsi notare.

E nel futuro?

L’algoritmo di Google è in continuo mutamento e ogni previsione sul suo futuro sarebbe azzardata. Tuttavia la recente introduzione del pulsante +1 e dell’inclusione dei post di Google nei risultati di ricerca, lascia presupporre che i voti degli utenti andranno un giorno ad affiancare in maniera incisiva il PageRank, o addirittura a sostituirlo. A conferma di ciò vi è lo slogan “Recommend on Search” scelto proprio da Google per pubblicizzare l’uso del suo pulsante.

Il SEO

Alla luce dei meccanismi descritti fin ora, ci si rende conto della grande importanza che rappresenta una conoscenza approfondita del motore di ricerca per chi progetta siti web, soprattutto se a scopo di lucro. A questo proposito è stato coniato l’acronimo SEO (Search Engine Optimization), con cui si racchiudono tutte le attività finalizzate ad “ottimizzare” un sito web per i motori di ricerca, cioè aumentare il volume di traffico da essi proveniente (esistono anche figure professionali specializzate in questo tipo di attività chiamate anch’esse SEO – Search Engine Optimizer). L’attività del SEO consiste generalmente in varie operazioni tecniche sul codice HTML, sui contenuti e anche sulle immagini, operazioni nel cui merito non entro in questo articolo.

“Roba da autori”

Spero di aver trattato l’argomento in modo completo e soprattutto in modo chiaro. Mi aspetto nei commenti segnalazioni di eventuali errori, mancanze o richieste di chiarimento. Sono disponibile anche per richieste di approfondimenti (nei limiti delle mie conoscenze).

, 13 articoli pubblicati

Classe 1991. Studio Ingegneria Informatica. Sono un musicista appassionato di informatica, WebDesign, grafica e fotoritocco.

Visita il sito web di questo autore

Condividi l'articolo!

  • http://www.skimbu.it Angelo Delicato

    Articolo completissimo, ti stimo.

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Grazie angelo! :)

  • https://twitter.com/ccrooper Rady Cooper

    L’algoritmo viene mutato spesso proprio ad evitare che i SEO se ne approfittino troppo.

    Quello che hai scritto è giustissimo, solo che dal 4 dicembre 2009 tutto è cambiato.

    Adesso l’ordinamento dei risultati è personalizzato. Se due persone effettuano nello stesso identico momento la stessa identica ricerca non visualizzeranno più le stesse pagine.

    C’è chi dice che questo sia un male e io mi trovo d’accordo.

    Internazionale ha tradotto un articolo di Eli Pariser che spiega tutto e dà le motivazioni:
    http://j.mp/z4ecXP

    C’è anche il tuo TED talk molto famoso:
    http://www.ted.com/talks/lang/it/eli_pariser_beware_online_filter_bubbles.html

    E il suo libro “The Filter Bubble” molto illuminante a riguardo:
    http://www.amazon.com/Filter-Bubble-What-Internet-Hiding/dp/1594203008

    Google funziona anche così, purtroppo.

    Magari ci potresti fare un altro articolo a riguardo.Â
    Secondo me la gente deve sapere.

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Ho letto la traduzione dell’articolo di Eli Pariser e credo che quello che mi scrivi sarebbe un ottimo approfondimento! Negli ultimi tempi con Google+ ho notato un grande cambiamento nella visualizzazione dei risultati: spesso vedo ai primi posti le pagine condivise da me o dai miei contatti a prescindere dal pagerank. Però ignoravo che ci fosse stato un cambiamento addirittura nel 2009 (anche perché all’epoca non avevo interesse per questo campo). Se i risultati di una ricerca sono influenzati in modo così radicale allora esiste davvero il rischio di una visione distorta della realtà. Terrò in considerazione l’idea di scrivere un articolo a riguardo in futuro! Grazie delle segnalazioni!

      • https://twitter.com/ccrooper Rady Cooper

        E con “Search, plus Your World” adesso l’effetto è più che amplificato.
        L’hanno introdotto soprattutto per portare acqua al proprio mulino o meglio, utenti al proprio social.Â
        E l’hanno fatto anche per contrastare Twitter, forse ricordi che tempo fa quando effettuavi una ricerca potevi visualizzare i tweet (anche in tempo reale) sull’argomento cercato. Ora invece trovi solo pagine di Google+.

        E non solo Google fa questo: anche Facebook, ad esempio, ha un algoritmo con cui mette in evidenzia quello che “secondo lui” tu vorresti leggere ed elimina tutti gli altri link dal tuo feed.

        E la lista di siti è lunga. Forse si farebbe prima a parlare di chi non fa uso di queste tecniche ormai. 

        Internet non è più quello di una volta. Non c’è più un unico grande web, ma tanti piccoli web personalizzati e rimanere imparziali, obiettivi e ben informati è sempre più difficile, anche se non impossibile.

  • iLion97

    Articolo fatto veramente bene

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Grazie! :)

  • Stefano Campagna

    Davide non finisci mai di stupirmi! Complimenti, hai uno stile unico!

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Grazie ancora Stefano!!

  • Anonimo

    Complimenti, ottimo articolo! Skimbu ha trovato un altro autore molto bravo!

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Ti ringrazio! 

  • Anonimo

    Grande articolo, complimenti! Impressive! Ps. grazie per la citazione! LOL!Â
    Significa che non sono SEOcompetente? Q.Q

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Grazie a te! non sono un luminare del SEO e quindi non mi permetto di giudicare i tuoi articoli, ma mi sono sembrati degli ottimi esempi! :)

  • Fedemauro53

    Ho scoperto che il PR di un sito scende quando si mette un link site wide, molti webmaster non lo sanno!

    • https://twitter.com/davidemagnaghi Davide Magnaghi

      Hai ragione… è uno dei tantissimi fattori che possono influenzare il PR!