I motori di ricerca sono gli strumenti più utilizzati dagli utenti di internet per accedere alle informazioni di cui hanno bisogno. Ma vediamo in breve che cosa sono i motori di ricerca, come funzionano e quali sono i più utilizzati in Italia e nel mondo, e quali sono le possibili evoluzioni future in questo campo.
Indice dei contenuti
ToggleCosa sono i motori di ricerca
I motori di ricerca (in inglese search engines) sono dei sistemi per la ricerca di informazioni sul World Wide Web. I risultati della ricerca sono generalmente presentati in un elenco di risultati spesso definito come SERP (Search Engine Results Page, tradotto letteralmente: “pagina dei risultati del motore di ricerca”). L’informazione può essere costituita da pagine web, immagini, video e altri tipi di file. Alcuni motori di ricerca possono anche estrarre dati disponibili in banche dati o elenchi aperti. A differenza delle web directory, che vengono aggiornate solo da editori umani, i motori di ricerca sono in grado di restituire informazioni in tempo reale eseguendo un algoritmo mediante un web crawler, detto anche spider o robot, un apposito programma che esplora il Web in modo automatico e ordinato.
Il campo in cui i motori di ricerca trovano il loro scopo principale è l’Information Retrieval (IR) (tradotto: recupero d’informazioni), che è l’insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico (tutti i documenti, i metadati, i file presenti all’interno di banche dati o su internet).
Come lavorano i motori di ricerca
Un motore di ricerca opera principalmente nel seguente ordine:
- analisi del campo d’azione (attraverso l’utilizzo dei crawler);
- indicizzazione del materiale ottenuto;
- risposta alle richieste dell’utente (SERP).
I motori di ricerca memorizzano le informazioni sulle molte pagine web, che recuperano dallo stesso html. Queste pagine sono recuperate da un crawler web – un algoritmo automatizzato che segue tutti i link sul sito (esclusioni dall’indicizzazione dei crawler possono essere effettuate sui siti tramite l’uso del file robots.txt). Il contenuto di ogni pagina viene poi analizzati per determinare come deve essere indicizzato (ad esempio, le parole sono estratte dai titoli, intestazioni o campi speciali chiamati meta-tag).
I dati sulle pagine web sono memorizzati in un database indice per l’utilizzo in seguito nelle query. Una query può essere una singola parola o una frase. Lo scopo di un indice è quello di permettere che le informazioni si trovino nel più breve tempo possibile. Alcuni motori di ricerca, come Google, archiviano tutta o parte della pagina di origine (cache), così come le informazioni sulle pagine web, mentre altri, come AltaVista, memorizzare ogni parola di ogni pagina che trovano. Questa pagina memorizzata nella cache contiene sempre il testo vero e proprio nel momento in cui è stato effettivamente indicizzato, in modo che possa essere molto utile quando il contenuto della pagina corrente è stata aggiornata ed i termini di ricerca non sono più in essa.
I motori di ricerca più utilizzati
Motore di ricerca | Quota di mercato (maggio 2011) |
82,80% | |
Yahoo! | 6,42% |
Baidu | 4,89% |
Bing | 3,91% |
Ask | 0,52% |
AOL | 0,36% |
Il futuro dei motori di ricerca
I più recenti e innovazioni algoritmi di Information Retrieval si basano sull’analisi semantica dei testi, Google stesso ha adottato sistemi per la prevenzione dell’errore e la contestualizzazione dei risultati (vedi ad esempio Google Panda).
Non è quindi sconsiderato pensare che nel giro di alcuni anni i motori di ricerca baseranno le proprie tecnologie sempre meno sull’analisi quantitativa dei contenuti (le parole in sé), e sempre di più su quella qualitativa (il senso delle parole). I motori di ricerca saranno, ad esempio, in grado di distinguere il senso della parola “calcio” a seconda di quale sia il contesto in cui la parola è contenuta (comprendere se si tratta dell’elemeto chimico, la disciplina sportiva, o altro). Muovendosi in questa direzione, Google ha acquistato Oingo, noto come “il motore dei concetti”.
Un’altra nuova frontiera dei motori di ricerca è, in linea con la logica “social” tipica del web 2.0, cercare di ottenere una maggiore partecipazione degli utenti nella creazione dei contenuti degli stessi motori di ricerca. Gli utenti possono perciò segnalare essi stessi i link e decidere se dare più o menovisibilità ai siti segnalati.