Un web crawler, chiamato anche spider o robot, è un software che naviga sistematicamente nel World Wide Web, tipicamente ai fini dell’indicizzazione del web.
I motori di ricerca come Google e alcuni altri tipi di siti utilizzano il web crawling per aggiornare i loro contenuti web o gli indici dei contenuti web di altri siti.
I crawler creano una copia delle pagine web per l’elaborazione da parte di un motore di ricerca, che indicizza le pagine scaricate in modo che gli utenti possano effettuare ricerche in modo più efficiente.
Il numero di pagine Internet è estremamente elevato; anche i più grandi crawler non riescono a fare un indice completo.
Per questo motivo, i motori di ricerca hanno faticato a fornire risultati di ricerca rilevanti nei primi anni del World Wide Web, prima del 2000.
Oggi, i risultati rilevanti vengono forniti quasi istantaneamente.
I crawler possono convalidare i collegamenti ipertestuali e il codice HTML.