Crawling / Spidern
Die der Suchmaschine zugrundeliegende Datenbank hält eine Reihe von Adressen von Dateien vor (URLs, Uniform Resource Locators), deren Dokumente gelesen werden sollen. Die Adressen stammen aus folgenden Quellen: * Bereits im Index erfaßte Dokumente, die aber schon relativ lange nicht mehr geholt worden sind. Schließlich muß die Suchmaschine versuchen, mit inhaltlichen Änderungen der Seiten Schritt zu halten. * Adressen, die in heruntergeladenen Dokumenten gefunden wurden und noch nicht erfaßt waren. * Explizit auf entsprechenden Formularseiten (z.B. “Add URL” oder “Seite hinzufügen”) angegebene Adressen. Dies wird meist vom Ersteller der Seiten durchgeführt, immerhin möchte er über die Suchmaschine Besucher anlocken. Eine Reihe von Rechnern lädt nun mit diesen Adressen rund um die Uhr Dateien herunter und speichert sie in einer Datenbank. Die Dienstprogramme die dies ausführen bezeichnet man als Robots, Spider oder Crawler. Die Adressliste wird dann jeweils auf den neuesten Stand gebracht. Entweder wird vermerkt, daß die Datei erfolgreich übertragen wurde, oder ein Problem wird notiert, wenn etwa der Server nicht erreichbar ist. Bei einem Redirect, also einer permanenten Umleitung, wird die Adressliste auf den neuesten Stand gebracht. Nach einer gewissen Anzahl von Fehlversuchen entfernt die Suchmaschine eine Adresse aus ihrer Liste.
