myGully.com - Recherchefrage: Crawler und ähnliches zur Datenextraktion

myGully.com (https://mygully.com/index.php)

- Programmierung (https://mygully.com/forumdisplay.php?f=67)

- - Recherchefrage: Crawler und ähnliches zur Datenextraktion (https://mygully.com/showthread.php?t=2180701)

Recherchefrage: Crawler und ähnliches zur Datenextraktion

Hallo,

ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal etwas von Crawlern(auch Spider) gehört. Zusätzlich hab ich etwas von Harvestern und Wrappern gelesen. Ebenso hab ich etwas dazu von WGet gelesen welches reine Internetseiten auch zum Offline lesen genutzt werden kann.

Da ihr euch damit intensiver beschäftigt wisst ihr sicherlich:

1. Wo die genauen Unterschiede oder Grenzen der einzelnen Verfahren sind
2. Weitere Verfahren (Methoden und Techniken)
3. Wie man dazu Literatur findet(Hierbei sind links oder Buchtitel sehr Hilfreich), immerhin habt ihr das auch erlernt

Ich danke schon jetzt für eine Diskussion

Crawler sammeln automatisch alle Daten zum Beispiel aus Websiten. Ich erinnere an dieser Stelle mal an den Studivz crawler, der hat Praktisch jede Benutzerseite automatisch aufgerufen und die angegebenen Informationen gespeichert.

Harvester und Wrapper extrahieren bestimmte Elemente aus Datensätzen, eine erklärung dazu findest du in der Wikipedia unter Wrapper.

Wget ist ein Kommandozeilen Tool aus dem GNU Projekt und ermöglicht das runterladen von Dateien aus dem Internet. Zum Beispiel auf Linux Servern ohne Grafische Oberfläche wird wget heute noch verwendet um z.B. sourcecode zum kompilieren runterzuladen.