myGully.com Boerse.SH - BOERSE.AM - BOERSE.IO - BOERSE.IM Boerse.BZ .TO Nachfolger
Zurück   myGully.com > Computer & Technik > Programmierung
Seite neu laden

Recherchefrage: Crawler und ähnliches zur Datenextraktion

Willkommen

myGully

Links

Forum

 
Antwort
Themen-Optionen Ansicht
Ungelesen 10.12.10, 19:28   #1
huebieeee
Anfänger
 
Registriert seit: Mar 2010
Beiträge: 1
Bedankt: 0
huebieeee ist noch neu hier! | 0 Respekt Punkte
Standard Recherchefrage: Crawler und ähnliches zur Datenextraktion

Hallo,

ich Recherchiere gerade zur Thematik der "Datenextraktion aus dem Internet". Aus meinen Erfahrungen her, habe ich schon einmal etwas von Crawlern(auch Spider) gehört. Zusätzlich hab ich etwas von Harvestern und Wrappern gelesen. Ebenso hab ich etwas dazu von WGet gelesen welches reine Internetseiten auch zum Offline lesen genutzt werden kann.

Da ihr euch damit intensiver beschäftigt wisst ihr sicherlich:

1. Wo die genauen Unterschiede oder Grenzen der einzelnen Verfahren sind
2. Weitere Verfahren (Methoden und Techniken)
3. Wie man dazu Literatur findet(Hierbei sind links oder Buchtitel sehr Hilfreich), immerhin habt ihr das auch erlernt

Ich danke schon jetzt für eine Diskussion
huebieeee ist offline   Mit Zitat antworten
Ungelesen 14.12.10, 16:31   #2
spartan-b292
Echter Freak
 
Benutzerbild von spartan-b292
 
Registriert seit: Mar 2010
Ort: /home/spartan-b292
Beiträge: 2.856
Bedankt: 1.701
spartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punktespartan-b292 leckt gerne myGully Deckel in der Kanalisation! | 230828 Respekt Punkte
Standard

Crawler sammeln automatisch alle Daten zum Beispiel aus Websiten. Ich erinnere an dieser Stelle mal an den Studivz crawler, der hat Praktisch jede Benutzerseite automatisch aufgerufen und die angegebenen Informationen gespeichert.

Harvester und Wrapper extrahieren bestimmte Elemente aus Datensätzen, eine erklärung dazu findest du in der Wikipedia unter Wrapper.

Wget ist ein Kommandozeilen Tool aus dem GNU Projekt und ermöglicht das runterladen von Dateien aus dem Internet. Zum Beispiel auf Linux Servern ohne Grafische Oberfläche wird wget heute noch verwendet um z.B. sourcecode zum kompilieren runterzuladen.
__________________
"They who can give up essential liberty to obtain a little temporary safety, deserve neither liberty nor safety"
spartan-b292 ist offline   Mit Zitat antworten
Antwort


Forumregeln
Du kannst keine neue Themen eröffnen
Du kannst keine Antworten verfassen
Du kannst keine Anhänge posten
Du kannst nicht deine Beiträge editieren

BB code is An
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.

Gehe zu


Alle Zeitangaben in WEZ +1. Es ist jetzt 20:45 Uhr.


Sitemap

().