Zitat:
Zitat von mande
Wenn du das Dokument genauso auslesen willst wie es der Browser darstellt bleibt dir nichts anderes übrig als clientseitige S*****s ablaufen zu lassen und erst dann den Dom-Tree zu holen.
Mittels Java kann ich dir hierfür 2 Möglichkeiten empfehlen.
http://www.seleniumhq.org/ wird z.B. für Automatentests verwendet um das UI von HTML-Seiten programmatisch zu testen. Ist jedoch nicht darauf beschränkt.
Spätestens seit Java 8 ist JavaFX auch tatsächlich in der Runtime angekommen, darin gibts einen eigenen Browser namens WebView, verwendet im Hintergrund denselben Renderer bzw. S*****engine wie Chrome. Mit diesem kannst du auch sobald die Webseite im Hintergrund fertig geladen wurde das aktuelle Dokument holen.
|
Die beste Antwort hier!
Meiner Meinung nach würde ich auch es mit DOM Tree nachschauen!
Sollte eigentlich kein Problem sein...
Im Quelltext stehen eigentlich alle Verlinkungen, die für die aktuelle Seite zuständig sind. Ist also lediglich ein Frage des Lesers.... Auch die php-Verlinkungen sind drin enthalten.