myGully.com - Dateien automatisiert auslesen und einen Index erstellen..

myGully.com (https://mygully.com/index.php)

- Programmierung (https://mygully.com/forumdisplay.php?f=67)

- - Dateien automatisiert auslesen und einen Index erstellen.. (https://mygully.com/showthread.php?t=5375971)

Dateien automatisiert auslesen und einen Index erstellen..

Hey,

geht darum, dass mehrere tausend Dateien vorhanden sind - pdf mit OCR.
Nun soll eine (Webbasierte) Maske erstellt werden, die diese Dateien durchsuchbar macht (ähnlich wie google books die pdf Dateien nach Wörtern durchsucht). Wenn ich dann bestimmte Wörter in die Suche eintrage, sollen die Dokumente, die in Frage kommen, ausgegeben werden.

Hat da jemand eine Idee oder einen Tip, wie und womit sowas am besten umsetzbar wäre?

Meine Idee wäre eben eine Indexierung, wobei man bei tausenden Dokumenten und Büchern unmöglich von Hand einen entsprechenden Index erstellen kann. Das würde den Traffic auch senken, weil nicht immer der gesamte Inhalt gescannt werden müsste, sondern nur der entsprechende Index...

Vielleicht wäre das ein Ansatz der dir weiterhilft: [Link nur für registrierte und freigeschaltete Mitglieder sichtbar. Jetzt registrieren...]

Ok, das klingt schon stark danach, was ich meine.. Vielen Dank schonmal.
Klingt allerdings auch nach unglaublich viel Arbeit, sich das anzupassen und eine Nutzerfreundliche (Endkunden) Oberfläche zu erstellen. Dazu läuft es auf Linux Ebene, wobei eigentlich ein Windows Server geplant wäre und Linux da nicht drauf laufen sollte..

Ich schau es mir mal in Ruhe an, vielen Dank :T

Läuft auch auf windows

[Link nur für registrierte und freigeschaltete Mitglieder sichtbar. Jetzt registrieren...]

Ich hab die Engine bereits unter c# .net in Verwendung gehabt und gab keine Probleme.