Dateien automatisiert auslesen und einen Index erstellen..
Hey,
geht darum, dass mehrere tausend Dateien vorhanden sind - pdf mit OCR.
Nun soll eine (Webbasierte) Maske erstellt werden, die diese Dateien durchsuchbar macht (ähnlich wie google books die pdf Dateien nach Wörtern durchsucht). Wenn ich dann bestimmte Wörter in die Suche eintrage, sollen die Dokumente, die in Frage kommen, ausgegeben werden.
Hat da jemand eine Idee oder einen Tip, wie und womit sowas am besten umsetzbar wäre?
Meine Idee wäre eben eine Indexierung, wobei man bei tausenden Dokumenten und Büchern unmöglich von Hand einen entsprechenden Index erstellen kann. Das würde den Traffic auch senken, weil nicht immer der gesamte Inhalt gescannt werden müsste, sondern nur der entsprechende Index...
__________________
Urlaubsmodus
|