![]() |
Zitat:
|
zu lang her
aber sicher ohrenbetäubend |
Im Stadion war's schon mächtig laut; war ja Stammkunde dort und weiss es demzufolge aus eigener Erfahrung zu berichten. Der riesige Fanblock hatte sein Revier Unterhalb, links und rechts des Sprecherturms. Wenn die Mannschaften aus der gegnerischen Seite ins Stadion einliefen, kriegten angesichts dieser imposanten Fahnenwand in schwarz und gelb die gegnerischen Teams das erste Fracksausen. War ja - zumindest für Dresdens Fussball - auch eine geile Zeit. Dass das Stadion eigentlich kein Fussball-Stadion, sondern vom Grundmodell her mehr ein Leichtathletikstadion, tat dem keinen Abbruch. Echte Fussballstadien mit den Rängen ganz nahe am Spielfeldrand hatten im DDR-Leistungsfussball dazumal nur Union Berlin und Chemie Leipzig. - Der Tempel der in Dresden jetzt dort steht gefällt mir trotzdem besser. Wenn damals das Dynamo-Stadion leer war, sah es umso trostloser aus. Der Zahn der Zeit halt. Ist übrigens in der Folge "Clown Ferdinand und der Fussball" der DDR-Clown Ferdinand-TV-Serie wirklich sehr gut zu sehen. Ich war bei den Aufnahmen (März 1972 vor einem Spiel gegen den HFC Chemie) übrigens auch als Zuschauer dabei.
|
Hab gerade ein Heftchen aus der Kleinen Jugendreihe hochgeladen. Wollte mal probieren, wie das mit der Erstellung von OCR-PDF im XChange-Editor funktioniert. Die Korrektur fand ich nicht sehr komfortabel, wie ich es von Word her gewohnt bin. Habe dann das fertige PDF durch den FineReader laufenlassen, um das EPUB im Word vorzubereiten. So ein Sch..., Fehler über Fehler und ganze Zeilen fehlten auch. Hab dann als Quelle wieder das Bild-PDF genommen und nur wenig korrigieren müssen.
|
Ich nutze den PDF X-Change Editor zum Erstellen von 2 PDFs aus den im ScanTailor vorbereiteten tifs.
Zuerst für die Scan-PDF. Die gleiche ich nach der Erstellung, was die Maße in cm betrifft, an die Print-Version an. Und anschließend scrolle ich sie nochmal durch und beseitige Flecken und Schmitzer, die ich eventuell bei der Ausgabe im ScanTalor übersehen habe. Dann erstelle ich daraus als zweite Version noch eine ocr-PDF, aber nur für meinen persönlichen Gebrauch, um ggf. Stellen, die ich in der Printversion suche, schnell finden und überprüfen zu können. Diese zweite Version nutze ich nur für Vergleiche beim Weiterverarbeiten im FineReader, anschließend in LibreOffice und danach in Sigil sowie zum schnellen Auffinden von ggf. immer noch vorhandenen Fehlern beim k-lesen. Danach wird sie zusammen mit allen anderen dann überflüssigen "Zwischen"-Dateien gelöscht. Anbieten mkann man die ocr-Version nicht - zu viele Fehler. Aber bis zum Endprodukt erleichtert sie das Arbeiten. |
Zitat:
Was das Entfernen von Seitenzahlen angeht, bin ich anfangs im Scan Tailor nach der ersten "Ausgabe" und dem Herauskopieren des out-Ordners zur Weiterverarbeitung als PDF immer einen Schritt zurück zum "Rand auswählen" gegangen, habe einfach bei jeder Seite kurz den unteren Rand etwas nach oben über die Seitenzahl geschoben und hab dann eine zweite "Ausgabe" durchlaufen lassen, die ich als Grundlage für den FineReader genommen habe. So hatte ich das mal von bb gelernt. Mittlerweile erspare ich mir diese zweite Ausgabe und die damit verbundene Arbeit und Zeit komplett, indem ich nur eine Ausgabe mit Seitenzahlen erstelle und diese .tifs dann auch im FineReader nutze. Dort kann man nämlich ganz einfach die Seitenzahlen entfernen, indem man das Feature "Bereichsvorlage" nutzt. Das läuft im Prinzip wie einer der Zwischenschritte im ScanTailor: - man sucht sich in den frisch in den FR geladenen Seiten eine mit maximalem Text aus - man zieht einen Rahmen um den Text so das die Seitenzahl außen vor bleibt - man wählt in der Menüleiste Bereich/Bereichsvorlage speichern aus und speichert den gerade umrandeten Text mit irgendeiner Bezeichnung als Bereichsvorlage ab - unmittelbar danach wählt man im Punkt darunter "Bereichsvorlage laden" und im sich öffnenden Fenster die eben erstellte Bereichsvorlage aus und markiert (üblicherweise) den Punkt "alle Seiten" und bestätigt mit "öffnen" - über "Erkennen" lässt man alle Seiten neu einlesen Als Ergebnis hat man bei sämtlichen Seiten die Seitenzahlen automatisch ausgeschlossen und braucht nur noch, wenn man im nächsten Schritt jede Seite einzeln durchgeht, ggf. auf einzelnen Seiten mal den Textrahmen an einzelnen Stellen etwas weiter aufziehen oder wenn es sich um Bilder handelt, den Textrahmen entfernen und dafür mit der Bildauswahl die Bilder auswählen. Vertauschte Seiten hatte ich noch nie. Unmittelbar nach der Ausgabe des ScanTailors benenne ich mittels "Mehrfachumbenennung" die ausgegebenen Dateien in 001.tif, 002.tif usw. um. Was mir allerdings schon ein zwei mal passiert ist, war eine fehlende Seite, die beim Scannen überblättert wurde. Aber diesem Problem kann man schon bei der Verarbeitungsstufe ScanTailor mit der "Zauberzahl" beikommen. |
Ja, das stimmt mit euren Erfahrungen. Jeder hat eine andere Methode und das ist auch richtig so.
Für mich nicht relevant, da ich nur PDF erstelle. Das wird auch wieder jeder nach seinen Erfahrungen und mit seiner vorhandenen Technik/Software machen. |
Zitat:
Mittlerweile spare ich das ein, da ich ja ein pdf erstelle. Dort laß ich bei einigen (mindestens die, die von anderen K-gelesen werden) unter Umwandeln den Text erkennen - der dann „unter“ dem Bild liegt -, womit das Pdf dann durchsuchbar ist, und der K-Leser dort nach suspekten Textstellen suchen kann. Wenn das pdf erstellt ist, wird es - so wie Victor beschrieb - zugeschnitten. Ist im Prinzip derselbe Effekt wie es der Kanzler im FR erreicht. Vorraussetzung dafür ist aber ein gute Ausrichtung im ST. Sonst fehlen eventuell Textteile. Auch ich find es im PDFXChanger komfortabler, aber so entwickelt jeder seine Vorlieben. Aber: „Entscheidend ist, was hinten rauskommt.“ Kohl |
Zitat:
|
Zitat:
Ich mach das ganz fix mit der "Zauberzahl" und einfacher Arithmetik. Die Zauberzahl muss am Anfang und Ende des Buches gleich sein. Ein Beispiel: - die erste sichtbare rechte Seitenzahl im Buch ist z. B. die 7 - nach dem Scanvorgang findet sich diese auf dem Bild Nr. 6 der Scanreihe - die Zauberzahl ist: (Scanreihennummer) 6 x 2 - (Seitenzahl im Buch) 7 = 5 - die letzte sichtbare rechte Seitenzahl im Buch ist 399 - nach dem Scanvorgang findet sich diese auf dem Bild Nr. 202 der Scanreihe - die Zauberzahl ist: (Scanreihennummer) 202 x 2 - (Seitenzahl im Buch) 399 = 5 Unterscheiden sich die beiden Zahlen, dann sollte man nachprüfen, welche Seite(n) fehlen. |
Ich tue immer die Umschlagseite umbennen, damit die Seitenzahl mit der Nummerierung beim scannen übereinstimmt. Dann erkennt man zwischenzeitlich wenn Bildnr. nicht mehr mit der Seitenzahl zusammenpasst. Bildtafeln machen die Sache etwas kompiziert, ist aber auch lößbar.
|
Zitat:
Gleich nach dem Scannen lade ich die Rohbilder in den PDFXChanger, und lösche - wie Blacky - die ersten Seiten (cover, vorsatztseiten etc), bis die Seitenzahl des Papierbuches mit der Seitenzahl des pdfs übereinstimmen. Nun kann ich schnell durchs pdf scrollen, und werf ab und zu einen Blick auf die Seitenzahlen. Wenn was fehlt, wird gleich nachgescannt, und bei Dopplungen gelöscht. Wenn es eingesetzte Bildtafeln (mit ohne Seitenzahl) gibt, lösch ich die (aus dem Vorguck-pdf) und schon stimmen die Seiten wieder. Das pdf wird natürlich auch nicht gespeichert, da es ja nur zur Kontrolle diente. Seit dieser Arbeitsweise, hatte ich noch keine Fehlseiten. Das ist eigentlich ganz einfach, ohne viel Schnickschnack, und danach kann man sich der weiteren Arbeit widmen. |
Zitat:
Man kann es auch wie Blacky und BB machen, bin ich zu faul. Wie ich schon geschrieben habe, jeder hat sein Ding gemacht wie er sich dachte, aber auch Erfahrung von hier sich angeeignet. Es hat einige Zeit gedauert, bis ich z.B. mit scantailor warm wurde, nutze aber auch weiterhin Photoshop für bestimmte Sachen. Das geht halt nur mit Photoshop & Co.. https://up.picr.de/50088508za.jpg https://up.picr.de/50087949hm.jpg |
Zitat:
Als GIMP-User der ersten Stunde muss ich da fragend einhaken?:) |
DDR-Literatur im Radio
Bei meinen Leseempfehlungen im Firefox tauchte heute auf [Link nur für registrierte und freigeschaltete Mitglieder sichtbar. Jetzt registrieren...]. Auf der Seite ist ein fast einstündiges Audio nachzuhören und auch noch ein dreiviertel Stündchen Das literarische Erbe der DDR.
Kann man sich ja mal beim Scannen auf die Ohren geben. |
Zitat:
Bitteschön zum Download Das literarische Erbe der DDR [Link nur für registrierte und freigeschaltete Mitglieder sichtbar. Jetzt registrieren...] DDR-Kinderbücher - Was bleibt [Link nur für registrierte und freigeschaltete Mitglieder sichtbar. Jetzt registrieren...] |
Zitat:
Mit Gimp kenne ich mich nicht aus, wird aber selbige Möglichkeiten zur Bearbeitung haben. Das Bild 2 ist, wie ich es in Excel handhabe wegen den Seitenzahlen. Geht baugleich auch mit den frei verfügbaren Programmen. |
Zitat:
Aber wofür genau "kannst du scantailor ja nicht einsetzen"? |
Zitat:
Ist ja das ganze Buch so, was soll ich da mit Bitmap. |
Ich will dich nicht ärgern, ich will nur verstehen, was du genau meinst mit "wegen diesen bunten Bildern".
Bei gutem Quellmaterial kannst du doch das Bild so farbig übernehmen. |
Zitat:
Ist schon ein tolles Tool, aber leider Weiterentwicklung eingestellt. Die Kommerziellen haben sich wieder durchgesetzt, wie damals das ADOBE PDF gegen djvu. Ist viel effizienter als PDF. |
Zitat:
Auch mit Vuescan ist es nie optimal. Wenn es im ST (rechteckig!) ausgewäht wird, würde man doch diesen Bereich im pdf erkennen, n'est ce pas! (hatte grad wieder Poirot gesehen) Also versucht man den Hintergrund richtig weiß zu bekommen!! - mit Weißpunkt, Tonwert, Gammakorrektur, Farbe ersetzen oder was weiß ich. Und das macht ST nicht, da braucht man ein Bildbearbeitungsproggie. Der eine ist mit Gimp groß geworden, der andere mit Photoshop... egal: wichtig ist das Ergebnis!! Alles klar?! |
Das dargestellte Bild ist natürlich schon über PS gelaufen.
|
Alles gut.
Es ist nicht meine Absicht, einen Streit vom Zaun zu brechen oder einen Wettstreit zwischen PS und GIMP auszurufen, sondern meine Nachfragen zielten auf den qualitativen/optischen Aspekt der Aussage, dass das nur mit PS (oder GIMP ;) ) geht. Ich wollte nur sagen, dass man das nicht so ausschließlich sagen kann, wobei es in den meisten Fällen natürlich so ist. Es kommt halt immer auf das Bild an. Ich arbeite neben anderen Projekten zur Zeit auch an einem Lexikon, das (1961 gedruckt) rund 250 Bilder enthält und in einigen Wochen fertig sein wird und das hier kommt z. B. direkt so aus dem ScanTailor: https://s1.directupload.eu/images/us...6/q7ey4vpv.jpg Für das epub will und werde ich die Bilder trotzdem alle noch mal einzeln in GIMP durchsehen, wenn sie freigestellt sind. |
Ja, rechteckige Bilder kannste in ST gut auswählen. Mir gings da eher um die Bilder mit unregelmäßigen Formen, noch schlimmer, die mit blassen Farbverläufen - wie sie in KiBus oft vorkommen -, da ist es schwer den Hintergrund zu weißen, ohne zu viel Farbinformationen zu verlieren. Das ist besonders bei stark vergilbten Seiten eine große Schwierigkeit.
Aber Bilder im Lexikon oder Bildbänden die eckig daherkommen, das ist in ST kein Problem. Doch auch da gibt es des öfteren freigestellte Bilder. Guckt euch einfach das Geschichtsbuch der 5 Klasse an. Wegen der vielen roten Schrift und den roten Umrandungen - und natürlich der vielen Bilder! - ist das alles in PS überarbeitet worden. Ich hatte von richback noch einen Trick erhalten um farbigen Text in ST zu erkennen Zitat:
Also für dieses Buch war es nicht so toll. Doch ich denke daß dieser "Trick" bei weniger bunten Seiten gute Hilfe leisten wird. Ich werd ihn auf jedenfall noch öfter probieren. |
Muß ich mal ausprobieren mit der bunten Schrift, wenn ich mal ein Sachbuch/Mathebuch finde zum scannen.
|
Auf alle Fälle ein interessanter Tipp. Man hat ja meist kaum ein Programm und dessen Fähigkeiten bis in alle Tiefen voll erforscht. Da sind solche Hinweise immer gut. :T
|
Stimmt.
|
Hallo,
ich kämpfe gerade mit der OCR-Texterkennung vom PDF-XChange Editor. 200 Seiten je Buch dauert, trotz schnellem PC, immer um die 10-15 Minuten. Nicht so schön. Meine Frage ist aber: Kennt jemand eine Möglichkeit, wie man anschließend die als Bild gescannten Textseiten rausschmeißt und dafür eine reine Textseite einfügt, möglichst mit ähnlicher Schriftart, auf jeden Fall mit gleicher Formatierung? Gibt es so etwas überhaupt? |
Umwandeln->Text auf Seiten erkennen->unten im Fenster dann "Seiteninhalt aufbereiten"-OK.
Kommt nun darauf an, wie die Qualität/Vorlage der Bilder ist, da kannst du viel Nacharbeit haben. |
Danke. Bei mir kann die Art "Durchsuchbares Bild" nicht geändert werden.
Macht aber nichts. Man kann nicht alles haben. |
Nehme mal ein/zwei Bilder ohne OCR, oder ein ganzes Buch. Eventuell liegt es am OCR.
|
Zitat:
Ich würde und mache mir diese Arbeit nicht. Ein gutes Bild-pdf mit hinterlegter OCR ist - für mich! - die bessere Wahl. Ich habe zuviel OCR-pdfs gesehen, wo man schon im Titel und den ersten Seiten - beim "Drüberfliegen" - Fehler und falsche Zeichen findet. Diese Vorlagen taugen einen Sch*** für Weiterarbeit. Außerdem sieht die Formatierung oft auch verunglückt aus. Die originale Schrift ist nicht vorhanden, die Zeichen- und Wortabständes passen nicht uswusf. Wenn man das alles passend macht, muß man viel Arbeit investieren. |
Eben, deshalb habe ich was mit "viel Arbeit" geschrieben. Würde ebenfalls bei nur OCR bleiben. Habe auf diese Frage hin mal ein Buch umgewandelt und beim Schnelldurchlauf keine Fehler gesehen, aber ein richtiges K-lesen würde schon was finden. Ansonsten wie das Erscheinungsbild der PDF. Bei bildlastigen Büchern gibt es Probleme mit dem Umwandeln.
|
Danke an rho und berndbrot.
Ich habe eine solche veränderte Datei "erhalten" und ich bin ernüchtert. So viele fehlerhafte Zeichen, schlechte Formatierung ... und vor allem erheblich größer. Es war eine Idee. Aber wie schon gesagt, man kann nicht alles haben. Für mich ist das nichts. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:08 Uhr. |
Powered by vBulletin® (Deutsch)
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.