|
|
|
|
Ich poste mal mein kleines Groovy-Script. Vielleicht ja auch für irgendwen relevant. Bin mir grad nicht sicher, ob ich es schonmal gepostet hatte
[/e: Oha, sogar noch auf der letzten Seite ]
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Teh Ortus am 24.05.2016 21:26]
|
|
|
|
|
|
Digitalisiert ihr im PDF/A Format?
|
|
|
|
|
|
|
| Zitat von krautjork
Hau mal deine Skripte hier rein
| |
|
Code: |
#!/bin/bash
TFILE_BASE="/tmp/ocr.$$.tmp"
#get the last filename and increment the number, keeping the leading zeros
FILENR=`ls -p /home/XXXX/scans | grep -v / |tail -n 1 | cut -b -5`
let "FILENR=10#$FILENR+1"
FILENR=`printf "%05d" $FILENR`
OUTBASE="/home/XXXX/scans/$FILENR"
echo "$OUTBASE"
# Set the language to german if no argument was given
if [ "$#" -ne 1 ]
then
OCRLANG="deu"
else
OCRLANG=$1
fi
#echo $OCRLANG
# procedure to enhance the image and finallo do the OCR with a PDF output
do_ocr() {
# reserve file name for parallel scanning
touch "$OUTBASE.pdf"
# create a quality png that is later wapped in the pdf file
convert $TFILE_BASE.pgm -units PixelsPerInch -density 600 -colorspace gray -colors 8 $TFILE_BASE.png
# to the actual OCR and store the result in a pdf file
tesseract -l $OCRLANG $TFILE_BASE.png $OUTBASE pdf quiet 1>/dev/null 2>&1
# clean up all tmp files
rm $TFILE_BASE*
}
#echo $TFILE_BASE.pgm
scanimage --mode gray --resolution 600 --contrast 50 > $TFILE_BASE.pgm
do_ocr
|
|
Edit: Das sollte eigentlich genau so auf Windows mit PowerShell funktionieren, sobald man ein Kommandozeilen-Scanprogram gefunden hat. Imagemagick und tesseract gibst für Windows.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Admiral Bohm am 26.05.2016 9:55]
|
|
|
|
|
|
Kann mir jemand verlässlich sagen ob dieses Fuji-Alleswunder so ältere Kontoauszüge schafft? Dieses alte Thermopapier?
|
|
|
|
|
|
|
Kassenzettel nimmt es ohne Probleme. Was ja die gleiche Papierstärke. Das mit der Extrahülle für Kassenzettel ist nur dem Umstand geschuldet das die Führungsrollen da mehr Zugriffsfläche haben.
|
|
|
|
|
|
|
Zwei Ordner:
1x Finanzen
1x Dinge
Sortiert nach Thema.
|
|
|
|
|
|
|
Analog? Liegt alles chronologisch sortiert (LIFO) auf einem Stapel. Die Stapel kommen nach Erreichen einer störenden Größe in einen Karton. Die Kartons kommen irgendwann in den Keller.
Digital? Alles in einem Verzeichnis namens "Neuer Ordner"
/thread
|
|
|
|
|
|
|
Jemand eine Idee, wie ich automatisiert einen Ordner auf meiner Diskstation mit Adobe Acrobat OCR'en kann? Ich habe noch eine alte Vollversion (9) und die Texterkennung ist einfach deutlich besser als Tesseract.
Bislang landet alles vom Scanner in einem "Ablage" Ordner (bzw. Unterordner). Wenn der (momentan manuelle) OCR Lauf durch ist, werden die Dokumente in einem anderen Ordner auf der Synology verschoben ("Dokumente").
Edit: ich habe übrigens einen Brother ADS-2600WE Dokumentenscanner - und die Software ist noch mal schlimmer als die von Fujitsu... Individuelle Benennung? Da reicht doch bestimmt ein Text und eine fortlaufende Nummer? Du scannst am Gerät? Dann machen wir mal eine völlig andere Benennung.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von [KDO2412]Mr.Jones am 06.05.2017 10:57]
|
|
|
|
|
|
Da ich gerade wieder mal Ordnerweise Dokumente scanne: das mühsamste ist definitiv die ganzen Heftklammern zu finden und dann zu entfernen
|
|
|
|
|
|
|
| Zitat von [KDO2412]Mr.Jones
Jemand eine Idee, wie ich automatisiert einen Ordner auf meiner Diskstation mit Adobe Acrobat OCR'en kann? Ich habe noch eine alte Vollversion (9) und die Texterkennung ist einfach deutlich besser als Tesseract.
Bislang landet alles vom Scanner in einem "Ablage" Ordner (bzw. Unterordner). Wenn der (momentan manuelle) OCR Lauf durch ist, werden die Dokumente in einem anderen Ordner auf der Synology verschoben ("Dokumente").
Edit: ich habe übrigens einen Brother ADS-2600WE Dokumentenscanner - und die Software ist noch mal schlimmer als die von Fujitsu... Individuelle Benennung? Da reicht doch bestimmt ein Text und eine fortlaufende Nummer? Du scannst am Gerät? Dann machen wir mal eine völlig andere Benennung.
| |
Es gibt doch so Wizards und Batch Vorgänge in Acrobat, oder? Mal geguckt, ob du Acrobat per command line nutzen kannst? dann ist es nur noch eine Sache von einem batch script o.ä. und gut ist. Glaube Distiller hat sowas wie watched folders? Bin mir nicht mehr sicher... Aber du bist ja kaum der Einzige mit der Idee, da hat doch Google bestimmt was
|
|
|
|
|
|
|
dieser Fujitsu IX500ScanSnap der immer empfohlen wird ist doch schon ewig auf dem Markt oder? (Geizhals: Gelistet seit: 08.01.2013, 10:31)
Wird's da wohl mal einen Nachfolger geben?
|
|
|
|
|
|
|
Es gibt inzwischen einen Nachfolger, den iX1500. Hat da schon jemand Erfahrungen? Die Software ist wohl noch nicht so ausgereift wie beim iX500. Der ist ja auch schon was älter.
Meinungen?
Wollte eigenltich nur ein Arbeitszeugnis scannen...
|
|
|
|
|
|
|
Die Software vom 500 ist ausgereift?
|
|
|
|
|
|
|
Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?
Hat hier mal jemand mit Mayan experimentiert?
|
|
|
|
|
|
|
Oh ich hab auch endlich einen guten Scanner. Ist Ordnerstruktur auf ner externen Platte für den Privatgebrauch handhabbar?
|
|
|
|
|
|
|
| Zitat von -[Wicht1]-
Ist Ordnerstruktur auf ner externen Platte für den Privatgebrauch handhabbar?
| |
Muss du selbst wissen.
Für mich: Wenn man es ordentlich benennt und sinnig strukturiert, dann ja.
Wenn OCR'ed, dann kannst ja eh schön durchsuchen.
|
|
|
|
|
|
|
Ja OCR macht es.
Ich glaub dann mach ich das so. Keine Lust auf irgendwelche Software
|
|
|
|
|
|
|
| Zitat von dino the pizzaman
Die Software vom 500 ist ausgereift?
| |
Naja, zumindest schon länger am Markt. Jetzt "neu" ist ja wohl das ScanSnap Home.
| Zitat von desperado 12
Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?
| |
Wenn man mehrere Seiten einscannt, wie trennt ihr die einzelnen Dokumente? Dieser pdf-XChange Editor kann das wohl. Aber geht das nicht irgendwie automatisch?
Welche Software kann nach Tags suchen?
|
|
|
|
|
|
|
| Zitat von Roo
| Zitat von desperado 12
Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?
| |
Wenn man mehrere Seiten einscannt, wie trennt ihr die einzelnen Dokumente? Dieser pdf-XChange Editor kann das wohl. Aber geht das nicht irgendwie automatisch?
| |
Hier im Thread hatte jemand mal ein Script gepostet, welches Dokumente trennt, wenn man beim scannen farbige Blätter zwischenlegt. Das schien ganz gut funktioniert zu haben, wenn ich mich nicht irre.
|
|
|
|
|
|
|
Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.
Sonstiges auslesen OCR wäre zwar nice to have.
|
|
|
|
|
|
|
| Zitat von fatal-x
Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.
Sonstiges auslesen OCR wäre zwar nice to have.
| |
Ist das Dokument immer gleich groß, gleiche Position etc?
Wenn ja: Mit imagemagick aus dem PDF den entsprechenden Abschnitt rausschneiden, das Ergebnis durch tesseract schieben? klingt jetzt erstmal recht simpel
|
|
|
|
|
|
|
Jupp immer das gleiche. Danke ich schau es mir an.
|
|
|
|
|
|
|
Ich denke in letzter Zeit ebenfalls nach, meinen Papierkram moeglichst digital zu halten. Offenbar brauche ich einen Dokumentenscanner. Aber da auch mein Drucker recht alt ist dachte ich, nehm ich doch ein Multifunktionsgeraet, das beides kann. Jetzt frag ich mich aber, was ein Dokumentenscanner so kann, was ein gleichteures Multifunktionsgeraet nicht schafft. Konkreter Vergleich waeren die beiden:
HP Laserjet Pro MFP M428fdw
Fujitsu ScanSnap iX1500
Geht's um das Softwarepaket?
Bonusfrage: Macht hier jemand den ganzen Kram unter Linux?
|
|
|
|
|
|
|
als ich einen gekauft habe (den 500er) war es so, dass der Dokumentenscanner schneller und zuverlässiger war, und die Qualität entsprechend auch besser, bei Dokumenten. Fotos damit scannen muss man nicht wollen. Ich kann aber nicht sagen, ob das bei heutigen Geräten anders geworden ist.
|
|
|
|
|
|
|
| Zitat von Teh Ortus
| Zitat von fatal-x
Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.
Sonstiges auslesen OCR wäre zwar nice to have.
| |
Ist das Dokument immer gleich groß, gleiche Position etc?
Wenn ja: Mit imagemagick aus dem PDF den entsprechenden Abschnitt rausschneiden, das Ergebnis durch tesseract schieben? klingt jetzt erstmal recht simpel
| |
Vielen Dank nochmal, war genau das was ich brauchte.
Alle Arbeitsschritte funktionieren für sich allein schon mal wunderbar und muss nur noch die einzelnen Schritt in ein Script zusammenfassen.
Und Tesseract *mindblown* was man mit sowenig Aufwand für ein Ergebnis bekommt.
|
|
|
|
|
|
|
| Zitat von MCignaz
Ich denke in letzter Zeit ebenfalls nach, meinen Papierkram moeglichst digital zu halten. Offenbar brauche ich einen Dokumentenscanner. Aber da auch mein Drucker recht alt ist dachte ich, nehm ich doch ein Multifunktionsgeraet, das beides kann. Jetzt frag ich mich aber, was ein Dokumentenscanner so kann, was ein gleichteures Multifunktionsgeraet nicht schafft. Konkreter Vergleich waeren die beiden:
HP Laserjet Pro MFP M428fdw
Fujitsu ScanSnap iX1500
Geht's um das Softwarepaket?
Bonusfrage: Macht hier jemand den ganzen Kram unter Linux?
| |
Die wenigen Vorteile der reinen Dokumentenscanner bestehen darin das neben der etwas schnelleren Geschwindigkeit darin das die die Dokumente auch im Duplexverfahren scannen können, sprich die scannen in einem Arbeitsschritte Vorder und Rückseite zugleich. Diese Funktion ist bei den MuFus nur im höherpreisigen Preissegment zu finden. Da musst du jetzt schauen wie deine zu scannenden Dokumente aufgebaut sind. Ist es überwiegend nur die Vorderseite tut es auch ein Billo SoHo Mufu. Ich habe zum Beispiel ein HP Officejet 4263e für 50¤. Kann Duplexdruck, hat neben Flatbed auch ADF und ist auch ziemlich flott. Als Scansoftware nutze ich NAPS2. Ist kostenlos und kann auch OCR.
|
|
|
|
|
|
|
Lexmark 2442adwe. Scannt und druckt Duplex, Kost nicht mehr als ein reiner Dokumentenscanner. Bin mit dem Ding recht zufrieden. Ocr mach ich mit ocrmypdf.
|
|
|
|
|
|
|
Hab mein Batch Datei nun fertig und konnte nun mehrere Scan erfolgreich damit bearbeiten, allerdings im MOment nur auf einen spezifischen Dateinamen 002.tiff
Ich will allerdings natürlich alle tiff Dateien aus einem Ordner nacheinander bearbeitet haben.
Meine simple Idee: Es wird random eine dieser Dateien in einen anderen Ordner verschoben und dort passend umbenannt. Läuft so lange durch, bis es keine Datein mehr im Ursprungsordner gibt.
Mein zweite Idee: Es werden alle Dateien erfasst und nacheinander bearbeitet, bis die "Liste" abgearbeitet ist.
Problem: keine Ahnung wie und auch nichts dazu richtig gefunden.
Batchscript bis jetzt:
https://pastebin.com/R9qTz1EX
paar Schritte sind noch überflüssig, da ich das aus den einzelschritten zusammengebastelt habe. Aber es funktioniert, sogar mit log.
|
|
|
|
|
|
|
Oha, du machst das mit der Windows CMD? Na viel Spaß
Hätte ja, wenns denn Windows sein muss, wenigstens die Powershell genommen. Die hat zwar auch so ihre Eigenheiten, aber immernoch brauchbarer als die CMD
|
|
|
|
|
|
|
Du kannst doch den Dateinamen per Variable rein geben, oder gleich mit "forfiles" arbeiten.
|
|
|
|
|
|
Thema: Fuck you Registratur ( Unterlagen ordnen für Dummies... ) |