|
|
|
|
Wieder so ne Sache bei der ivh nicht weiß ob es der Aufwand wert ist, die bisherige Methode mit den Hardware-Ordnern funktioniert doch auch seit Jahren. Die Vorteile kannst an einer Hand aufzählen was das digitalisieren bietet. Dafür mindestens genau soviele Nachteile. Nice to have aber eher was für Sheldon in meinen Augen.
Einfache Dinge kompliziert gemacht
|
|
|
|
|
|
|
| Zitat von Teh Ortus
Ich cross poste das mal hier hin, nachdem ich es aus versehen in den IBWN geschrieben hatte.
Für die Entwickler hier vielleicht interessant: Abbyy fährt gerade eine Promo-Aktion. Wenn man ein wenig Werbung für die Macht, bekommt man "lebenslang" 100 Seiten im Monat in der Abbyy OCR Cloud für lau.
Und Abbyy ist mit großen Abstand das beste OCR-System. Wir haben in der Firma einige ausprobiert, ich hab privat mit vielen rumgespielt, Abbyy ist immernoch am besten.
man kann in der Abbyy OCR Cloud relativ viele Formate hochladen (jpg, pdf, tif, etc) und dann in beliebigem Format runterladen. Zum Beispiel searchable PDF (wo dann der Text als unsichtbarer Layer über das gescannte gelegt ist), oder den reinen Volltext, oder mit Layout-Informationen etc.
Abgerechnet wird seitenweise.
Es gibt ne reihe von Beispielen, wie man das ganze in diversen Sprachen angeht. Unter anderem auch ein einfaches Bash-Beispiel, welches ich in meinem Scan-Prozess nutze.
| |
Hab das mittlerweile in mein Rasbpi-Mayan-EDMS-Setup eingebunden, funktioniert super. Selbst Text von qualitativ sehr schlechten Bildern, wo Tesseract-OTR nur noch Schrott erkennt, wird einwandfrei erkannt.
Ich werf einfach einen Stapel in den Einzugsscanner, drück den Hardware-Scan-Knopf, Rest funktioniert automagisch. Einmal im Monat tagge und kategorisiere ich dann die eingescannten Dokumente in Mayan.
Ich hoffe nur dass das mit den 100 kostenlosen Seiten auch nach April noch klappt, wenn nicht, wäre es aber zu überlegen ob es nicht wert ist da jeden Monat paar Euros zu bezahlen für diesen Service...
/e:
Hier einfach mal der direkte Vergleich (Quelle war ein sehr schlechter und niedrig auflösender Scan eines GEZ-Briefs den ich per Google gefunden habe).
Links Tesseract, Rechts Abbyy Cloud OCR.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von krautjork am 07.01.2016 5:29]
|
|
|
|
|
|
Der Scansnap wird auch mit Abby ausgeliefert. Keine Ahnung ob mit einer horrend alten Version oder was sonst da falsch läuft. Das Ding erkännt nämlich eigentlich alles korrekt. Ausser die Zahlenreihen auf Einzahlungsscheinen. Ja, jene die extra fürs Maschinenlesen optimiert wurden.
|
|
|
|
|
|
|
ich habe soeben meinen scanner eingerichtet um .ocr zu scannen, das klappt ganz gut.
was könnt ihr als dms empfehlen damit ich die dateien ordentlich verwalten und durchsuchen kann?
|
|
|
|
|
|
|
Google Drive
|
|
|
|
|
|
|
nein
/achja kann man irgendwo einstellen dass ich mehrere briefe zusammen einscannen kann und auch gleich einzelne pdf ausgibt, oder muss ich das von hand auseinander nehmen?
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Klages am 07.01.2016 11:39]
|
|
|
|
|
|
Mein Scanscript erkennt das
Ich hab hier am Scanner so buntes Deko-Papier als Trennblätter liegen. Mein Scan-Script, welches die Einzelseiten als JPG vom Scanner runterläd, erkennt dann Seiten, die zu mehr als 95% oder so rot sind und fängt das nächste Dokument an.
Zusätzlich guckt es auch auf den Zeitstempel der Datei. Wenn das Erstelldatum mehr als fünf Minuten auseinander liegt, sinds auch unterschiedliche Dokumente.
Die Dokumente werden dann jeweils zusammengefasst, zu PDF konvertiert, in Google Drive hochgeladen und es geht eine E-Mail an mich selbst raus mit der Info, das alles geklappt hat.
|
|
|
|
|
|
|
|
|
|
|
Hab das mal irgendwann in Groovy neu geschrieben, weil ich da einiges einfacher hinbekomme als in Bash.
Die OCR-Wandlung ist aktuell deaktiviert, da Google Drive das eh beim hochladen macht.
Irgendwas passte zuletzt nicht mit der PDF-Konvertierung, obwohl es davor seit Jahren lief. Ich vermute ein Bug in Imagemagick.
Da ich den HP Photosmart irgendwas habe und nicht den Officejet, und der bescheuerterweise nicht direkt auf UNC-Pfade speichern kann, Scanne ich auf einen USB-Stick der im Gerät steckt und per SMB nach /media/Printer gemountet ist. Um sicherzugehen, dass das erreichbar ist, pinge ich den Drucker vorher einmal kurz an und mounte.
|
Code: |
#!/usr/bin/groovy
import groovy.io.FileType
import java.nio.file.Files
import java.nio.file.attribute.BasicFileAttributes
def sourceDrive = "/media/Printer"
def source = new File("/media/Printer/DCIM")
def target = new File("/home/tlan/Drive/Dokumente/Posteingang")
def convert = "/usr/bin/convert"
def options = ["-density", "300x300", "-compress", "jpeg"]
def stacks = []
def blankPages = []
def last = 0
["/usr/bin/ping", "tlan-printer.local", "-c", "1"].execute()
["/usr/bin/mount", sourceDrive ].execute()
def isBlank( def filename){
def convert = [ "/usr/bin/convert", filename, "-format", "%[fx:pow(mean.g,2)<0.2?1:0]", "info:"].execute();
def ret = convert.waitFor();
if( ret != 0){
println "convert exited with: "+ret;
}
def blank = "1".equals(convert.getInputStream().text);
return blank;
}
def doOcr( def filename){
def ocr = "/home/tlan/.bin/abbyy_ocr.sh"
def p = [ ocr, filename, filename + ".ocr", "-f pdfSearchable -l German" ].execute()
def ret = p.waitFor()
if( ret == 0){
new File( filename).renameTo( filename+".bak")
def ocrFile = new File(filename + ".ocr")
ocrFile.renameTo( filename)
}
}
def upload( def filename){
def drive = "/usr/bin/drive"
def p = [ drive, "push -quiet '", filename, "'"].execute(null, new File("/home/tlan/Drive/"))
def ret = p.waitFor()
if( ret != 0){
println "Failed [RetCode: " + ret + "] to upload "+filename
}
}
try {
source.eachFileRecurse( FileType.FILES){ file ->
if( !file.isFile() || !file.getName().toLowerCase().endsWith("jpg")){
return
}
def path = file.toPath()
def attr = Files.readAttributes(path, BasicFileAttributes.class)
def time = attr.creationTime().toMillis()
def blankPage = isBlank(file.absolutePath);
if( ( (time - last) > (60*1000)) || blankPage){
stacks.add([ time: time, files: []])
}
if( blankPage) {
blankPages.add(path)
} else {
stacks.last().files.add(path)
}
last = time
}
stacks.each { stack ->
def filename = target.getAbsolutePath() + "/" + new Date(stack.time).format("yyyy-MM-dd HH_mm_ss") + ".pdf"
def files = stack.files
if( files.size() == 0){
return;
}
def cmd = [ convert, options, files, filename].flatten()
def p = cmd.execute()
p.waitFor()
// doOcr( filename)
println "$filename created from:"
upload( filename)
}
stacks*.files*.each { file ->
Files.delete(file);
}
blankPages.each { file ->
Files.delete(file);
}
} catch( FileNotFoundException fnfe){
}
|
|
Nicht schön, aber tut
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Teh Ortus am 08.01.2016 10:31]
|
|
|
|
|
|
ich habs jetzt mit paperport gelöst, das war bei meinem drucker dabei. man muss zwar von hand sortieren aber das geht relativ einfach mit drag&drop. ich denke es ist auch relativ schwierig einem programm beizubringen welche briefe zusammengehören und welche nicht.
das einzige was mich an dem programm nervt ist der office07 look :urgs:
|
|
|
|
|
|
|
Ich hab mir angewöhnt die Blätter schon vorher entsprechend zu stapeln und halt zusammengehörige Blätter einzuscannen. Die Dokumente korrekt benennen mache ich meist erst später. Und das ding bisher immer relativ flott. Ich behaupte nicht weniger schnell als wenn ich erstmal farbige Zwischenblätter reinklatschen müsste.
Ich sortiere aber - bei grösseren Jobs - konsequent einzelne, lose Blätter aus. Die kommen alle auf einen Stapel und werden mit der Einstellung "jedes Blatt = 1 Dokument" gescannt. Das geht dann ratzfatz.
|
|
|
|
|
|
|
Aber der passt doch wunderbar zu dem Windows XP Fisherprice Look?
|
|
|
|
|
|
|
| Zitat von dino the pizzaman
Ich hab mir angewöhnt die Blätter schon vorher entsprechend zu stapeln und halt zusammengehörige Blätter einzuscannen. Die Dokumente korrekt benennen mache ich meist erst später. Und das ding bisher immer relativ flott. Ich behaupte nicht weniger schnell als wenn ich erstmal farbige Zwischenblätter reinklatschen müsste.
Ich sortiere aber - bei grösseren Jobs - konsequent einzelne, lose Blätter aus. Die kommen alle auf einen Stapel und werden mit der Einstellung "jedes Blatt = 1 Dokument" gescannt. Das geht dann ratzfatz.
| |
90% der Fälle hab ich eh nur ein Dokument zu Scannen. Das wird aufgelegt, Scan-Taste gedrückt und ich bin fertig. 10 Minuten später kommt die Mail, das es abgelegt ist.
Nur wenn ich wirklich mal mehrere Dokumente gleichzeitig Scannen muss, wird da kurz ne rote Seite zwischengelegt.
Ich scanne auch nicht am PC, sondern komplett am Gerät. Wenn ich die Scansoftware öffne, kann ich natürlich den ganzen Kram wie du schon sagst einstellen. Aber dann bin ich an einen Rechner gebunden, den ich jedesmal anwerfen muss. Ich hab hier Windows, Linux und OSX-Kisten, sodass das auch nervig wird.
Mir war halt wichtig, das so viel wie möglich vom Ablageprozess nachm Anstoßen automatisiert durchläuft. Ich hab nämlich keine Lust jedes mal nachm Scannen erst den Rechner anzuwerfen, zuzuordnen was wo zu gehört, zu PDF zu kombinieren, bla. Ich weiß genau, wenn das mehr als ein Tastendruck ist, mach ichs eh nicht.
Wo ich noch dran arbeite ist die Klassifizierung. Ich hatte ja schonmal erwähnt, ich arbeite bei einem Anbieter für DMS-Software, und wir haben natürlich auch Klassifizierung im Angebot. Dummerweise kostet die ein Vermögen, Mitarbeiter-Rabatte gibts natürlich nicht. Aber ich weiß halt, wie komplex das Themengebiet ist, und wieviel Aufwand es ist, sowas richtig gut hinzukriegen.
Meine Idee war deshalb erstmal am Anfang das zu vereinfachen. Text per OCR holen, evtl. mit Layout-Infos, und nur Keyword-basiert klassifizieren. Sprich wenn "Versicherungsnummer" vorkommt, in den Versicherungsordner schieben, wenn "Rechnung" vorkommt, in den Rechnungen-Ordner schieben etc. Mal schauen, "irgendwann".
|
|
|
|
|
|
|
| Zitat von dino the pizzaman
Ich hab mir angewöhnt die Blätter schon vorher entsprechend zu stapeln und halt zusammengehörige Blätter einzuscannen. Die Dokumente korrekt benennen mache ich meist erst später. Und das ding bisher immer relativ flott. Ich behaupte nicht weniger schnell als wenn ich erstmal farbige Zwischenblätter reinklatschen müsste.
Ich sortiere aber - bei grösseren Jobs - konsequent einzelne, lose Blätter aus. Die kommen alle auf einen Stapel und werden mit der Einstellung "jedes Blatt = 1 Dokument" gescannt. Das geht dann ratzfatz.
| |
mit der software kann ich halt den "stapel" an eingescannten dokumenten auflösen und wie aufm wühltisch sortieren. hört sich jetzt chaotisch an ist aber imo einfacher als alles einzeln zu scannen.
/eine automatische klassifizierung habe ich noch nicht, gibts da was feines was gratis oder nicht allzu teuer ist?
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Klages am 08.01.2016 11:50]
|
|
|
|
|
|
Ich bin jetzt ein bißchen angefixt. Der SnapScan sieht spannend aus und ich würde gerne meine diversen alten Unterlagen einscannen.
Was mir noch nicht klar ist: Der SnapScan kann nun aus Text durchsuchbare PDFs machen. Veschlagwortet er die direkt irgendwie sinnvoll oder wie läuft das?
Benötigt man dann zwingend noch eine DMS Software oder reicht es aus das Zeug in einer Ordner-Struktur abzulegen die dann z.B. via Windows Search etwas findet?
|
|
|
|
|
|
|
Das klingt natürlich cool mit dem Wühltisch-Sortieren. Das fehlt mir grundsätzlich jezt noch ein bisschen... also einen Stapel scannen und dann das pdf relativ _einfach_ aufteilen und benennen. halt so richtig drag & drop und nicht via Menü neue Files mit Seite X bis Y erstellen u.ä.... das dauert alles zu lange.
re scannen ohne PC: wollte ich zu Beginn auch nutzen. Aber irgendwie nervte es mich, dass man beim scansnap 500 bez. Settings irgendwie beschränkt war. Also besonders was Qualität angeht. ev. muss ich mir das aber nochmals genauer anschauen.
viva la bluescreen: ich habe alles nur in Ordnern und komme mit meiner eigenen Logik relativ gut zurecht. Auch ohne PDFs durchsuchen zu müssen. Ich weiss relativ gut, wo ich was abgelegt habe.
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von dino the pizzaman am 08.01.2016 15:24]
|
|
|
|
|
|
PDFs einfach aufteilen etc. geht mit pdf24 ganz gut. Da kannste einzelne Seiten eines PDFs per drag and drop zu neuen Dateien machen oder in vorhandene PDFs schieben
|
|
|
|
|
|
|
Kann hier jemand einen Scanner für Android empfehlen? Habe gerade mal mit dem Google Drive Scanner herumgespielt und das ist auch mit Kartoffelkamera noch brauchbar. Der Upload ist auch sehr praktisch.
Leider kann man nicht korrigieren, wenn es den Ausschnitt verkackt. Und er hat keine Texterkennung.
Ich möchte nicht jedes PDF danach noch mal durch Acrobat jagen, das gibt's doch bestimmt auch alles in einer App.
|
|
|
|
|
|
|
Hab mir für meinen All-In-One von HP die zugehörige App installiert. Ist nicht perfekt, aber ziemlich gut. Erlaubt Scannen über Kamera im Handy, inkl. automatischem Zuschnitt und manueller Anpassung, gute Bereinigung.
Kann außerdem auch direkt auf den richtigen Scanner zugreifen, was auch manchmal ganz praktisch ist.
Diese hier: https://play.google.com/store/apps/details?id=com.hp.printercontrol&hl=en
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Teh Ortus am 09.05.2016 17:02]
|
|
|
|
|
|
| Zitat von Teh Ortus
Hab mir für meinen All-In-One von HP die zugehörige App installiert. Ist nicht perfekt, aber ziemlich gut. Erlaubt Scannen über Kamera im Handy, inkl. automatischem Zuschnitt und manueller Anpassung, gute Bereinigung.
Kann außerdem auch direkt auf den richtigen Scanner zugreifen, was auch manchmal ganz praktisch ist.
Diese hier: https://play.google.com/store/apps/details?id=com.hp.printercontrol&hl=en
| |
Goil! Die App kannte ich bisher noch nicht.
|
|
|
|
|
|
|
Gibt es gute Freeware OCR um gelegentlich Dokumente einzulesen?
|
|
|
|
|
|
|
Wäre mir neu. Unsere Software nimmt, wenn man nicht für Abbyy bezahlen will, Tesseract. Aber selbst die ist bei weitem nicht so gut wie Abbyy.
Mein Vorschlag wäre, das über die Abbyy OCR Cloud zu machen. Zuletzt gab es da ganz ordentlich freiguthaben.
|
|
|
|
|
|
|
| Zitat von Teh Ortus
Zuletzt gab es da ganz ordentlich freiguthaben.
| |
War nur bis April gültig, meine restlichen Freiscans sind nun weg.
|
|
|
|
|
|
|
OK Jungs, mein Drucker/Scanner hat den Geist aufgegeben:
Ich bräuchte also was neues und würde dann gleich soweit gehen meine Dokumente zu digitalisieren zu können. Was ist denn der beste Weg den ihr vorschlagt? Ich hätte halt schon gerne wieder eine Drucker/Scanner-Kombo. Gibts da auch Geräte mit OCR oder muss ich das am Ende per Software erledigen? Wenn ja, kann die dann auch ne Art Stapelverarbeitung?
|
|
|
|
|
|
|
Mit Adobe acrobat DC Pro kannst du beliebig viele Dokumente gleichzeitig abscannen. So mache ich das bisher, aber mich würde auch interessieren, ob es bessere Methoden gibt
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Kinogutschein am 24.05.2016 15:08]
|
|
|
|
|
|
|
|
|
|
Meine gebastelte scriptloesung geafellt mir bis jetzt am besten. Scanimage-commandline speichert ein pgm, imagemagick optimiert es etwas (kontrasterhoehung, graustufenreduktion) und speichert ein png, tesseract-ocr macht ocr auf dem png und wrapt es effizient in ein durchsuchbares PDF. Hab so ca 400 kb fuer eine 600 dpi Seite. So funktioniert OCR auch bei kleiner Schrift gut und ich kann es wieder ausdrucken.
Zum durchsuchen des Ordners mit den scans gibts ja genuegend optionen.
Das ganze ist aber eher nichts fuer den Raspi, es dauert auf einem Skylake-i5 schon 15 Sekunden pro seite. Allerdings kann ich, wenn ich es eilig habe, die naechste Seite scannen waerend die eine noch verarbeitet wird.
Getriggert wird das ganze von einem knopf an dem scanner.
|
|
|
|
|
|
|
Das klingt cool. Welche Hard- und Software genau und Kostenpunkte?
|
|
|
|
|
|
|
CanoScan LiDE 100: 20 Eur gebraucht (gute SANE-Unterstuetzung)
Ich hab Linux (Mint) auf meinem Desktop, koennte man aber auch in einer Linux-VM (auch ohne GUI) loesen, die den Scanner durchgereicht bekommt. Hat eh alles kein Multi-Threading.
Pakete:
sane-utils
tesseract-ocr
imagemagick
Taste: https://wiki.ubuntuusers.de/scanbuttond
|
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Admiral Bohm am 24.05.2016 17:51]
|
|
|
|
|
|
Hau mal deine Skripte hier rein
|
|
|
|
|
|
Thema: Fuck you Registratur ( Unterlagen ordnen für Dummies... ) |