Du bist nicht eingeloggt! Möglicherweise kannst du deswegen nicht alles sehen.
  (Noch kein mods.de-Account? / Passwort vergessen?)
Zur Übersichtsseite
Hallo anonymer User.
Bitte logge dich ein
oder registriere dich!
 Moderiert von: Irdorath, statixx, Teh Wizard of Aiz


 Thema: Fuck you Registratur ( Unterlagen ordnen für Dummies... )
« vorherige 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 16 nächste »
erste ungelesene Seite | letzter Beitrag 
Teh Ortus

UT Malcom
Ich poste mal mein kleines Groovy-Script. Vielleicht ja auch für irgendwen relevant. Bin mir grad nicht sicher, ob ich es schonmal gepostet hatte peinlich/erstaunt

[/e: Oha, sogar noch auf der letzten Seite peinlich/erstaunt ]
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Teh Ortus am 24.05.2016 21:26]
24.05.2016 21:25:37  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Feelgood Managerin

xmas female arctic
Digitalisiert ihr im PDF/A Format?
24.05.2016 21:30:12  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Admiral Bohm

tf2_spy.png
 
Zitat von krautjork

Hau mal deine Skripte hier rein



 
Code:
#!/bin/bash

TFILE_BASE="/tmp/ocr.$$.tmp"

#get the last filename and increment the number, keeping the leading zeros
FILENR=`ls -p /home/XXXX/scans | grep -v / |tail -n 1 | cut -b -5`
let "FILENR=10#$FILENR+1"
FILENR=`printf "%05d" $FILENR`
OUTBASE="/home/XXXX/scans/$FILENR"

echo "$OUTBASE"


# Set the language to german if no argument was given
if [ "$#" -ne 1 ]
then
	OCRLANG="deu"
else
	OCRLANG=$1
fi

#echo $OCRLANG

# procedure to enhance the image and finallo do the OCR with a PDF output
do_ocr() {
	# reserve file name for parallel scanning
	touch "$OUTBASE.pdf"

	# create a quality png that is later wapped in the pdf file
	convert $TFILE_BASE.pgm -units PixelsPerInch -density 600 -colorspace gray -colors 8 $TFILE_BASE.png
	# to the actual OCR and store the result in a pdf file
	tesseract -l $OCRLANG $TFILE_BASE.png $OUTBASE pdf quiet 1>/dev/null 2>&1
	# clean up all tmp files
	rm $TFILE_BASE*
}

#echo $TFILE_BASE.pgm

scanimage --mode gray --resolution 600 --contrast 50 > $TFILE_BASE.pgm

do_ocr



Edit: Das sollte eigentlich genau so auf Windows mit PowerShell funktionieren, sobald man ein Kommandozeilen-Scanprogram gefunden hat. Imagemagick und tesseract gibst für Windows.
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von Admiral Bohm am 26.05.2016 9:55]
24.05.2016 22:48:12  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
John Mason

John Mason
Kann mir jemand verlässlich sagen ob dieses Fuji-Alleswunder so ältere Kontoauszüge schafft? Dieses alte Thermopapier?
05.05.2017 21:02:51  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
D@emon

Arctic
Kassenzettel nimmt es ohne Probleme. Was ja die gleiche Papierstärke. Das mit der Extrahülle für Kassenzettel ist nur dem Umstand geschuldet das die Führungsrollen da mehr Zugriffsfläche haben.
05.05.2017 22:14:22  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
hoschi

hoschi
Zwei Ordner:
1x Finanzen
1x Dinge

Sortiert nach Thema.
05.05.2017 22:32:39  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
_-°-_ 4p0h!s _-°-_

Russe BF
Analog? Liegt alles chronologisch sortiert (LIFO) auf einem Stapel. Die Stapel kommen nach Erreichen einer störenden Größe in einen Karton. Die Kartons kommen irgendwann in den Keller.

Digital? Alles in einem Verzeichnis namens "Neuer Ordner"

/thread
06.05.2017 1:30:47  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
[KDO2412]Mr.Jones

[KDO2412]Mr.Jones
Jemand eine Idee, wie ich automatisiert einen Ordner auf meiner Diskstation mit Adobe Acrobat OCR'en kann? Ich habe noch eine alte Vollversion (9) und die Texterkennung ist einfach deutlich besser als Tesseract.

Bislang landet alles vom Scanner in einem "Ablage" Ordner (bzw. Unterordner). Wenn der (momentan manuelle) OCR Lauf durch ist, werden die Dokumente in einem anderen Ordner auf der Synology verschoben ("Dokumente").

Edit: ich habe übrigens einen Brother ADS-2600WE Dokumentenscanner - und die Software ist noch mal schlimmer als die von Fujitsu... Individuelle Benennung? Da reicht doch bestimmt ein Text und eine fortlaufende Nummer? Du scannst am Gerät? Dann machen wir mal eine völlig andere Benennung.
[Dieser Beitrag wurde 1 mal editiert; zum letzten Mal von [KDO2412]Mr.Jones am 06.05.2017 10:57]
06.05.2017 10:51:15  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
dino the pizzaman

dino the pizzaman
Da ich gerade wieder mal Ordnerweise Dokumente scanne: das mühsamste ist definitiv die ganzen Heftklammern zu finden und dann zu entfernen
07.04.2018 10:49:18  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
dino the pizzaman

dino the pizzaman
 
Zitat von [KDO2412]Mr.Jones

Jemand eine Idee, wie ich automatisiert einen Ordner auf meiner Diskstation mit Adobe Acrobat OCR'en kann? Ich habe noch eine alte Vollversion (9) und die Texterkennung ist einfach deutlich besser als Tesseract.

Bislang landet alles vom Scanner in einem "Ablage" Ordner (bzw. Unterordner). Wenn der (momentan manuelle) OCR Lauf durch ist, werden die Dokumente in einem anderen Ordner auf der Synology verschoben ("Dokumente").

Edit: ich habe übrigens einen Brother ADS-2600WE Dokumentenscanner - und die Software ist noch mal schlimmer als die von Fujitsu... Individuelle Benennung? Da reicht doch bestimmt ein Text und eine fortlaufende Nummer? Du scannst am Gerät? Dann machen wir mal eine völlig andere Benennung.


Es gibt doch so Wizards und Batch Vorgänge in Acrobat, oder? Mal geguckt, ob du Acrobat per command line nutzen kannst? dann ist es nur noch eine Sache von einem batch script o.ä. und gut ist. Glaube Distiller hat sowas wie watched folders? Bin mir nicht mehr sicher... Aber du bist ja kaum der Einzige mit der Idee, da hat doch Google bestimmt was peinlich/erstaunt
07.04.2018 10:56:46  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
John Mason

John Mason
dieser Fujitsu IX500ScanSnap der immer empfohlen wird ist doch schon ewig auf dem Markt oder? (Geizhals: Gelistet seit: 08.01.2013, 10:31)

Wird's da wohl mal einen Nachfolger geben?
20.04.2018 20:53:29  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Roo

Arctic
Es gibt inzwischen einen Nachfolger, den iX1500. Hat da schon jemand Erfahrungen? Die Software ist wohl noch nicht so ausgereift wie beim iX500. Der ist ja auch schon was älter.
Meinungen?

Wollte eigenltich nur ein Arbeitszeugnis scannen...
12.07.2019 22:07:33  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
dino the pizzaman

dino the pizzaman
missmutig gucken
Die Software vom 500 ist ausgereift?
13.07.2019 19:56:08  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
desperado 12

tf2_soldier.png
Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?

Hat hier mal jemand mit Mayan experimentiert?
13.07.2019 20:04:52  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
-[Wicht1]-

Russe BF
Oh ich hab auch endlich einen guten Scanner. Ist Ordnerstruktur auf ner externen Platte für den Privatgebrauch handhabbar?
13.07.2019 20:34:09  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Icefeldt

AUP Icefeldt 09.04.2020
 
Zitat von -[Wicht1]-

Ist Ordnerstruktur auf ner externen Platte für den Privatgebrauch handhabbar?




Muss du selbst wissen.

Für mich: Wenn man es ordentlich benennt und sinnig strukturiert, dann ja.
Wenn OCR'ed, dann kannst ja eh schön durchsuchen.
14.07.2019 10:49:53  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
-[Wicht1]-

Russe BF
Ja OCR macht es.

Ich glaub dann mach ich das so. Keine Lust auf irgendwelche Software
14.07.2019 11:41:25  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Roo

Arctic
 
Zitat von dino the pizzaman

Die Software vom 500 ist ausgereift?



Naja, zumindest schon länger am Markt. Jetzt "neu" ist ja wohl das ScanSnap Home.


 
Zitat von desperado 12

Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?



Wenn man mehrere Seiten einscannt, wie trennt ihr die einzelnen Dokumente? Dieser pdf-XChange Editor kann das wohl. Aber geht das nicht irgendwie automatisch?

Welche Software kann nach Tags suchen?
10.08.2019 8:33:22  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
desperado 12

tf2_soldier.png
 
Zitat von Roo

 
Zitat von desperado 12

Was nehmt ihr denn eigentlich zur Dokumentenverwaltung?



Wenn man mehrere Seiten einscannt, wie trennt ihr die einzelnen Dokumente? Dieser pdf-XChange Editor kann das wohl. Aber geht das nicht irgendwie automatisch?


Hier im Thread hatte jemand mal ein Script gepostet, welches Dokumente trennt, wenn man beim scannen farbige Blätter zwischenlegt. Das schien ganz gut funktioniert zu haben, wenn ich mich nicht irre.
10.08.2019 9:58:40  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
fatal-x

AUP fatal-x 14.12.2009
Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.

Sonstiges auslesen OCR wäre zwar nice to have.
07.05.2020 13:59:53  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Teh Ortus

UT Malcom
 
Zitat von fatal-x

Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.

Sonstiges auslesen OCR wäre zwar nice to have.



Ist das Dokument immer gleich groß, gleiche Position etc?
Wenn ja: Mit imagemagick aus dem PDF den entsprechenden Abschnitt rausschneiden, das Ergebnis durch tesseract schieben? klingt jetzt erstmal recht simpel
07.05.2020 17:19:36  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
fatal-x

AUP fatal-x 14.12.2009
Jupp immer das gleiche. Danke ich schau es mir an.
07.05.2020 17:52:26  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
MCignaz

Arctic
Ich denke in letzter Zeit ebenfalls nach, meinen Papierkram moeglichst digital zu halten. Offenbar brauche ich einen Dokumentenscanner. Aber da auch mein Drucker recht alt ist dachte ich, nehm ich doch ein Multifunktionsgeraet, das beides kann. Jetzt frag ich mich aber, was ein Dokumentenscanner so kann, was ein gleichteures Multifunktionsgeraet nicht schafft. Konkreter Vergleich waeren die beiden:

HP Laserjet Pro MFP M428fdw
Fujitsu ScanSnap iX1500

Geht's um das Softwarepaket?

Bonusfrage: Macht hier jemand den ganzen Kram unter Linux?
13.05.2020 20:00:06  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
dino the pizzaman

dino the pizzaman
als ich einen gekauft habe (den 500er) war es so, dass der Dokumentenscanner schneller und zuverlässiger war, und die Qualität entsprechend auch besser, bei Dokumenten. Fotos damit scannen muss man nicht wollen. Ich kann aber nicht sagen, ob das bei heutigen Geräten anders geworden ist.
13.05.2020 21:15:51  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
fatal-x

AUP fatal-x 14.12.2009
 
Zitat von Teh Ortus

 
Zitat von fatal-x

Ich suche ein Programm oder vielleicht auch einfach ein Script für Tesseract, dass folgendes kann:
Aus einem einseitigen PDF jeweils aus einem bestimmten Bereich eine Zahl auslesen und das Dokument mit Zahl-Datum benennt oder am bestenin einen Ordner mit dieser Zahl verschiebt.
Ziel ist es, wenn man in Access die Nummer auswählt, direkt die Ordner/die Datei aufrufen könnte.

Sonstiges auslesen OCR wäre zwar nice to have.



Ist das Dokument immer gleich groß, gleiche Position etc?
Wenn ja: Mit imagemagick aus dem PDF den entsprechenden Abschnitt rausschneiden, das Ergebnis durch tesseract schieben? klingt jetzt erstmal recht simpel


Vielen Dank nochmal, war genau das was ich brauchte.
Alle Arbeitsschritte funktionieren für sich allein schon mal wunderbar und muss nur noch die einzelnen Schritt in ein Script zusammenfassen.
Und Tesseract *mindblown* was man mit sowenig Aufwand für ein Ergebnis bekommt.
15.05.2020 15:49:47  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
D@emon

Arctic
 
Zitat von MCignaz

Ich denke in letzter Zeit ebenfalls nach, meinen Papierkram moeglichst digital zu halten. Offenbar brauche ich einen Dokumentenscanner. Aber da auch mein Drucker recht alt ist dachte ich, nehm ich doch ein Multifunktionsgeraet, das beides kann. Jetzt frag ich mich aber, was ein Dokumentenscanner so kann, was ein gleichteures Multifunktionsgeraet nicht schafft. Konkreter Vergleich waeren die beiden:

HP Laserjet Pro MFP M428fdw
Fujitsu ScanSnap iX1500



Geht's um das Softwarepaket?

Bonusfrage: Macht hier jemand den ganzen Kram unter Linux?



Die wenigen Vorteile der reinen Dokumentenscanner bestehen darin das neben der etwas schnelleren Geschwindigkeit darin das die die Dokumente auch im Duplexverfahren scannen können, sprich die scannen in einem Arbeitsschritte Vorder und Rückseite zugleich. Diese Funktion ist bei den MuFus nur im höherpreisigen Preissegment zu finden. Da musst du jetzt schauen wie deine zu scannenden Dokumente aufgebaut sind. Ist es überwiegend nur die Vorderseite tut es auch ein Billo SoHo Mufu. Ich habe zum Beispiel ein HP Officejet 4263e für 50¤. Kann Duplexdruck, hat neben Flatbed auch ADF und ist auch ziemlich flott. Als Scansoftware nutze ich NAPS2. Ist kostenlos und kann auch OCR.
15.05.2020 16:22:13  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
statixx

AUP statixx 14.11.2023
Lexmark 2442adwe. Scannt und druckt Duplex, Kost nicht mehr als ein reiner Dokumentenscanner. Bin mit dem Ding recht zufrieden. Ocr mach ich mit ocrmypdf.
15.05.2020 18:04:03  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
fatal-x

AUP fatal-x 14.12.2009
Hab mein Batch Datei nun fertig und konnte nun mehrere Scan erfolgreich damit bearbeiten, allerdings im MOment nur auf einen spezifischen Dateinamen 002.tiff

Ich will allerdings natürlich alle tiff Dateien aus einem Ordner nacheinander bearbeitet haben.
Meine simple Idee: Es wird random eine dieser Dateien in einen anderen Ordner verschoben und dort passend umbenannt. Läuft so lange durch, bis es keine Datein mehr im Ursprungsordner gibt.

Mein zweite Idee: Es werden alle Dateien erfasst und nacheinander bearbeitet, bis die "Liste" abgearbeitet ist.

Problem: keine Ahnung wie und auch nichts dazu richtig gefunden.

Batchscript bis jetzt:
https://pastebin.com/R9qTz1EX
paar Schritte sind noch überflüssig, da ich das aus den einzelschritten zusammengebastelt habe. Aber es funktioniert, sogar mit log.
16.05.2020 12:13:33  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
Teh Ortus

UT Malcom
Oha, du machst das mit der Windows CMD? Na viel Spaß Breites Grinsen
Hätte ja, wenns denn Windows sein muss, wenigstens die Powershell genommen. Die hat zwar auch so ihre Eigenheiten, aber immernoch brauchbarer als die CMD Breites Grinsen
16.05.2020 13:00:36  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
[KDO2412]Mr.Jones

[KDO2412]Mr.Jones
Du kannst doch den Dateinamen per Variable rein geben, oder gleich mit "forfiles" arbeiten.
16.05.2020 21:14:14  Zum letzten Beitrag
[ zitieren ] [ pm ] [ diesen post melden ]
 Thema: Fuck you Registratur ( Unterlagen ordnen für Dummies... )
« vorherige 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 16 nächste »

mods.de - Forum » Public Offtopic » 

Hop to:  

| tech | impressum