Mercoledì, 23 Giugno 2010
Google Docs supporta l’estrazione del testo da immagini e pdf
pubblicato da:
paolos in: OCR
Google Docs ha introdotto una nuova funzione molto interessante: l’estrazione di testo da files pdf o di tipo immagine.
Al momento del caricamento di un file compare infatti ora un’opzione che dice “Converti testo da file PDF o file di immagine nel formato di Google Documenti”. Il sistema prende il file di tipo PDF o JPEG, GIF, PNG e lo converte in documento di testo, cercando anche di conservare la formattazione (funzionalità non ottimizzata al 100%).
Il file originale viene conservato all’interno del nuovo documento in modo che sia più semplice correggere il testo convertito. Le lingue supportate sono: inglese, francese, italiano, tedesco e spagnolo, con molte altre lingue in arrivo.
La tecnologia OCR deriva da quella utilizzata da Google Books per scansionare i libri liberi da diritti d’autore.
La prova effettuata dai ragazzi di Google Operating System non ha visto un buon risultato nella conversione: il 10% del testo non è stato riconosciuto correttamente: la percentuale però non è molto diversa da quella prodotta da un altro OCR online.
|
|










Commenta l'articolo