Google Docs ha introdotto una nuova funzione molto interessante: l’estrazione di testo da files pdf o di tipo immagine.  

L'OCR di Google Docs

L'OCR di Google Docs

Al momento del caricamento di un file compare infatti ora un’opzione che dice “Converti testo da file PDF o file di immagine nel formato di Google Documenti”. Il sistema prende il file di tipo PDF o JPEG, GIF, PNG e lo converte in documento di testo, cercando anche di conservare la formattazione (funzionalità non ottimizzata al 100%).  

Il file originale viene conservato all’interno del nuovo documento in  modo che sia più semplice correggere il testo convertito. Le lingue supportate sono: inglese, francese, italiano, tedesco e spagnolo, con molte altre lingue in arrivo.  

La tecnologia OCR deriva da quella utilizzata da Google Books per scansionare i libri liberi da diritti d’autore.  

La prova effettuata dai ragazzi di Google Operating System non ha visto un buon risultato nella conversione: il 10% del testo non è stato riconosciuto correttamente: la percentuale però non è molto diversa da quella prodotta da un altro OCR online.  

[Via: Google Docs Blog, Google Operating System]