Cum copiezi un text dintr-un pdf

Zilele acestea am avut nevoie să copiez un text dintr-un pdf în Word și apoi să-l prelucrez. Ceea ce părea inițial o treabă simplă, s-a dovedit destul de anevoiasă, și m-am gândit să vă spun ce puteți face atunci când vă aflați în situația mea.

formate fișiere

Dacă intrăm pe Wikipedia, găsim următoarea introducere la formatul pdf:

Portable Document Format (PDF), standardized as ISO 32000, is a file format developed by Adobe in 1992 to present documents, including text formatting and images, in a manner independent of application software, hardware, and operating systems. Based on the PostScript language, each PDF file encapsulates a complete description of a fixed-layout flat document, including the text, fonts, vector graphics, raster images and other information needed to display it. PDF has its roots in "The Camelot Project" initiated by Adobe co-founder John Warnock in 1991.

Pdf este un format mai "șmecher", care conține text ce poate fi încapsulat în imagini sau mai dificil de extras printr-o operație tipică de Copy/Paste. În acest caz, vă puteți trezi că anumite caractere se copiază greșit. Ce puteți face? Soluția o constituie utilizarea unui program de extracție a caracterelor dintr-un pdf pe bază de tehnologie OCR (optical character recognition), cum este FreeOCR. Nici acesta nu va fi perfect, dar cel puțin va corecta o mare parte din erorile ce apar la unele fișiere pdf atunci când vreți să copiați cu metoda Copy/Paste.

Pentru mine ăsta e un domeniu nou, așa că pe viitor sper să colectez mai multe informații și poate să găsesc aplicații mai bune decât FreeOCR, dar până atunci, FreeOCR rămâne un program simplu, care se poate instala chiar și pe calculatoarele mai vechi și este gratuit.

0 comentarii

Pentru afișarea avatarului, utilizați un cont Google. Nu faceți reclamă: comentariile cu linkuri spre magazine online (inclusiv pe nick) vor fi marcate cu spam. Lucru pe care probabil nu-l doriți, dacă ne gândim că blogul de față e găzduit de Google.

Comentarii

ZeList

Arhivă