Want to create interactive content? It’s easy in Genially!

Get started free

5.1.3

URJC

Created on June 16, 2023

Start designing with a free template

Discover more than 1500 professional designs like these:

Discover Your AI Assistant

Vision Board

SWOT Challenge: Classify Key Factors

Explainer Video: Keys to Effective Communication

Explainer Video: AI for Companies

Corporate CV

Flow Presentation

Transcript

Reconocimiento óptico
de caracteres
Optikal na Rekognisyon
ng mga Karakter
Optical Character
recognition

English

Filipino

Español

Esta obra, cuyos autores son Guillermo Laín Corona, Clara Isabel Martínez Cantón y María Dolores Martos Pérez, está bajo una licencia de Reconocimiento-Compartir Igual 4.0 Internacional de Creative Commons.

Para lograr que un texto en un formato no legible, como una fotografía en JPG, se convierta en un formato legible, hay que usar lo que se conoce como reconocimiento óptico de caracteres, es decir, OCR, según las siglas en inglés).

Para lograr que un texto en un formato no legible, como una fotografía en JPG, se convierta en un formato legible, hay que usar lo que se conoce como reconocimiento óptico de caracteres, es decir, OCR, según las siglas en inglés.

Hay opciones de OCR sencillas, como el OCR integrado en la versión profesional de Adobe Acrobat, que es de pago (la versión libre no incluye esta ni otras funciones).

Para practicar, vamos a la base de datos de Filiteratura. En “Periódicos y revistas” seleccionamos la revista «Cultura Filipina» y la descargamos.

Se puede pinchar sobre la imagen, en cuyo caso tendremos la opción de descargar la primera página, o se puede pinchar sobre el título, que abre un espacio desde donde se pueden descargar todas las páginas.

Lo que obtenemos son archivos de imagen PNG, que no permiten tratar el texto. Si cerramos el archivo, con la versión de pago de Adobe Acrobat podemos convertirlo en PDF con el menú del botón derecho del ratón.

Hecho esto, podemos abrirlo en Adobe Acrobat, ir a “Herramientas” y elegir “Digitalizar y OCR” . Entonces, hay que elegir en “Reconocer texto” la opción “En este archivo” , y luego volver a pinchar en “Reconocer texto” . Esto convierte la imagen en PDF legible.

Sin embargo, se producen fallos. Si copiamos un sintagma y lo pegamos en otro lado, la transcripción incluye faltas ortotipográficas. Por tanto, si intentamos buscar una palabra en esta versión legible del PDF no la vamos a encontrar.

Por estos fallos y por ser una herramienta de pago, es preferible convertir una imagen en texto legible con otras herramientas como Transkribus, que explicamos a continuación.

Upang maitransporma ang isang teksto na nasa format na di-nababása, kagaya ng isang retratong JPG, , kailangang gamitin ang kung tawagin ay , tinatawag na OCR batay sa inisyal nito sa Ingles

sa isang format na nababása

optikal na rekognisyon ng karakter

Upang maitransporma ang isang teksto na nasa format na di-nababása, kagaya ng isang retratong JPG, , kailangang gamitin ang kung tawagin ay , tinatawag na OCR batay sa inisyal nito sa Ingles

May mga simpleng opsiyong OCR, kagaya ng OCR na nakakabit sa propesyonal na bersiyon ng na binabayaran (wala ito at ang iba pang mga katangian sa libreng bersiyon).

sa isang format na nababása

Adobe Acrobat,

optikal na rekognisyon ng karakter

Upang mag-ensayo, magtungo tayo sa batayang datos ng Filiteratura. Sa "Periódicos y revistas" (Mga pahayagan at mga Magasin), piliin ang magasing «Cultura Filipina» at i-download ito.

Puwedeng iklik ang imahen, sa kasong ito may opsiyon tayong i-download ang unang pahina, o puwede ring iklik ang pamagat na magbubukas sa isang espasyo na puwedeng mai-download ang lahat ng pahina.

Ang makukuha natin ay mga file ng imaheng PNG, na hindi nagpapahintulot na maproseso ang teksto. Kapag isinara ang file, gamit ang binayarang bersiyon ng Adobe Acrobat, sa pamamagitan ng menu kapag nag-right-click sa mouse.

puwede itong gawing PDF

Kapag nagawa na ito, puwede nang mabuksan sa pamamagitan ng magtungo sa mga Kasangkapan (Tools) at piliin ang Pagsasadihital (Digitalize) at OCR. Pagkaraan, piliin sa Kilalanin ang teksto (Recognize text) ang opsiyon na Sa file na ito (In this file), at iklik muli ang Kilalanin ang teksto (Recognize text).

Adobe Acrobat,

Magagawa nito na maging isang nababásang PDF ang imahen.

Gayunman, Kapag kumopya tayo ng isang parirala at inilagay ito sa kung saan, nagkakaroon sa transkripsiyon ng Kayâ kapag sinubok nating maghanap ng isang salita sa bersiyong ito ng nababásang PDF, hindi natin makikita.

nagkakaroon ng mga pagkakamali.

mga kamaliang ortograpiko.

Dahil sa mga pagkakamaling ito at dahil sa pagiging kasangkapan na kailangang bayaran para magamit, higit na mainam na ilagay ang imahen sa ibang format na nababása gamit tulad ng na kasunod na ipaliliwanag.

ang ibang kasangkapan,

Transkribus

In order to convert text in a non-readable format, such as a JPG photograph, into a readable format , one needs to use what is known as optical character recognition (OCR).

In order to convert text in a non-readable format, such as a JPG photograph, into a readable format, one needs to use what is known as optical character recognition (OCR).

There are simple OCR options, such as the OCR built into the paid professional version of Adobe Acrobat (the free version does not include this and other features).

To practice, let us go to the Filiteratura database. Under Periódicos y revistas (Newspapers and Magazines), choose the magazine Cultura Filipina and download it.

You may click on the image; in which case we have the option of downloading the first page. You may also click on the title which will lead to a page from which you can download all the pages.

What we get are PNG image files, which do not allow text processing. If we close the file, with the paid version of Adobe Acrobat, we can convert it to PDF through the menu that appears when we right-click on the mouse.

Once this is done, we can open it in Adobe Acrobat, go to Tools and choose Scan and OCR. Then, under Recognize text, choose the option In this file, and then click on Recognize text again. This converts the image into a readable PDF.

However, errors do occur. If we copy a phrase and paste it somewhere else, what is transcribed has been extracted with spelling mistakes. Therefore, if we try to look for a word in this readable version of the PDF we will not find it.

For these errors and for being a tool that requires payment to be used, it is preferable to convert an image into a readable text using other tools , such as Transkribus, explained next.