Uma tarefa de OCR para PDF em Texto tipicamente requer várias ferramentas para passar dum formato para o outro. Normalmente, se um PDF tem por base texto, então ele já é editável e pesquisável. Mas e se o seu PDF foi criado a partir duma imagem ou fotografia de notas escritas à mão ou simplesmente dum texto digital? Nessa situação, ele não pode ser pesquisado nem editado, a menos que primeiro você o converta para um formato baseado em texto. Este é o objetivo dum OCR, que reconhece os caracteres e os dispõe como texto imprimível, editável e pesquisável. Continue lendo para aprender as três formas de converter um PDF em texto usando a tecnologia OCR.
Método 1: Como Converter um PDF em Texto com OCR
De longe, a forma mais fácil de converter um PDF em texto que pode ser editado e pesquisado é usar o PDFelement. Ele é um aplicativo descomplicado para edição de PDF, conversão de PDF, assinatura, segurança, formulários, OCR e outros itens básicos e também tarefas avançadas. A interface elegante torna-o fácil de utilizar. Os controles intuitivos facultam as ferramentas exatas para a edição, anotação e outras ferramentas que você necessita ao realizar uma tarefa. Como exemplo, quando você importa um PDF escaneado para o PDFelement, o plug-in de OCR aciona-se automaticamente e pede que você o ative para executar o OCR. É aí que o primeiro passo do processo começa.
Passo 1. Clique em "Executar OCR"
O arquivo pode ser importado com um simples arrastar e soltar do mouse ou usando a opção "Abrir Arquivo…" do menu. Assim que ele estiver aberto, você verá uma barra de notificação perguntando se você deseja "Executar o OCR" no documento.
Passo 2. Configurações para o OCR
Quando você clicar nesse botão, será pedido que você baixe e ative o plug-in, caso você ainda não o tenha feito.
O próximo passo é ajustar as suas configurações, como alterar as especificações de idioma para que seja mais fácil para o software detectar o idioma durante a conversão. Por fim, escolha qual tipo de documento de destino que você deseja – um PDF pesquisável ou um PDF editável – e confirme a conversão clicando em "OK".
Passo 3. Editando o Texto após o OCR
Assim que ele tiver sido convertido, você pode clicar na aba "Editar" e ver que todos os elementos agora são editáveis – ou somente pesquisáveis, com base na opção que você escolheu no passo anterior. Se estiver no modo de edição, você pode alterar o texto, as imagens e outros elementos conforme você faria em qualquer documento PDF normal.
Passo 4. Se Precisar Converta o PDF em TXT
Se for preciso, você pode até converter o PDF alterado num documento de texto de verdade com uma extensão .txt. Basta ir ao menu "Converter" e clicar no botão "Para Texto".
Por que Deve Escolher o PDFelement?
Você não necessita usar nenhuma outra ferramenta para além do PDFelement em todo o processo mostrado acima, e esse é um dos motivos pelas quais ele é uma ferramenta de melhoria de produtividade. Nós já vimos alguns dos seus recursos como a edição de texto e imagem e o OCR. Mas o PDFelement, na verdade, vai mais além disso, permitindo que você faça extensas anotações, conversões superprecisas entre PDF e outros formatos, criação de formulários totalmente interativos a partir de conteúdo baseado em imagem, gerenciamento de páginas e arquivos de PDF, aplicação de elementos de segurança e muito mais. Como o software foi concebido para ser usado em diversas plataformas como o Windows, macOS, iOS e Android, você verá um traço em comum passando pelo tema design. No entanto, você também irá notar vários recursos específicos da plataforma como suporte de toque nos aplicativos móveis e assim por diante. Para lém disso, você pode acessar e armazenar na nuvem, podendo literalmente levar os seus documentos consigo aonde você for, sem precisar que eles estejam na sua memória local.
Método 2: Como Converter um PDF em Texto com OCR On-line Grátis
Se você estiver buscando um método menos intrusivo que não inclua ter de baixar e instalar um aplicativo, você pode considerar um serviço on-line como o hiPDF. Tudo o que você precisa fazer é entrar no website e carregar o seu documento para o mesmo ser convertido pelo OCR. Mais alguns passos adicionais e tudo estará pronto em poucos minutos. Veja o que você necessita efetuar:
- 1. Entre no website do hiPDF e clique no menu "OCR" no cabeçalho superior. Depois clique no botão "Escolher Arquivo" ou simplesmente arraste e solte o seu arquivo na aba do navegador para o carregar.
- 2. Altere o idioma para combinar com o texto do documento e escolha o seu formato de arquivo de destino. Aqui, você pode alterá-lo para um arquivo .txt.
- 3. Clique no botão "Converter" e aguarde até o seu arquivo convertido esteja disponível.
Este recurso só está disponível para usuários do hiPDF com subscrição Pro, e ele vem com o aplicativo desktop que nós mostramos no Método 1 acima. Esta é uma das formas mais rápidas e precisas de utilizar o OCR num PDF escaneado ou documento que tem por base uma foto.
Método 3: Como Usar o Google OCR para Converter um PDF em Texto
O método final mostrado aqui é o Google OCR, que é essencialmente uma função que está integrada ao conjunto de recursos do Google Drive. Quando você faz carrega um documento compatível com o Drive, como um PDF, e depois o abre com um aplicativo nativo como o Google Docs, o componente OCR entra em cena para "ler" e converter o seu documento num conteúdo de texto editável. Veja como isso funciona:
- 1. Pegue um PDF que tenha por base uma imagem ou um PDF escaneado e carregue-o no Google Drive. Você pode efetuar isto usando a opção "Novo" → "Arquivo".
- 2. Dentro do menu de itens do Drive, clique com o botão direito no documento transferido e selecione "Abrir com Google Docs".
- 3. Como o Google Docs não é um leitor ou editor de PDF, ele irá converter o arquivo usando o Google OCR para um arquivo Docs baseado em texto e editável. Agora você pode editar ou extrair as informações copiando-as para outro documento.
- 4. Alternativamente, agora você pode convertê-lo num formato diferente como PPT ou HTML usando a opção "Arquivo" → "Baixar Como" no menu principal.
Embora este método seja gratuito, ele nem sempre funciona com todos os tipos de texto. Por exemplo, se você tiver caracteres não latinos no seu arquivo, eles podem não ser reconhecidos apropriadamente, tenha sido escolhida embora a configuração de idioma correta. Este e outros problemas podem impedir o uso do Google OCR para fins intensos, mas você ainda pode conseguir uma qualidade de conversão razoavelmente boa com esta ferramenta. A melhor opção seria o PDFelement, que não apresenta o risco de segurança dum serviço on-line ou baseado em nuvem.