Anonim

Uma das coisas que muitas vezes me frustrou é a incapacidade de copiar facilmente texto de imagens e de certos arquivos PDF (por exemplo, aqueles que podem ter sido criados a partir de documentos digitalizados). Felizmente, ao longo do tempo, foram desenvolvidas soluções de software para solucionar esse problema, permitindo uma economia de tempo significativa que, de outra forma, seria gasta copiando e re-digitando manualmente o texto. Na dica de hoje, vou falar sobre uma ferramenta de software livre chamada Capture2Text que usa um algoritmo de reconhecimento óptico de caracteres (OCR) que permitirá capturar texto de arquivos de imagem e PDF.

Instalação e Configuração

Para começar, vá para a página SourceForge do projeto e baixe a versão mais recente do Capture2Text. O software vem como um arquivo zip e, na época, não inclui um instalador dedicado. Após o download, descompacte o arquivo e inicie o arquivo Capture2Text.exe. Isso iniciará o software e colocará um ícone na bandeja do sistema:

Primeiro, o que você deseja fazer é configurar as preferências do software, especificamente quais teclas de atalho (ou atalhos) usar para iniciar e parar a captura:

No meu caso, escolhi usar as teclas “Windows + q” para iniciar a captura e o “Enter” para interrompê-la. Você pode ajustar essas opções para o que funciona melhor para você. Lembre-se de que a tecla “Windows + s” já é usada com frequência para captura de tela (por exemplo, por programas como o Microsoft One Note).

Na próxima guia, as opções de OCR podem ser configuradas, incluindo o idioma de entrada (atualmente são suportados sete idiomas) e se o pré-processamento de OCR deve ser usado para melhorar a precisão (altamente recomendado). Finalmente, na guia Saída, entre outras opções, pode-se escolher entre salvar o texto capturado na área de transferência ou iniciar uma janela pop-up separada.

Usando o software

Depois que o software estiver instalado e configurado, você poderá começar a usá-lo através da combinação de teclas de atalho iniciar captura. Usando o mouse, selecione a área da imagem que inclui o texto que você deseja capturar. Para interromper a captura, basta pressionar a tecla de atalho que você escolheu para interromper a captura. O texto será copiado para a área de transferência, uma janela pop-up de saída ou ambas. Um exemplo pode ser visto abaixo.

No teste rápido da ferramenta com imagens, achei sua precisão decente. Obviamente, existem limitações para ferramentas como essa e o OCR em geral. Por exemplo, texto muito modificado (muito cursivo, itálico ou moderno) pode não funcionar tão bem e, às vezes, nem funcionar. Além disso, em alguns casos, ajudará a ajustar ligeiramente as dimensões da caixa de captura ou a brincar com o zoom na própria imagem para obter um resultado mais preciso.

Ao capturar texto de documentos PDF digitalizados, a precisão é boa, com algumas modificações finais geralmente ainda necessárias na saída capturada (dependendo da qualidade da digitalização inicial). Além disso, notei que o software pode demorar mais alguns segundos para processar, especialmente quando solicitado a converter grandes quantidades de texto.

No entanto, no geral, acho que a ferramenta faz um bom trabalho, especialmente porque está disponível gratuitamente - encorajo você a experimentá-la.

Adendo 16/11/2015:

Como outra opção, para aqueles que possuem contas do Google, também é possível usar os recursos de OCR do Google carregando um arquivo no seu Google Drive (mais detalhes podem ser encontrados aqui). Além disso, também há um plug-in de OCR disponível para usuários do Google Chrome, chamado Copyfish, que você também pode conferir.

Como capturar texto de imagens com o software ocr