Mais
×

Como usar o Tesseract OCR em Java

Atualizado em 19 julho, 2017

As bibliotecas de reconhecimento óptico de caracteres Tesseract oferecerem aos desenvolvedores um método para escanear documentos e textos em uma imagem. Elas são usadas para armazenar imagens de documentos que você não precisa mais em papel. Você pode utilizá-las em Java, criando laços de controle para cada caractere e escrevendo cada um em um arquivo. Para usar as bibliotecas Tesseract, você deve incluir o "namespace" Java para as funções OCR.

Instruções

Bibliotecas Tesseract permitem aos usuários digitalizarem seus documentos (John Foxx/Stockbyte/Getty Images)
  1. Clique com o botão direito no arquivo Java que você deseja usar para criar o documento OCR. Clique em "Abrir com" e selecione o editor Java de sua preferência.

  2. Adicione o "namespace" da biblioteca OCR no topo do arquivo. Copie e cole o seguinte código ao seu arquivo de código-fonte:

    com.tplan.robot.imagecomparison.tesseractocr

  3. Crie o código responsável por escanear caracteres para um arquivo. Por exemplo, o seguinte código cria laços através de cada caractere em um arquivo e os escreve em um arquivo de imagem:

    Var lines=0 Compareto method="tocr" cmparea="x:33,y:2,w:200,h:22" for (i=1; {i}<{lines}+1; i={i}+1) { Typeline "{_TOCR_LINE{i}}" }

  4. Clique no botão "Save" (Salvar) do editor e clique em "Run" (Executar) para executar o código num compilador Java.

Cite this Article A tool to create a citation to reference this article Cite this Article