5 Bibliotecas open source para reconhecimentos de objetos e OCR

Quando desejamos extrair informações de imagens ou vídeos, a maior dificuldade está no reconhecimento das informações, separar um texto com uma imagem no fundo pode parecer uma tarefa muito difícil. Porém não é, hoje possuímos muitas bibliotecas que podem nos auxiliar nestas tarefas e fazer isto com apenas algumas linhas de código. E o melhor de tudo, de graça.

OCR

OCR é um acrónimo para o inglês Optical Character Recognition, é uma tecnologia para reconhecer caracteres a partir de uma imagem. Com estudos desde 1950 hoje ele possui um estágio de evolução bem avançado, possuindo algumas ferramentas bem consolidadas.

Muito importante na utilização destas bibliotecas é o tratamento das imagens, é comum surgirem ruídos após a extração, este podem ser reduzidos seguindo algumas práticas abordadas pelas próprias documentações, como por exemplo, deixar a imagem em tons de cinza e aumentar o Canal Alfa dos elementos.

1 – Tesseract OCR

Originalmente desenvolvido pela Hewlett-Packard e por um tempo mantido pelo Google. Atualmente o projeto está hospedado no GitHub. Sua primeira versão esteve disponível para utilização na linguagem C, hoje ele já possui sua versão em Python. Com ele é possível transformar imagens de múltiplos formatos para um texto de saída simples.

2 – GOCR

Desenvolvido por Jörg Schulenburg em meados dos anos 2000. O GOCR pode ser usado como um aplicativo de linha de comando independente ou como back-end para outros programas. Ele vem com uma interface gráfica gocr.tcl.

3 – Kraken

Projeto mais modesto porém com muito potencial para crescimento. Uma de suas principais características é a análise de layout totalmente treinável e o suporte para reconhecimento de multi-script.

Reconhecimento de objetos

O reconhecimento de objetos consiste no conceito de visão computacional, permitir que os computadores interpretem visualmente informações, neste caso, ser capaz de reconhecer objetos pré-definidos ou não. Este campo de pesquisa permite reconstruções de cena, detecção de eventos, reconhecimento de objetos, aprendizagem de máquina, restauração de imagens entre outros.

4 – OpenCv

Desenvolvida pela Intel, em 2000. É totalmente livre ao uso acadêmico e comercial, para o desenvolvimento de aplicativos na área de Visão computacional. Possui módulos de Processamento de Imagens e Video I/O, Estrutura de dados, Álgebra Linear, GUI, além de mais de 350 algoritmos de Visão computacional como: Filtros de imagem, calibração de câmera, reconhecimento de objetos, análise estrutural e outros.

5 – BoofCV

Suas funcionalidades cobrem uma variedade de assuntos, processamento de imagem de baixo nível, calibração de câmera, detecção / rastreamento de recursos, estrutura de movimento, detecção fiducial e reconhecimento.

Conclusão

Hoje, diferente de apenas alguns anos atrás, possuímos a disponibilidade de diversas ferramentas para realizarmos ideias que por muito achamos não realistas, por serem muito avançadas tecnologicamente ou acharmos que não possuímos os recursos necessários.

Se trata apenas de uma ilusão criada por nós mesmos, temos uma gama enorme de possibilidades disponibilizadas gratuitamente e que podemos até mesmo contribuir para melhorias de código e performance. Bibliotecas de reconhecimento de objetos e OCR são aplicáveis em diversos projetos de variadas áreas e cada vez mais estarão presentes em nossas vidas.

Autor: Fernando Waldow Martens

Referencias

https://www.hitechnectar.com/blogs/open-source-ocr-tools/#:~:text=A9T9-,Tesseract,available%20open-source%20systems%20available

https://medium.com/data-hackers/ocr-da-introdu%C3%A7%C3%A3o-%C3%A0-aplica%C3%A7%C3%A3o-359c9aff56f3

https://pt.wikipedia.org/wiki/Reconhecimento_%C3%B3tico_de_caracteres

https://pt.wikipedia.org/wiki/OpenCV

https://github.com/tesseract-ocr/tesseract

Sem comentários

Deixe uma resposta