본문으로 바로가기

파이썬 Tesseract 사용하기 -1 : 설치

category Language/Python 2020. 8. 6. 01:46

Tesseract

  • 테서랙트는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다. 
  • Apache License, 버전 2.0, 에 따라 배포되는 무료 소프트웨어이다.
  • 2006년부터 Google에서 개발을 후원했다

 

설치

 

아래 링크를 통해 다운로드합니다.

 

UB-Mannheim/tesseract

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

 

 

설치를 진행합니다.

 

 

한국어를 추가합니다.

 

 

 

설치가 완료 되셨으면 환경변수를 지정해야 하는데요.

 

디폴트 설치경로는 다음과 같습니다. 

C:\Program Files\Tesseract-OCR

 

 

 

다음과 같이 경로를 추가합니다.

 

시스템 속성 > 환경 변수 > Path (더블클릭)

 

 

테스트

 

CMD 나 PowerShell 창을 열어서 다음과 같이 명령어를 입력해봅니다.

환경변수에 경로가 정상적으로 설정되었으면, 명령어가 동작합니다.

 

 

 

다음 이미지를 사용해서 OCR 을 해봅니다.

 

sample.png

 

 

-l 옵션으로 언어를 eng 로 지정하고 명령어를 입력해봅니다.

tesseract 'INPUT IMG FILE' stdout -l eng > 'OUTPUT TEXT FILE'

 

 

한국어 이미지도 테스트해봅니다.

 

sample2.png

 

 

-l 옵션에 kor 를 주었습니다.

tesseract 'INPUT IMG FILE' stdout -l kor > 'OUTPUT TEXT FILE'