Language/Python
파이썬 Tesseract 사용하기 -1 : 설치
jvvp512
2020. 8. 6. 01:46
728x90
Tesseract
- 테서랙트는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다.
- Apache License, 버전 2.0, 에 따라 배포되는 무료 소프트웨어이다.
- 2006년부터 Google에서 개발을 후원했다
설치
아래 링크를 통해 다운로드합니다.
설치를 진행합니다.
한국어를 추가합니다.
설치가 완료 되셨으면 환경변수를 지정해야 하는데요.
디폴트 설치경로는 다음과 같습니다.
C:\Program Files\Tesseract-OCR
다음과 같이 경로를 추가합니다.
시스템 속성 > 환경 변수 > Path (더블클릭)
테스트
CMD 나 PowerShell 창을 열어서 다음과 같이 명령어를 입력해봅니다.
환경변수에 경로가 정상적으로 설정되었으면, 명령어가 동작합니다.
다음 이미지를 사용해서 OCR 을 해봅니다.
-l 옵션으로 언어를 eng 로 지정하고 명령어를 입력해봅니다.
tesseract 'INPUT IMG FILE' stdout -l eng > 'OUTPUT TEXT FILE'
한국어 이미지도 테스트해봅니다.
-l 옵션에 kor 를 주었습니다.
tesseract 'INPUT IMG FILE' stdout -l kor > 'OUTPUT TEXT FILE'