728x90
Tesseract
- 테서랙트는 다양한 운영 체제를 위한 광학 문자 인식 엔진이다.
- Apache License, 버전 2.0, 에 따라 배포되는 무료 소프트웨어이다.
- 2006년부터 Google에서 개발을 후원했다
설치
아래 링크를 통해 다운로드합니다.
설치를 진행합니다.
한국어를 추가합니다.
설치가 완료 되셨으면 환경변수를 지정해야 하는데요.
디폴트 설치경로는 다음과 같습니다.
C:\Program Files\Tesseract-OCR
다음과 같이 경로를 추가합니다.
시스템 속성 > 환경 변수 > Path (더블클릭)
테스트
CMD 나 PowerShell 창을 열어서 다음과 같이 명령어를 입력해봅니다.
환경변수에 경로가 정상적으로 설정되었으면, 명령어가 동작합니다.
다음 이미지를 사용해서 OCR 을 해봅니다.
-l 옵션으로 언어를 eng 로 지정하고 명령어를 입력해봅니다.
tesseract 'INPUT IMG FILE' stdout -l eng > 'OUTPUT TEXT FILE'
한국어 이미지도 테스트해봅니다.
-l 옵션에 kor 를 주었습니다.
tesseract 'INPUT IMG FILE' stdout -l kor > 'OUTPUT TEXT FILE'
'Language > Python' 카테고리의 다른 글
파이썬 추상 클래스(abc) 사용하기 (0) | 2020.08.10 |
---|---|
파이썬 Tesseract 사용하기 -2 : 패키지 설치 / 예제 (0) | 2020.08.06 |
파이썬 wav 음악파일 재생하기 : pyaudio (0) | 2020.08.04 |
파이썬 sqlite3 사용하기 -3 : 컬럼에 자동 타임스탬프 찍기 (0) | 2020.07.21 |
파이썬 Queue 모듈 다루기 (0) | 2020.07.21 |