추천 게시물

파이썬 이미지에서 글자 추출 코드 (Simple version)

목차

파이썬에서 글자를 추출하는 pkg가 있어서 소개한다. 이 코드로는 딱 글자만 있는 이미지만 추출 가능하다. 그래서 실용성은 조금 떨어지지만 그래도 간혹 필요한 사람이 있을 수 있으니 코드를 공유해 본다. 참고로 그림판으로 손글씨를 써봤는데 인식했다.

Python 사전 설치

Tesseract OCR 설치

Tesseract를 먼저 설치해야 한다. 설치 방법은 운영체제에 따라 다르다.

  • Windows: Tesseract 설치 파일을 다운로드하여 설치.
  • Linux: sudo apt install tesseract-ocr
  • Mac: brew install tesseract

Python 라이브러리 설치

pytesseract와 opencv-python 라이브러리를 설치해야 한다. 이를 위해 다음 명령어를 사용한다.

pip install pytesseract opencv-python

이미지에서 글자 추출 예제

사전 세팅이 끝나면 아래 예제 코드를 참고해서 코드를 만들면 된다.

import cv2
import pytesseract

# Tesseract의 경로 설정 (윈도우에서만 필요)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 이미지 로드
image_path = 'your_image.jpg'  # 이미지 파일 경로
image = cv2.imread(image_path)

# 이미지를 흑백으로 변환
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 이미지 전처리 (이진화 처리)
_, binary_image = cv2.threshold(gray_image, 150, 255, cv2.THRESH_BINARY)

# 글자 추출
extracted_text = pytesseract.image_to_string(binary_image, lang='kor+eng')

# 결과 출력
print("추출된 글자:\n", extracted_text)

# 이미지 출력 (필요 시)
cv2.imshow('Processed Image', binary_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

아래는 내가 손으로 쓴 글자인데 잘 인식한다.

손글자 예제 이미지

댓글