이미지와 스크린샷 OCR: 어떤 사진에서든 텍스트 추출하기
다른 언어로 된 메뉴판 사진, 스캔한 세금 양식, 긴 오류 메시지 스크린샷 — OCR은 이 모든 것을 선택하고 검색하고 편집할 수 있는 텍스트로 바꿔 줍니다. 어떤 상황에 어떤 OCR 방식을 써야 하는지 알아보세요.
OCR, 즉 광학 문자 인식은 텍스트 사진을 실제 텍스트로 바꿔주는 기술입니다. 예전에는 느리고 오류가 많았으며 깨끗한 흑백 스캔에 맞춰져 있었습니다. 최신 OCR은 스크린샷, 휴대폰 사진, 다국어 메뉴, 손글씨 메모, 바랜 영수증까지 처리합니다. 흥미로운 점은 OCR을 쓸지 말지가 아니라 어떤 OCR 모드를 쓸지입니다. 잘못 고르는 것이 사람들이 나쁜 결과를 얻는 가장 흔한 이유이기 때문입니다.
다섯 가지 흔한 상황과 각각에 맞는 도구
1. 스크린샷이고, 그 안의 일반 텍스트가 필요한 경우
오류 메시지, 코드 스니펫, 채팅 로그처럼 서식은 필요 없고 텍스트만 원할 때가 있습니다. 이미지를 텍스트로를 사용해 결과를 붙여넣으세요. 다크 모드 스크린샷, 노트북 화면을 흐릿하게 찍은 휴대폰 사진 등 읽을 수 있는 것이라면 무엇이든 처리합니다.
2. 표를 찍은 사진
인쇄된 스프레드시트를 휴대폰으로 찍은 사진, 웹 표 스크린샷, 인쇄된 보고서 스캔본. 일반 텍스트 OCR은 사용하지 마세요 — 열이 뭉개집니다. 서식이 적용된 스프레드시트가 필요하면 이미지를 Excel로를, 원시 데이터가 필요하면 이미지를 CSV로를 사용하세요. 둘 다 표 격자를 인식해 행과 열을 그대로 유지합니다.
사진이 이미 깔끔한 표 스크린샷이라면 이미지-HTML이 웹 페이지에 바로 넣을 수 있는 진짜 <table> 요소를 제공하며, 표-JSON으로 추가 변환할 수도 있습니다.
3. 제목과 구조가 있는 문서를 찍은 사진
잡지 기사, 인쇄된 보고서, 여러 페이지 계약서의 경우 일반 텍스트 OCR은 구조를 잃어버립니다. 이미지를 Word로 또는 이미지를 Markdown으로를 사용하세요. Word는 추가로 편집할 수 있는 .docx 파일을 제공하며, 텍스트를 위키, README, 메모 앱에 넣을 때는 Markdown이 더 적합합니다.
4. 읽을 수 없는 언어로 된 텍스트
도쿄의 메뉴판, 카이로의 표지판, 스톡홀름의 라벨 사진. OCR을 한 뒤 수동으로 번역하지 마세요. OCR과 번역을 한 단계로 결합한 이미지 번역기를 사용하세요. 원문, 번역문을 함께 출력하며 약 60개 언어를 인식합니다.
5. 손글씨 메모
화이트보드 사진, 일기장, 강의 노트가 그렇습니다. 일반 OCR은 필기체에서 실패하므로, 이어 쓰고 흘려 쓴 실제 사람의 손글씨에 맞게 조정된 손글씨 OCR을 사용하세요. 흰 종이에 진한 잉크로 쓴 경우 가장 잘 작동하며, 대비가 클수록 결과가 좋아집니다.
한 가지 특수한 경우: PDF로 유지해야 하는 스캔된 PDF
스캔된 PDF를 PDF 그대로 유지하면서 검색만 가능하게 만들고 싶다면 — 예를 들어 특정 조항을 찾아야 하는 스캔된 계약서라면 — Word로 변환하지 마세요. 검색 가능한 PDF를 사용하세요. 이미지 위에 숨겨진 텍스트 레이어를 추가해 PDF는 여전히 스캔본처럼 보이지만 Ctrl-F와 PDF 검색이 작동합니다. 또한 나중에 텍스트를 잃지 않고도 이미지 레이어를 강하게 압축할 수 있습니다.
더 나은 OCR 결과를 얻는 세 가지 규칙
- 대비가 가장 중요합니다. 흰 배경 위의 검은 잉크는 거의 완벽하게 인식됩니다. 흐릿한 잉크, 복잡한 배경, 무늬가 있는 종이는 모두 인식률을 떨어뜨립니다. 촬영을 직접 할 수 있다면 균일하고 고른 조명에서 문서가 프레임을 가득 채우도록 찍으세요.
- 반듯한 것이 비뚤어진 것보다 낫습니다. OCR 엔진은 약간의 기울어짐은 자동으로 보정하지만, (책상 건너편에서 찍은 듯) 비스듬한 사진은 정확도가 떨어집니다. 카메라를 페이지와 평행하게 두세요.
- 해상도는 일정 수준까지만 중요합니다. 약 300 DPI에 해당하는 수준이 가장 좋습니다. A4 한 페이지를 2000픽셀로 찍은 정도입니다. 그 이상으로 해상도를 높이면 OCR이 더 정확해지지는 않고 느려지기만 합니다.
존재조차 몰랐을 특수 OCR 기능
- 영수증 — 영수증 추출기로 거래처, 합계, 세금, 날짜, 품목 내역을 JSON으로 추출하세요. 경비 보고서와 장부 정리를 위해 특별히 만들어졌습니다.
- 명함 — 명함 스캐너로 연락처에 바로 가져올 수 있는 vCard를 생성하세요. 책상 위에 쌓여만 가던 행사 명함 더미를 정리할 수 있습니다.
OCR은 가장 효율이 높은 도구 중 하나입니다. 사진을 읽는 데 걸리던 5분이 5초로 줄어들 수 있습니다. 상황에 맞는 모드를 선택하면 첫 시도에 깔끔하게 편집 가능한 결과가 나옵니다.
Pixoate