PDF

PDF를 Word로: 어떤 변환 도구가 실제로 서식을 유지해 줄까?

대부분의 PDF-Word 변환기는 표를 망가뜨리거나, 글꼴을 뒤죽박죽으로 만들거나, 이미지를 아예 건너뜁니다. 좋은 변환기의 조건, 스캔된 PDF에 OCR이 필요한 이유, 그리고 온갖 종류의 PDF를 다루는 방법을 알아보세요.

Pixoate 팀8 분 소요

PDF는 모든 기기에서 동일하게 보이도록 설계되었습니다. 이것이 PDF의 큰 강점이자 편집하기 까다로운 이유입니다. PDF를 Word로 변환할 때는 도구에게 문서를 역설계하도록 요청하는 셈입니다. 즉, 어떤 글자가 어느 단락에 속하는지, 표가 어디 있는지, 제목이 무엇인지, 무엇이 각주이고 무엇이 아닌지를 파악하게 하는 것이죠. 어떤 변환기는 이를 잘 처리합니다. 대부분은 형편없이 처리하고요.

간단한 결정 흐름과 함께, 정말 좋은 변환기를 만드는 요소가 무엇인지 알아보세요.

첫 번째 질문: 이 PDF는 진짜 PDF인가요, 아니면 스캔본인가요?

PDF 뷰어 안에서 마우스로 텍스트를 선택할 수 있다면 실제 텍스트가 들어 있는 진짜 PDF입니다. 선택할 수 없고 텍스트가 이미지처럼 동작한다면, 겉보기에 그렇지 않더라도 스캔본입니다. 변환 방식이 완전히 다릅니다.

실제 PDF의 경우

PDF를 Word로 변환하면 포함된 텍스트와 레이아웃을 읽어 들인 다음 .docx로 다시 구성합니다. 좋은 변환기는 단락, 제목, 목록, 간단한 표, 인라인 이미지를 보존합니다. 일반적인 사무용 문서는 깔끔하게 편집 가능한 상태로 나옵니다.

스캔된 PDF의 경우

먼저 OCR이 필요합니다. OCR을 켠 PDF를 텍스트로 변환하면 원본 텍스트를 얻을 수 있고, 서식이 있는 구조화된 문서가 필요하다면 각 페이지에 이미지를 Word로 변환을 사용하세요(또는 PDF 전체를 한 번에 처리할 수도 있습니다). 결과물이 스캔본과 똑같아 보이지는 않지만, 텍스트는 편집할 수 있고 구조는 유지됩니다.

변환기가 흔히 놓치는 부분

대표적인 실패 사례를 대략 발생 순서대로 정리하면 다음과 같습니다:

  • 표가 텍스트 상자가 됩니다. 품질이 떨어지는 변환기는 각 셀을 떠다니는 요소로 바꿉니다. 표는 제대로 보이지만 실제로 표로서 편집할 수는 없습니다.
  • 다단 레이아웃이 무너집니다. 2단 뉴스레터가 단일 단으로 바뀌면서 두 단의 텍스트가 어색하게 뒤섞입니다.
  • 글꼴이 조용히 대체됩니다. PDF가 Word에 없는 글꼴을 사용하면 비슷한 글꼴이 적용되지만 동일하지는 않으며, 줄바꿈 위치가 어긋납니다.
  • 각주가 분리됩니다. 각주 텍스트가 표시 기호와의 연결이 끊긴 채 페이지 하단에 동떨어진 단락으로 남습니다.
  • 머리글과 바닥글이 본문 텍스트가 됩니다. 쪽 번호, 머리글, 바닥글이 본문 흐름 중간에 단락으로 들어옵니다.

좋은 변환기가 하는 일

기준은 알아볼 수 있는 레이아웃, 편집 가능한 표, 보존된 목록, 그리고 배치한 자리에 그대로 남아 있는 인라인 이미지입니다. Pixoate의 PDF를 Word로는 계약서, 보고서, 양식, 서신 등 대부분의 사무용 PDF에서 그 기준을 충족합니다. 표 그리드를 감지하여 텍스트 상자가 아닌 실제 Word 표로 재구성하는 레이아웃 인식 파이프라인을 사용합니다. 헤딩은 계층 구조를 유지합니다. 글머리 기호와 번호 목록은 목록처럼 보이는 텍스트 줄이 아니라 실제 목록으로 변환됩니다.

반대 방향으로 변환하기

Word 문서에서 PDF를 생성하면서 Word에서 보이는 그대로 만들고 싶다면 Word-PDF를 사용하세요. 실제 LibreOffice 렌더링 과정을 거치므로, Word에서 "PDF로 저장"을 클릭했을 때와 동일한 결과물이 나옵니다 — 글꼴 포함, 레이아웃 유지, 의외의 변화 없음.

알아두면 좋은 다른 형식들

  • PDF에서 HTML로 — 웹 페이지가 필요할 때 적합합니다. PDF에서 HTML로는 실제 <table> 요소와 제목을 유지하므로, 결과물이 마크업으로 감싼 스크린샷이 아니라 읽을 수 있는 HTML이 됩니다.
  • PDF에서 Excel로 — PDF가 대부분 표로 이루어져 있을 때 적합합니다. PDF에서 Excel로는 각 표를 머리글이 고정된 별도 시트로 추출합니다.
  • PDF에서 CSV로 — 다른 곳으로 가져올 원시 표 데이터에 적합합니다. PDF에서 CSV로는 표마다 하나씩 CSV를 만들어 압축해 줍니다.
  • PDF에서 이미지로 — 슬라이드 덱이나 포트폴리오처럼 각 페이지를 PNG로 만들어야 할 때 적합합니다. PDF에서 이미지로는 기본적으로 200 DPI로 렌더링합니다.

변환을 포기하고 그냥 PDF로 보내야 할 때

받는 쪽이 PDF를 읽거나 인쇄하기만 하면 된다면 변환하지 마세요. 대신 PDF 압축으로 압축해 PDF를 그대로 보내세요. 변환은 편집이 필요할 때를 위한 것입니다. 편집할 필요가 없다면 품질만 떨어뜨릴 수 있는 단계를 괜히 추가하는 셈입니다.

이런 글도 좋아하실 거예요