PDF sang Word: công cụ chuyển đổi nào thực sự giữ được định dạng của bạn?
Hầu hết các công cụ chuyển PDF sang Word đều phá vỡ bảng biểu, làm lộn xộn phông chữ hoặc bỏ qua hoàn toàn hình ảnh. Đây là điều làm nên một công cụ chuyển đổi tốt, lý do PDF scan cần OCR và cách xử lý mọi loại PDF.
PDF được thiết kế để trông giống hệt nhau trên mọi thiết bị. Đó là điểm mạnh lớn của nó và cũng là lý do khiến nó khó chỉnh sửa. Khi bạn chuyển PDF sang Word, bạn đang yêu cầu một công cụ phải dò ngược lại tài liệu — xác định ký tự nào thuộc đoạn văn nào, bảng nằm ở đâu, đâu là tiêu đề, đâu là chú thích cuối trang và đâu thì không. Một số công cụ chuyển đổi làm tốt việc này. Phần lớn làm rất tệ.
Đây là một sơ đồ quyết định nhanh, và điều gì làm nên một trình chuyển đổi thực sự tốt.
Câu hỏi đầu tiên: PDF này là PDF thực thụ hay là bản quét?
Nếu bạn có thể bôi đen văn bản bằng chuột trong trình đọc PDF thì đó là PDF thật với nội dung văn bản thực sự. Nếu không thể — nếu văn bản hành xử như một hình ảnh — thì đó là tài liệu quét, dù trông không giống vậy. Cách chuyển đổi hoàn toàn khác nhau.
Với PDF thực sự
PDF sang Word đọc văn bản và bố cục được nhúng, sau đó dựng lại thành một tệp .docx. Các bộ chuyển đổi tốt sẽ giữ nguyên các đoạn văn, tiêu đề, danh sách, bảng đơn giản và ảnh chèn trong dòng. Các tài liệu văn phòng thông thường cho ra kết quả chỉnh sửa được một cách gọn gàng.
Với PDF được quét
Bạn cần OCR trước. PDF sang văn bản với OCR được bật sẽ cho bạn văn bản thô; còn với một tài liệu có cấu trúc và định dạng, hãy dùng ảnh sang Word trên từng trang (hoặc đưa cả tệp PDF qua). Kết quả sẽ không trông giống hệt bản quét, nhưng văn bản sẽ chỉnh sửa được và cấu trúc được giữ nguyên.
Những điều mà các công cụ chuyển đổi làm sai
Những lỗi thường gặp, theo thứ tự đại khái mà chúng xảy ra:
- Bảng biến thành hộp văn bản. Các trình chuyển đổi kém biến mỗi ô thành một phần tử trôi nổi. Bảng trông có vẻ đúng; nhưng bạn không thể chỉnh sửa nó như một bảng thực sự.
- Bố cục nhiều cột bị sụp đổ. Một bản tin hai cột trở thành một cột với nội dung của cả hai cột đan xen vào nhau một cách lộn xộn.
- Phông chữ bị thay thế ngầm. Nếu PDF của bạn dùng một phông chữ mà Word không có, bạn sẽ nhận được phông gần giống — nhưng không y hệt — và các ngắt dòng bị xê dịch.
- Chú thích cuối trang bị tách rời. Nội dung chú thích cuối cùng trở thành một đoạn văn lạc lõng ở cuối trang, không còn liên kết với dấu đánh dấu nữa.
- Đầu trang và chân trang trở thành nội dung chính. Số trang, đầu trang và chân trang bị chuyển thành các đoạn văn nằm giữa mạch nội dung.
Một công cụ chuyển đổi tốt làm được gì
Tiêu chuẩn ở đây là bố cục dễ nhận biết, bảng có thể chỉnh sửa, danh sách được giữ nguyên, và ảnh inline nằm đúng vị trí bạn đặt. Công cụ PDF sang Word của Pixoate đạt được tiêu chuẩn đó với hầu hết các PDF dạng văn phòng: hợp đồng, báo cáo, biểu mẫu, thư từ. Nó sử dụng quy trình nhận biết bố cục để phát hiện lưới bảng và tái dựng chúng thành bảng Word gốc, không phải hộp văn bản. Các tiêu đề giữ nguyên cấp bậc. Danh sách dấu đầu dòng và danh sách đánh số được chuyển thành danh sách thực sự, chứ không phải các dòng văn bản trông giống danh sách.
Chuyển đổi theo chiều ngược lại
Nếu bạn đang tạo PDF từ tài liệu Word (và muốn nó trông y hệt như trong Word), hãy dùng Word sang PDF. Nó chạy một lượt kết xuất LibreOffice thực sự, nên kết quả khớp với những gì bạn nhận được khi nhấp "Lưu dưới dạng PDF" trong Word — phông chữ được nhúng, bố cục được giữ nguyên, không bất ngờ.
Các định dạng khác đáng biết
- PDF sang HTML khi bạn muốn một trang web. PDF sang HTML giữ nguyên các phần tử
<table>và tiêu đề thực sự, nên kết quả là HTML đọc được, chứ không phải một ảnh chụp màn hình bọc trong mã đánh dấu. - PDF sang Excel khi PDF chủ yếu là các bảng. PDF sang Excel trích xuất mỗi bảng vào một trang tính riêng với hàng tiêu đề cố định.
- PDF sang CSV cho dữ liệu bảng thô mà bạn sẽ nhập vào nơi khác. PDF sang CSV nén mỗi bảng thành một tệp CSV.
- PDF sang Ảnh khi bạn cần mỗi trang dưới dạng PNG — chẳng hạn cho bộ slide hoặc hồ sơ năng lực. PDF sang ảnh kết xuất ở 200 DPI theo mặc định.
Khi nào nên bỏ chuyển đổi và chỉ cần gửi PDF
Nếu bên nhận chỉ cần đọc hoặc in PDF, đừng chuyển đổi. Thay vào đó hãy nén bằng nén PDF rồi gửi PDF trực tiếp. Chuyển đổi chỉ dành cho khi bạn cần chỉnh sửa; nếu không, bạn chỉ thêm một bước có thể làm giảm độ trung thực.
Pixoate