PDF naar Word: welke conversietool behoudt je opmaak echt?
De meeste PDF-naar-Word-converters verpesten je tabellen, husselen lettertypen door elkaar of slaan afbeeldingen helemaal over. Hier lees je wat een converter goed maakt, waarom gescande PDF's OCR nodig hebben en hoe je met elk type PDF omgaat.
PDF is ontworpen om er op elk apparaat identiek uit te zien. Dat is zijn grote kracht en meteen de reden waarom het zo lastig te bewerken is. Wanneer je een PDF omzet naar Word, vraag je een tool om het document te reverse-engineeren — uitzoeken welke tekens bij welke alinea horen, waar de tabellen staan, wat de koppen zijn en wat wel en niet een voetnoot is. Sommige converters doen dit goed. De meeste doen het slecht.
Hier is een snelle beslisboom, en wat een converter écht goed maakt.
Eerste vraag: is de PDF een echte PDF of een scan?
Als je de tekst met je muis kunt selecteren in de PDF-lezer, is het een echte PDF met daadwerkelijke tekstinhoud. Als dat niet kan — als de tekst zich gedraagt als een afbeelding — dan is het een scan, ook al ziet het er niet zo uit. Het conversietraject is compleet anders.
Voor echte PDF's
PDF naar Word leest de ingebedde tekst en lay-out en bouwt deze opnieuw op als een .docx. Goede converters behouden alinea's, koppen, lijsten, eenvoudige tabellen en inline-afbeeldingen. Doorsnee kantoordocumenten komen er netjes bewerkbaar uit.
Voor gescande PDF's
Je hebt eerst OCR nodig. PDF naar tekst met OCR ingeschakeld geeft je de ruwe tekst; gebruik voor een gestructureerd document met opmaak afbeelding naar Word op elke pagina (of haal de hele PDF erdoorheen). De uitvoer ziet er niet identiek uit aan de scan, maar de tekst is bewerkbaar en de structuur blijft behouden.
Wat converters verkeerd doen
De klassieke valkuilen, ongeveer in de volgorde waarin ze optreden:
- Tabellen worden tekstvakken. Slechte converters maken van elke cel een zwevend element. De tabel ziet er goed uit, maar je kunt hem niet echt als tabel bewerken.
- Indelingen met meerdere kolommen vallen samen. Een nieuwsbrief met twee kolommen wordt één kolom waarin de tekst van beide kolommen rommelig door elkaar loopt.
- Lettertypen worden stilletjes vervangen. Als je PDF een lettertype gebruikt dat Word niet heeft, krijg je iets wat erop lijkt — maar niet hetzelfde is — en verschuiven je regelafbrekingen.
- Voetnoten raken los. De voetnoottekst belandt als een losse alinea onder aan de pagina, niet langer gekoppeld aan de verwijzing.
- Kop- en voetteksten worden lopende tekst. Paginanummers, kopteksten en voetteksten komen als alinea's midden in de tekst terecht.
Wat een goede converter doet
De lat ligt op een herkenbare lay-out, bewerkbare tabellen, behouden lijsten en inline afbeeldingen die blijven staan waar je ze plaatst. Pixoate's PDF naar Word haalt die lat voor de meeste kantoorachtige PDF's: contracten, rapporten, formulieren, brieven. Het maakt gebruik van een lay-outbewuste pijplijn die tabelrasters herkent en ze reconstrueert als echte Word-tabellen, niet als tekstvakken. Koppen behouden hun hiërarchie. Opsommingen en genummerde lijsten komen door als lijsten, niet als regels tekst die op lijsten lijken.
De andere kant op
Als je een PDF genereert uit een Word-document (en wilt dat het er precies zo uitziet als in Word), gebruik dan Word naar PDF. Dit voert een echte LibreOffice-renderslag uit, zodat de uitvoer overeenkomt met wat je zou krijgen door in Word op "Opslaan als PDF" te klikken — lettertypen ingesloten, lay-out behouden, geen verrassingen.
Andere formaten die het kennen waard zijn
- PDF naar HTML wanneer je een webpagina wilt. PDF naar HTML behoudt echte
<table>-elementen en koppen, zodat de uitvoer leesbare HTML is en geen schermafbeelding verpakt in opmaak. - PDF naar Excel wanneer de PDF voornamelijk uit tabellen bestaat. PDF naar Excel haalt elke tabel naar een eigen werkblad met vastgezette kopteksten.
- PDF naar CSV voor ruwe tabelgegevens die je elders importeert. PDF naar CSV zet één CSV per tabel in een zip-bestand.
- PDF naar afbeeldingen wanneer je elke pagina als PNG nodig hebt — bijvoorbeeld voor een presentatie of een portfolio. PDF naar afbeeldingen rendert standaard op 200 DPI.
Wanneer je het converteren beter kunt opgeven en gewoon de PDF kunt versturen
Als de ontvangende partij de PDF alleen hoeft te lezen of af te drukken, converteer hem dan niet. Comprimeer hem in plaats daarvan met PDF comprimeren en verstuur de PDF rechtstreeks. Converteren is bedoeld voor wanneer je moet bewerken; zo niet, dan voeg je alleen maar een stap toe die de kwaliteit kan aantasten.
Pixoate