PDF till Word: vilket konverteringsverktyg behåller egentligen din formatering?
De flesta PDF-till-Word-konverterare förstör dina tabeller, rör till typsnitten eller hoppar över bilder helt. Här är vad som gör en konverterare bra, varför skannade PDF:er behöver OCR och hur du hanterar varje typ av PDF.
PDF utformades för att se identiskt ut på varje enhet. Det är dess stora styrka och anledningen till att den är besvärlig att redigera. När du konverterar en PDF till Word ber du ett verktyg att baklängeskonstruera dokumentet – lista ut vilka tecken som hör till vilket stycke, var tabellerna finns, vad som är rubriker, vad som är en fotnot och vad som inte är det. Vissa konverterare gör detta bra. De flesta gör det dåligt.
Här är ett snabbt beslutsträd, och vad som faktiskt gör en konverterare bra.
Första frågan: är PDF-filen en riktig PDF eller en skanning?
Om du kan markera texten med musen inuti PDF-läsaren är det en riktig PDF med verkligt textinnehåll. Om du inte kan – om texten beter sig som en bild – då är det en skanning, även om den inte ser ut som en. Konverteringsvägen är helt annorlunda.
För äkta PDF-filer
PDF till Word läser den inbäddade texten och layouten och bygger sedan om den som en .docx. Bra konverterare bevarar stycken, rubriker, listor, enkla tabeller och inbäddade bilder. Vanliga kontorsdokument kommer ut snyggt redigerbara.
För skannade PDF-filer
Du behöver OCR först. PDF till text med OCR aktiverat ger dig den råa texten; för ett strukturerat dokument med formatering, använd bild till Word på varje sida (eller kör hela PDF:en genom). Resultatet kommer inte att se identiskt ut med skanningen, men texten blir redigerbar och strukturen bevaras.
Vad konverterare gör fel
De klassiska misslyckandena, ungefär i den ordning de inträffar:
- Tabeller blir textrutor. Dåliga konverterare gör varje cell till ett flytande element. Tabellen ser rätt ut, men du kan inte faktiskt redigera den som en tabell.
- Flerkolumnslayouter kollapsar. Ett tvåspaltigt nyhetsbrev blir en spalt där bägge spalternas text klumpigt blandas ihop.
- Teckensnitt byts ut i det tysta. Om din PDF använder ett teckensnitt som Word saknar får du något liknande – men inte detsamma – och dina radbrytningar förskjuts.
- Fotnoter lossnar. Fotnotstexten hamnar som ett lösryckt stycke längst ner på sidan, inte längre kopplat till markören.
- Sidhuvuden och sidfötter blir brödtext. Sidnummer, sidhuvuden och sidfötter kommer med som stycken mitt i flödet.
Vad en bra konverterare gör
Ribban är igenkännbar layout, redigerbara tabeller, bevarade listor och inbäddade bilder som stannar där du placerade dem. Pixoates PDF till Word når den ribban för de flesta kontorsorienterade PDF-filer: kontrakt, rapporter, formulär, brev. Den använder en layoutmedveten pipeline som upptäcker tabellrutnät och rekonstruerar dem som inbyggda Word-tabeller, inte textrutor. Rubriker behåller sin hierarki. Punktlistor och numrerade listor kommer fram som listor, inte textrader som ser ut som listor.
Att gå åt andra hållet
Om du skapar en PDF från ett Word-dokument (och vill att den ska se ut precis som i Word) använder du Word till PDF. Den kör en riktig LibreOffice-rendering, så resultatet matchar det du skulle få genom att klicka på "Spara som PDF" i Word – inbäddade typsnitt, bevarad layout, inga överraskningar.
Andra format värda att känna till
- PDF till HTML när du vill ha en webbsida. PDF till HTML bevarar riktiga
<table>-element och rubriker, så att resultatet blir läsbar HTML, inte en skärmbild inlindad i markup. - PDF till Excel när PDF:en mest består av tabeller. PDF till Excel extraherar varje tabell till ett eget blad med låsta rubriker.
- PDF till CSV för rå tabelldata som du ska importera någon annanstans. PDF till CSV packar en CSV per tabell i en zip-fil.
- PDF till bilder när du behöver varje sida som en PNG – exempelvis till en presentation eller en portfolio. PDF till bilder renderar i 200 DPI som standard.
När du ska ge upp konverteringen och bara skicka PDF:en
Om mottagaren bara behöver läsa eller skriva ut PDF:en, konvertera den inte. Komprimera den med PDF-komprimering istället och skicka PDF:en direkt. Konvertering är till för när du behöver redigera; om du inte gör det lägger du bara till ett steg som kan försämra kvaliteten.
Pixoate