Text Cleaner: alat za uklanjanje viška linebreakova i čišćenje teksta iz PDF-a/Worda
Ako si ikada kopirao tekst iz PDF-a, Word dokumenta ili web stranice i dobio “razbijene” rečenice, čudne razmake, pogrešne crtice i gomilu praznih linija onda znaš koliko to može usporiti rad. Text Cleaner je jednostavan online alat koji za par sekundi pretvara takav tekst u čist, kompaktan i čitljiv format.
Text Cleaner (PDF/Word → čist tekst)
Uklanja višak linebreakova, popravlja razmake/interpunkciju i čisti PDF/Word artefakte (header/footer, brojevi stranica, Literatura).
Ulaz
Izlaz
Opcije
-, •, *, 1. — zadržava je kao novi red (ne spaja u paragraf)., . ; : ! ?, . ; : dodaje razmak ako nedostaje (ne dira brojeve tipa 3.5 ili 3,5).infor-
macija → informacija12), te “Page 12” / “Strana 12”.^Strana\s+\d+$
Šta je Text Cleaner i kome je namijenjen?
Text Cleaner je alat za “čišćenje teksta” koji automatski uklanja najčešće probleme nastale prilikom kopiranja sadržaja iz:
- PDF dokumenata (najčešći izvor čudnih prelama i rastavljenih riječi),
- Word dokumenata,
- web stranica i e-mailova.
Namijenjen je svima koji često prebacuju tekst između izvora i formata: studentima, ljekarima, istraživačima, urednicima portala, administraciji i svima koji žele da tekst izgleda profesionalno uz minimalan trud.
Najčešći problem: višak linebreakova (preloma reda)
Kod kopiranja iz PDF-a često se desi da:
- svaka linija postane novi red,
- rečenice se “sijeku” na sredini,
- pojavi se mnogo praznih linija,
- liste se raspadnu ili zalijepe u paragraf.
Text Cleaner rješava upravo to kroz set opcija za linebreak & odlomke.
1) Linebreak & odlomci: kako tekst postaje kompaktan
Ukloni sve linebreakove (sve u jedan paragraf)
Ova opcija je najagresivnija: spaja sve u jedan kontinuiran tekst. Korisno je kada želiš:- kratak opis,
- sažetak,
- paragraf za WordPress ili objavu.
Zadrži odlomke (dvostruki enter ostaje, ostalo spaja)
Najbolji “default” izbor. Ostavlja odlomke (paragrafe) gdje su zaista odvojeni, a unutar odlomka spaja nepotrebne prelome. Idealno za:- članke,
- stručne tekstove,
- medicinske bilješke.
Pretvori single linebreak u space (PDF mode)
Najbolji način za tekst kopiran iz PDF-a. Pretvara “prelom na kraju linije” u razmak, ali i dalje poštuje logičke prekide (odlomke). Koristi kada vidiš da je tekst:- “razbijen” nakon svake linije,
- teško čitljiv bez ručnog sređivanja.
Ukloni prazne linije (više od 1 zaredom)
Ako imaš previše praznih redova, ova opcija ih svodi na normalnu mjeru. Tekst postaje uredniji i kraći bez gubitka sadržaja.Normalizuj liste (–, •, 1.)
Ovo je jedna od najkorisnijih opcija. Ako linija počinje sa-, •, *, 1. (ili sličnim), alat je tretira kao stavku liste i ne spaja je u paragraf. Tako liste ostaju čitljive i spremne za WordPress/Word.
2) Razmaci & interpunkcija: profesionalan izgled teksta
Kopiranje iz weba i PDF-a često ubaci:- više razmaka zaredom,
- tabove,
- razmak prije zareza ili tačke,
- nedostajući razmak nakon interpunkcije.
Ukloni višestruke razmake/tabove
Pretvara više uzastopnih razmaka u jedan. Tekst izgleda urednije i lakše se čita.Ukloni razmak prije , . ; : ! ?
Uklanja greške tipa:riječ , ili riječ . i vraća standardni izgled.
Dodaj razmak poslije , . ; : (kad fali)
Popravlja situacije kad dobiješ:tekst,nešto ili rečenično.Nastavak. Posebno je korisno kod PDF kopiranja.
Normalizuj “—” / “-” (crte)
U tekstovima se miješaju različite vrste crtica (minus, en dash, em dash). Ovdje biraš da sve postane:-(obični minus),–(en dash – najneutralniji),—(em dash – stilistički jače).
Ukloni “nbsp” i čudne whitespace znakove
Ova opcija uklanja skrivene znakove (npr. NBSP, soft hyphen, zero-width) koji znaju:- kvariti pretragu,
- praviti “čudne” razmake,
- lomiti format pri objavi.
3) PDF/Word popravke: stvari koje ručno najviše nerviraju
Spoji rastavljene riječi: infor- macija → informacija
PDF često “rastavi” riječ na kraju linije pa dobiješ: infor- (kraj reda) macija (početak novog). Alat to prepoznaje i spaja automatski.
Ukloni header/footer ponavljanja (regex)
Ako ti se u tekstu ponavlja zaglavlje ili podnožje (npr. naziv ustanove, naziv dokumenta, datum), možeš unijeti regex i ukloniti takve linije. Primjeri:
^Strana\s+\d+$^Page\s+\d+$^Klinika.*$
Ovo je idealno za skripte, protokole i izvještaje.
Ukloni brojeve stranica
Uklanja linije koje su samo broj (12) ili obrasci poput Strana 12, Page 12, 3/12. Rezultat je čist tekst bez “šuma”.
Ukloni “References” / “Literatura” sekciju
Za naučne tekstove je odlično: kad naiđe na naslov “References”, “Literatura” ili “Bibliography”, alat briše sve od tog dijela do kraja. Tako dobiješ samo glavni tekst bez dugih referenci.
Kako koristiti Text Cleaner (najbrži workflow)
- Zalijepi tekst u polje Ulaz.
- Izaberi režim:
- PDF mode ako je tekst “razbijen”,
- Zadrži odlomke za većinu slučajeva.
- Preporuka je ostaviti uključeno:
- normalizaciju lista,
- razmake i interpunkciju,
- spajanje rastavljenih riječi.
- Klikni Očisti.
- Klikni Kopiraj rezultat i zalijepi gdje ti treba.
