Abstract | Nagli rast količine podataka u digitalnom svijetu vodi do potrebe za kompresijom podataka. Kompresija podataka je proces smanjenja broja bitova potrebnih za predstavljanje tekstualne datoteke, slike, audio ili video sadržaja. Na taj način smanjuje
se potreba za većim kapacitetima za pohranu podataka i ubrzava se proces prijenosa podataka. U ovom radu, fokusiramo se na kompresiju teksta i proučavamo algoritme (aritmetičko kodiranje i LZW kodiranje) i njihovu učinkovitost za kompresiju tekstova na različitim jezicima (hrvatski, češki, talijanski, francuski, njemački i engleski).
Glavni cilj rada je odgovoriti na pitanje "Utječe li jezik teksta na omjer kompresije?".
Rezultati su pokazali da omjer kompresije ovisi o broju slova abecede i gramatici jezika, te o duljini i tipu teksta. Na primjer, engleska, njemačka, francuska, talijanska, češka i hrvatska verzija teksta "Europski zeleni plan" su redom komprimirane za
75.79%, 76.17%, 77.33%, 76.84%, 73.25% i 74.51% LZW kodiranjem te za 72.54%, 71.47%, 72.87%, 73.43%, 69.62% i 72% aritmetičkim kodiranjem. |
Abstract (english) | The rapid growth in the amount of data in the digital world leads to the need for data compression, i.e., reducing the number of bits needed to represent a text file, an image, audio, or video content. Compressing data saves storage capacity and speeds up data transmission. In this paper, we focus on the text compression and provide a comparison of algorithms (in particular, arithmetic and Lempel–Ziv–Welch (LZW) methods) for text compression in different languages (Croatian, Czech, Italian, French, German, and English).
The main goal is to answer a question: ”How does the language of a text affect the compression ratio?”
The results indicated that the compression ratio is affected by the size of the language alphabet, and size or type of the text. For example, The European Green Deal was compressed by 75.79%, 76.17%, 77.33%, 76.84%, 73.25%, and 74.51% using the LZW algorithm, and by 72.54%, 71.47%, 72.87%, 73.43%, 69.62%, and 72% using the arithmetic algorithm for the English, German, French, Italian, Czech and Croatian versions, respectively. |