Sažetak | U prvom poglavlju detaljno je opisan rad te su dane osnovne informacije o sintezi govora. Bitno je naglasiti probleme kod sinteze govora kao što je čitanje kratica, brojeva i akronima te takoĎer i sam izgovor koji često zna biti nerazumljiv i nalik robotskom glasu. Drugo poglavlje sastoji se od detaljnog opisivanja sinteze govora te kako se tekst pretvara u govor. Pretvorba se sastoji do tri faze: tekst u riječ, riječ u fonem (zvuk iz kojeg možemo napraviti bilo koju izgovorenu riječ) te fonem u zvuk. Treće poglavlje u kratkim crtama opisuje razvoj sinteze govora te njenih elektroničkih ureĎaja kroz povijest, a sve je počelo još u 18. stoljeću. Detaljniji opis sustava za sintezu govora nalazi se u četvrtom dijelu rada od kojih imamo integrirane čipove, sustave sa ugraĎenom sintezom govora, aplikacije i TTS sustavi otvorenog koda. Od sustava sa otvorenim kodom detaljnije su opisani MBROLA, eSpeak, festival i gnuspeech. Peto poglavlje samo ukratko opisuje sintezu govora kod Microsoft Windowsa, to jest njegove SAPI verzije od kojih je najpoznatija i najraširenija inačica SAPI 5. Šesto i sedmo poglavlje su bitniji dijelovi rada i u njima se detaljno opisuje kako SAPI radi, uz primjere kodova. SAPI posjeduje svoj SDK uz koji se dodatno mora instalirati jezični paket kod kojeg svaki jezik u sebi ima mašinu (engine) za pretvorbu teksta u točno taj jezik. Prikazuju se izrade zahtjeva (prompta) koji se kasnije reproduciraju, a u svakom zahtjevu se posebno mogu dodavati tekstovi i zvukovi, mijenjati stilovi i glasovi, dodavati oznake, itd. TakoĎer je objašnjeno stvaranje vlastitog rječnika i fonetskih abeceda, što je ključna stavka za svaku riječ i njen izgovor u odreĎenom jeziku. |
Sažetak (engleski) | Detailed document description and basic information about speech synthesis are given in the first chapter. It is important to emphasize problems in speech synthesis such as reading shorts, numbers, and acronyms, as well as an pronunciation that often is disproportionate and similar to a robotic voice. The second chapter consists of a detailed description of speech synthesis and how text is translated into speech. Conversion consists of three phases: text in word, word in phoneme (sound from which we can make any spoken word) and phonem in sound. The third chapter briefly describes the development of speech synthesis and its electronic devices throughout history, and it all began in the 18th century. A more detailed description of the speech synthesis system of which we have integrated chips, embedded speech synthesis systems, applications, and TTS open source systems can be found in the fourth part of document . From the open source system, MBROLA, eSpeak, festival and gnuspeech are described in more detail. The fifth chapter briefly describes the synthesis of speech in Microsoft Windows, that is, its SAPI versions. Its most widely known and most widely used version is SAPI 5. The sixth and seventh chapters are the most important parts of the work and there is described in detail how SAPI works with code examples. SAPI owns its SDK, which also has to install a language package in which each language has engine to convert the text to the exact language. The production of prompts that are later reproduced are displayed, and in each request texts and sounds can be added, styles and voices can be modified, tags added, etc. It also explains how to create your own vocabulary and phonetic alphabet, which is a key item for each word and its pronunciation in a given language. |