Akustični normalizator služi predobdelavi zvočnega signala z namenom odstranjevanja aditivnega šuma, tj. zvočnih elementov, ki ne predstavljajo govora in so za učenje razpoznavalnika moteči. Akustični normalizator lahko pripomore k večji robustnosti razpoznavalnika, saj poskrbi za to, da je razpoznavalnik manj odvisen od čistosti govornega signala. Izdelan bo z uporabo pristopov, ki temeljijo na postopkih digitalne obdelave signalov oziroma globokih nevronskih mrežah. Za učno množico bo uporabljen govorni korpus, ki bo izdelan v tem sklopu projekta.
Sintaktični normalizator se lahko uporablja tako v predobdelavi kot postobdelavi besedila. Sintaktična normalizacija je v splošnem proces, ki besedilo preoblikuje v enotno kanonično obliko, ki je ta predhodno morda ni imel. V okviru razpoznavalnikov so na primer števila, datumi, akronimi in okrajšave primeri nestandardnih besed, katerih izgovarjava je odvisna od okoliškega konteksta. Transkripcija baze govorjenega jezika bo predvidoma v obliki, kjer so števila in datumi izpisani z besedo in v njih ne bo akronimov in okrajšav. To pomeni, da bo razpoznavalnik tak rezultat tudi vračal. Korpus Gigafida 2.0, ki je predvideni vir za jezikovni model, bo treba predobdelati, da bo uglašen z rezultati razpoznavalnika. Odvisno od domene razpoznavalnika bo normalizator lahko uporaben tudi v postobdelavi, kjer bo na primer lahko zagotovil pretvorbo števil in datumov, izpisanih z besedo, v zapis s števili. Sintaktični normalizator bo predvidoma narejen z uporabo pravil oziroma globokih nevronskih mrež ali kombinacije teh dveh. Za učno množico bo predvidoma uporabljen prečiščen korpus Gigafida 2.0.
Punktuator je orodje za postavljanje osnovnih ločil v besedilo, ki ga vrača razpoznavalnik. Tipični razpoznavalnik deluje tako, da iz akustičnega signala razpoznava foneme in iz njih sestavlja besede. Vendar besed ne zna sestavljati v večje enote, kot so povedi in stavki. Semantična vrednost tako pridobljenih transkripcij je zato manjša. Punktuator lahko razpoznane besede obogati z osnovnimi ločili, kot so vejice, pike, vprašaji in klicaji, in tako pripomore k lažji pomenski obravnavi transkripcij. Punktuator bo predvidoma izdelan z uporabo globokih nevronskih mrež. Za učno množico bo predvidoma uporabljen prečiščen korpus Gigafida 2.0.
Fonemizator je orodje za pretvorbo grafemskega zapisa v pripadajoči fonemski zapis. V procesu razpoznave lahko služi kot metoda za dodajanje manjkajočih besed v slovar izgovorjav. Pri tipičnem razpoznavalniku je slovar izgovorjav temeljnega pomena, saj razpoznavalnik prepozna le besede, ki se v slovarju nahajajo. Ker pri razpoznavi pogosto naletimo na besede, ki v slovarju še niso zapisane, moramo imeti postopek, ki omogoča njihovo dodajanje, bodisi ročno bodisi povsem avtomatizirano. Fonemizator bo predvidoma izdelan s kombinacijo hevrističnih pravil oziroma modela, naučenega z uporabo nevronskih mrež.