Pri tem se upoštevajo akustične lastnosti človeškega ušesa. Nadaljuje se s fonetičnim razbitjem (ang. phonetic brakedown), pri čemer program za prepoznavanje govora razbije signal na osnovne gradnike govora - fonemske glasove. Vsak fonem se namreč razlikuje po sebi lastnem vzorcu, zastopanosti frekvenc, v spektrogramu.