Za prvo je potrebno učenje za prepoznavanje uporabnikovega govora. Za uporabe, kot je narekovanje ali prepoznavanje govorca, sistem najprej naredi zvočni odtis (ang. voice fingerprint), tako da govorec izgovori večje število stavkov, ki zajemajo kar se da širok nabor fonemov. Od govorca neodvisni sistemi za prepoznavanje so namenjeni splošni rabi in je njihova izvedba še nekoliko bolj zahtevna.