Prepoznavanje je lahko odvisno ali pa neodvisno od govorca. Za prvo je potrebno učenje za prepoznavanje uporabnikovega govora. Za uporabe, kot je narekovanje ali prepoznavanje govorca, sistem najprej naredi zvočni odtis (ang. voice fingerprint), tako da govorec izgovori večje število stavkov, ki zajemajo kar se da širok nabor fonemov.