Dal momento che il parlato ha richieste di banda relativamente modeste, quasi tutte le schede audio di qualità medio-alta a 16 bit sono sufficienti per il compito di riconoscimento del parlato. Bisogna abilitare il supporto del suono nel kernel e si deve disporre dei driver corretti per la propria scheda audio. Per maggiori informazioni sulle schede audio, è possibile fare riferimento a "The Linux Sound HOWTO" disponibile all'indirizzo http://www.LinuxDoc.org/. L'argomento della qualità delle schede audio spesso è causa di discussioni animate sul loro impatto su rumore e accuratezza del riconoscimento.
Sono raccomandate schede audio con la conversione A/D (da analogico a digitale) più 'pulita'. Tuttavia, nella maggior parte dei casi, la chiarezza del suono digitale campionato dipende più dalla qualità del microfono e dalla presenza di rumore che dalle caratteristiche della scheda audio. Il rumore elettrico causato da monitor, slot PCI, dischi fissi, eccetera, di solito ha un impatto del tutto trascurabile rispetto al rumore sonoro causato da ventole di raffreddamento di computer, sedie scricchiolanti o un respiro pesante.
Alcuni programmi ASR potrebbero richiedere una scheda audio specifica. Tipicamente, è una buona idea tenersi lontano da quei programmi che impongono specifici requisiti in fatto di hardware, dal momento che questo limita notevolmente le possibiltà di effettuare cambiamenti futuri. Si dovranno valutare attentamente i benefici e gli svantaggi offerti da software che richiedono hardware specifico per funzionare correttamente.
Un microfono di buona qualità è un componente fondamentale quando si usa un sistema ASR. Nella maggior parte dei casi, i normali microfoni da desktop non sono sufficienti: tendono a raccogliere troppo rumore dall'ambiente, rendendo, così, difficile il lavoro dell'ASR.
Nemmeno i microfoni che si tengono in mano sono la scelta migliore: possono essere scomodi visto che bisogna raccoglierli ogni volta. Tuttavia, sono efficaci a limitare la quantità di rumore che assorbono dall'ambiente e sono molto adatti ad applicazioni in cui l'utente che parla cambia frequentemente o quando non si deve parlare al sistema ASR molto frequentemente (nel cui caso usare un microfono a cuffia non è una buona scelta).
La scelta migliore e di gran lunga più comune consiste nell'usare un microfono a cuffia. Questo tipo di microfono, infatti, minimizza il rumore raccolto dall'ambiente ed è sempre vicino alla bocca. Sono disponibili modelli con e senza auricolari (mono o stereo). Io raccomando quelli stereo, ma è una questione di gusti personali.
Si possono trovare microfoni a cuffia per un prezzo che varia da 25 a 100 dollari. Un buon posto in cui iniziare a cercarli è http://www.headphones.com o http://www.speechcontrol.com.
Una nota veloce a proposito della regolazione: non dimenticate di alzare il volume del microfono. Lo si può fare con programmi come XMixer o OSS Mixer e bisognerebbe stare attenti a evitare interferenze. Se il sistema ASR include programmi di auto-regolazione, è bene usarli dal momento che sono ottimizzati per il particolare sistema di riconoscimento.
Applicazioni ASR risentono notevolmente della velocità di elaborazione del processore. Questa è una conseguenza del fatto che il processo di ASR effettua un gran numero di calcoli per il filtraggio digitale e l'elaborazione del segnale.
Come succede per ogni software CPU-intensive, più il processore è veloce meglio è. È possibile usare alcuni sistemi SR con un processore a 100MHz e 16MB di RAM. Tuttavia se il sistema richiede di poter effettuare delle elaborazioni velocemente (usa dizionari di grandi dimensioni, implementa schemi per il riconoscimento complessi, o ha una frequenza di campionamento elevata), si dovrebbe come minimo ricorrere ad un sistema a 400MHz e 128MB di RAM. In ogni caso, la maggior parte dei programmi elenca i requisiti minimi hardware richiesti.
Non si è ancora ricorsi all'uso di cluster (Beowulf o di altro tipo) per svolgere compiti di riconoscimento molto onerosi. Se siete a conoscenza di un simile progetto, già in atto o ancora in sviluppo, fatemelo sapere! scook@gear21.com