Hlavná technológie

Technológia rozpoznávania reči

Technológia rozpoznávania reči
Technológia rozpoznávania reči

Video: Rozpoznávanie tvárí na OH Tokio 2020, nové technológie v MHD Žilina I Tech Shots #16 2024, Júl

Video: Rozpoznávanie tvárí na OH Tokio 2020, nové technológie v MHD Žilina I Tech Shots #16 2024, Júl
Anonim

Rozpoznávanie reči, schopnosť zariadení reagovať na hovorené príkazy. Rozpoznávanie reči umožňuje hands-free ovládanie rôznych zariadení a vybavenia (najmä výhoda pre mnoho osôb so zdravotným postihnutím), poskytuje vstup do automatického prekladu a vytvára diktát pripravený na tlač. Medzi prvé aplikácie na rozpoznávanie reči patrili automatizované telefónne systémy a softvér lekárskeho diktátu. Často sa používa na diktovanie, na vyhľadávanie v databázach a na vydávanie príkazov počítačovým systémom, najmä v profesiách, ktoré sa spoliehajú na špecializované slovníky. Umožňuje tiež osobných asistentov vo vozidlách a smartfónoch, ako je napríklad Siri od spoločnosti Apple.

Predtým, ako akýkoľvek stroj dokáže interpretovať reč, musí mikrofón previesť vibrácie hlasu osoby na elektrický signál vlnový. Tento signál je následne prevádzaný hardvérom systému - napríklad zvukovou kartou počítača - na digitálny signál. Je to digitálny signál, ktorý program na rozpoznávanie reči analyzuje s cieľom rozpoznať jednotlivé fonémy, základné stavebné prvky reči. Fonémy sa potom rekombinujú do slov. Mnohé slová však znejú rovnako a aby sa mohlo zvoliť vhodné slovo, musí sa program spoliehať na kontext. Mnoho programov vytvára kontext prostredníctvom analýzy trigramov, čo je metóda založená na databáze častých trojslovných zoskupení, v ktorých sú priradené pravdepodobnosti, že za akýmikoľvek dvoma slovami bude nasledovať dané tretie slovo. Napríklad, ak hovorca hovorí „kto som“, ďalšie slovo sa rozpozná skôr ako zámeno „ja“ ako podobné znejúce, ale menej pravdepodobné „oko“. Na opravu chýb je však niekedy potrebný zásah človeka.

Programy na rozpoznávanie niekoľkých izolovaných slov, ako sú telefónne hlasové navigačné systémy, fungujú takmer pre každého používateľa. Na druhej strane musia byť programy nepretržitej reči, ako napríklad diktátové programy, trénované tak, aby rozpoznávali rečové vzorce jednotlivca; školenie spočíva v tom, že užívateľ nahlas prečíta vzorky textu. S rastúcou výkonnosťou osobných počítačov a mobilných zariadení sa dnes presnosť rozpoznávania reči výrazne zvýšila. Miera chybovosti sa v slovníkoch obsahujúcich desiatky tisíc slov znížila na približne 5 percent. Ešte väčšia presnosť je dosiahnutá v obmedzených slovníkoch pre špecializované aplikácie, ako je diktovanie rádiologických diagnóz.