Kujutage ette, et istute diivanil lõdvestunult ja lihtsalt tellite oma arvutist, sülearvutist või mobiiltelefonist lihtsate ülesannete täitmiseks, näiteks tähe sisestamiseks või mõne käsu täitmiseks. Kas see on võimalik?

Muidugi on see, kus hääletuvastus tuleb pildile.

Definitsiooni järgi on see inimkõne äratundmisprotsess ja dekodeeritud see tekstivormiks.

Põhimõte

Aluspõhimõte hääletuvastus hõlmab asjaolu, et iga inimese öeldud kõne või sõnad põhjustavad õhus vibratsiooni, mida nimetatakse helilaineteks. Need pidevad või analooglained digiteeritakse ja töödeldakse ning dekodeeritakse seejärel vastavate sõnade ja seejärel sobivate lausete järgi.

hääletuvastus

Kõnetuvastussüsteemi komponendid

Millest siis põhiline kõnetuvastussüsteem koosneb?

Kõnetuvastussüsteemi komponendid

Kõnesalvestusseade : See koosneb mikrofonist, mis muundab helilainesignaalid elektrisignaalideks, ja analoog-digitaalmuundurist, mis võtab ja digiteerib analoogsignaalid, et saada arvutile arusaadavad diskreetsed andmed.
Digitaalse signaali moodul või protsessor : See töötleb töötlemata kõnesignaali nagu sagedusdomeeni teisendamine, taastades ainult vajaliku teabe jne.
Eeltöödeldud signaali salvestamine : Eeltöödeldud kõne salvestatakse mällu kõnetuvastuse edasise ülesande täitmiseks.
Viite kõne mustrid : Arvuti või süsteem koosneb eelnevalt määratletud kõnemustritest või mallidest, mis on juba mällu salvestatud ja mida kasutatakse võrdlusviidana.
Mustrite sobitamise algoritm : Tegelike sõnade või sõnade mustri määramiseks võrreldakse tundmatut kõnesignaali viitekõne mustriga.

Süsteemi töö

Vaatame nüüd, kuidas kogu süsteem tegelikult töötab.

Süsteemi töö

Kõnet võib vaadelda kui akustilist lainekuju, st signaali, mis kannab sõnumiteavet. Normaalne inimene, kelle artikulaatorite (kõneorganite) liikumiskiirus on piiratud, suudab tekitada kõnet keskmiselt 10 heli sekundis. Keskmine teabekiirus on umbes 50–60 bitti sekundis. See tähendab, et kõnesignaalis on tegelikult vaja ainult 50 bitti sekundis. See akustiline lainekuju muundatakse mikrofoni abil analoogseteks elektrisignaalideks. Analoog-digitaalmuundur teisendab selle analoogsignaali digitaalseks prooviks, mõõtes laine täpse intervalliga.
Digiteeritud signaal koosneb perioodiliste signaalide voost, mis on valitud 16000 korda sekundis ja ei sobi tegeliku teostamiseks kõnetuvastus protsess, kuna mustrit ei saa hõlpsasti leida. Tegeliku teabe väljavõtmiseks teisendatakse signaal ajas domeenis signaaliks sagedusalas. Seda teeb digitaalsignaali protsessor, kasutades FFT tehnikat. Digitaalsignaalis komponent pärast iga 1/100^thsekundit analüüsitakse ja arvutatakse iga sellise komponendi sagedusspekter. Teisisõnu segmenteeritakse digiteeritud signaal väikesteks sagedusamplituudide osadeks.
Iga segment või sagedusgraafik tähistab erinevaid inimeste tekitatud helisid. Arvuti teostab tundmatute segmentide sobitamist konkreetse keele salvestatud foneetikaga. Seda mustri sobitamist tehakse kolmel viisil:

Akustilise foneetilise lähenemise kasutamine : Akustilises foneetilises käsitluses kasutatakse tavaliselt varjatud Markovi mudelit. See mudel töötab välja kõnetuvastuse mitteterministliku tõenäosusemudeli. See mudel koosneb kahest muutujast - arvuti mällu salvestatud foneemide peidetud olekutest ja digitaalsignaali nähtavast sagedussegmendist. Igal foneemil on oma tõenäosus ja segment sobitatakse foneemiga vastavalt tõenäosusele ja seejärel kogutakse sobitatud foneemid kokku, moodustades õiged sõnad vastavalt keele salvestatud grammatikareeglitele.

Mustrituvastuse lähenemise kasutamine : Mustrituvastuse lähenemisviisis koolitatakse süsteemi konkreetse kõne mustriga mis tahes keele jaoks ja tundmatut kõnemustrit võrreldakse referentskõnekujundiga, määrates signaalide vahelise kauguse ajaväände tehnikas.

Tehisintellekti kasutamine : Tehisintellekti lähenemisviis põhineb põhiteadmiste allikate, näiteks spektraalmõõtmiste põhjal räägitud helide tundmisel, õigete tähenduslike ja süntaktiliste sõnade teadmisel.

Tegurid, millest kõnetuvastussüsteem sõltub

Kõnetuvastussüsteem sõltub järgmistest teguritest:

Üksikud sõnad : Järjestikuste lausutud sõnade vahel peab olema paus, sest pidevad sõnad võivad kattuda, mis muudab süsteemi keeruliseks mõistmise, kui sõna algab või lõpeb. Seega peab järjestikuste sõnade vahel valitsema vaikus.
Üksik esineja : Paljud kõnelejad, kes üritavad samal ajal sisestada kõnet, võivad põhjustada signaalide kattumist ja katkestusi. Enamik kasutatavatest kõnetuvastussüsteemidest on kõnelejast sõltuvad süsteemid.
Sõnavara suurus : Suure sõnavaraga keeli on mustri sobitamisel raske arvestada kui väikese sõnavaraga keeli, kuna ebaselgete sõnade olemasolu võimalus on viimases väiksem.

Kõnetuvastussüsteem Windows 7-s

Soovitan järgmisi samme kõigile isikutele, kes kasutavad kõnetuvastussüsteemi Windows 7

Avage juhtpaneel menüüst Start või klõpsates ikoonil.
Valige Lihtne juurdepääs ja klõpsake siis kõnetuvastus.
Järgmine klõpsake mikrofoni seadistamiseks ja valige töölaua mikrofon saadaolevatest suvanditest.
Järgmisena võtke kõneõpetus ja järgige antud juhiseid.
Pärast seda treenige oma arvutit paremate võimaluste leidmiseks, et arvuti salvestaks teie kõnesignaali kindla mustri. Selleks klõpsake valikul „Treenige oma arvutit, et teid paremini mõista” ja järgige seejärel juhiseid.
Nüüd käivitage kõnetuvastuse ikoon ja hakake dikteerima oma kõnet arvutisse. Arvutisõnastikku saate lisada ka oma sõnu.

Praktilised kõnetuvastussüsteemid: HM2007 kasutamine

Praktilise kõnetuvastussüsteemi saab üles ehitada kõnetuvastuse IC abil HM2007 . HM2007 on 48-kontaktiline IC, mis pakub kõnetuvastusfunktsiooni. See töötab kahes režiimis: käsitsi režiimis või protsessori režiimis. Mõlemas režiimis õpetatakse IC kõigepealt sõnu tuvastama, öeldes kasutaja klahvile vajutatud vastava numbri iga sõna. IC salvestab iga sõnasignaali sõnale vastavasse mälukohta. IC-st pärinevad andmed liidetakse mikrokontrolleriga sealt, kus neid LCD-ekraanil kuvatakse.

Praktilised kõnetuvastussüsteemid

Tavaliselt kasutame HM2007 tööks käsitsi režiimi.

HM2007 koosneb RDY-tihvtist, mis on aktiivne madal tihvt, mis näitab, et IC on treeningu jaoks valmis.
Häälsisend antakse mikrofoni kaudu, mis on ühendatud IC-i MICIN-tihvtiga.
IC on liidestatud klahvistikuga, mida kasutatakse igale sõnale vastava numbri sisestamiseks. IC töötab kahes funktsioonis - Clear ja Train. Kui klaviatuuril vajutatakse nuppu Rong, alustab IC treeningprotsessi.
Kasutaja vajutab enne funktsiooniklahvi ‘Rong’ vajutamist numbriklahvi ja ütleb mikrofoni vajaliku sõna.
IC saadab kõrge signaali ME (mälu lubamise) tihvtile, mis on ühendatud SRAM-i vastava ME tihvtiga. Pressitud numbrile vastav 8-bitine andmesignaal salvestatakse välise siini kaudu SRAM-i (väline RAM).
Pärast häälsisendi tuvastamist on RDY tihvt loogikal kõrgusel ja IC jõuab tuvastamise olekusse, kus ta alustab tuvastamisprotsessi.
Protsessi tulemus antakse läbi andmesiini, kus DEN (Data Enable) tihvt on kõrge.
Seejärel saab 8-bitised andmed mikrokontrollerile anda seerialiidese protsessori kaudu või esmalt riivida riivi IC 74HC573 abil.
Mikrokontroller on liidesega LCD-ekraaniga ja see on programmeeritud nii, et vastav sõna kuvatakse ekraanil.

Ainus ettevaatusabinõu, mida tuleb rakendada, on mitte kasutada homonüüme (sarnase kõlaga sõnu) ja hoolitseda ka hääle ergastamise eest.

Nii, see on kõik, kuidas a põhiline kõnetuvastussüsteem töötab. Kõik muud sisendid on teretulnud lisama.