Název:

Systémy zpracování řeči

Zkratka:SRE
Ak.rok:ukončen 2010/2011
Semestr:zimní
Studijní plán:
ProgramOborRočníkPovinnost
IT-MGR-2MBI-volitelný
IT-MGR-2MBS-volitelný
IT-MGR-2MGM2.volitelný
IT-MGR-2MGM.2.volitelný
IT-MGR-2MIN-povinně volitelný - skupina I
IT-MGR-2MIN.-volitelný
IT-MGR-2MIS-volitelný
IT-MGR-2MIS.-volitelný
IT-MGR-2MMI-volitelný
IT-MGR-2MMM-volitelný
IT-MGR-2MPS-volitelný
IT-MGR-2MPV-volitelný
IT-MGR-2MSK-volitelný
IT-MGR-2EITE2.volitelný
Vyučovací jazyk:čeština, angličtina
Informace veřejné:http://www.fit.vutbr.cz/study/courses/SRE/public/
Kredity:5 kreditů
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvičenílab. cvičenípoč. cvičeníjiná
Rozsah:3900013
 zkouškatestycvičenílaboratořeostatní
Body:51150034
Garant:Černocký Jan, doc. Dr. Ing., UPGM
Přednášející:Burget Lukáš, doc. Ing., Ph.D., UPGM
Černocký Jan, doc. Dr. Ing., UPGM
Fapšo Michal, Ing., UPGM
Glembek Ondřej, Ing., Ph.D., UPGM
Matějka Pavel, Ing., Ph.D., UPGM
Schwarz Petr, Ing., Ph.D., UPGM
Smrž Pavel, doc. RNDr., Ph.D., UPGM
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
Prerekvizity: 
Zpracování řečových signálů (ZRE), UPGM
 
Cíle předmětu:
  Rozšířit vědomosti o stavbě jazyka (fonetika, fonologie) a zorientovat se ve statistických klasifikátorech. Získat přehled o pokročilých metodách rozpoznávání a kódování řeči. Seznámit se s pokročilými metodami jazykového modelování a syntaktické analýzy.

Anotace:
  Fonetika a fonologie. Statistické rozpoznávání vzorů. Trénování a adaptace HMM. Rozpoznávání HMM. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání. Identifikace a verifikace mluvčího. Identifikace jazyka. Kódování řeči CELP. Jazykové modelování. Psycholingvistika. Pravděpodobnostní parsování.

Získané dovednosti, znalosti a kompetence:
  Studenti si rozšíří vědomosti získalané v základním kursu o zpracování řečových signálů a zpracování přirozeného jazyka. Získají přehled o metodách v současnosti implementovaných v průmyslových aplikacích (GSM telefony nebo komerčně dostupné rozpoznávače).  Seznámí se s perspektivními metodami existujícími ve výzkumné oblasti.  Prohloubí své znalosti zpracování přirozeného jazyka a jazykového modelování. Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro zpracování řeči v akademické i průmyslové sféře.
Osnova přednášek:
 
  1. Fonetika a fonologie - struktura slabik, fonologické procesy a rozlišující rysy.
  2. Statistické rozpoznávání vzorů I. - Bayesovský rámec, Maximum likelihood učení, Gaussian mixture models. Parametry pro GMM modelování.
  3. Statistické rozpoznávání vzorů II. - umělé neuronové sítě, Support vector machines. Modelování sekvencí - skryté Markovovy modely HMM.
  4. Trénování a adaptace HMM  - MLLR, MAP, diskriminativníé trénování.
  5. Rozpoznávání HMM  - výslovnostní slovníky, rozpoznávací sítě, jazykový model, dekódování, lattices.
  6. Rozpoznávání fonémů. Detekce klíčových slov a vyhledávání - LVCSR, akustické, fonémové lattices. Figure of Merit.
  7. Identifikace a verifikace mluvčího - GMM, SVM. Normalizace a adaptace na přenosový kanál - feature mapping, eigen-voices a nuissance attributes projection (NAP). Vyhodnocení ověřování mluvčího - DET křivky, EER, cost function.
  8. Identifikace jazyka - akustická vs. fonotaktická, vyhodnocení.
  9. Kódování řeči - CELP - adaptivní a stochastická kódová kniha, GSM standardy.
  10. Jazykové modelování I. - n-gramové modely, modely založené na třídách.
  11. Jazykové modelování  II. - příznaky specifické pro jazyk, factored-language models
  12. Psycholingvistika - model rozpoznávání slov, slovní asociace. 
  13. Pravděpodobnostní parsování - algoritmus inside-outside, závislostní parsování.
Literatura referenční:
 
  • Gussenhoven, J. and Jacobs, H.: Understanding Phonology, Oxford University Press, 1998, ISBN: 0-340-69218-9
  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.
  • Moore, B.C.J.: An introduction to the psychology of hearing, Academic Press, 1989, ISBN 0-12-505627-3.
  • Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998, ISBN 0-262-10066-5.
  • Manning, C. and Schütze, H.: Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999.
Literatura studijní:
 
  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN 80-200-0203-0.
  • Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7.
Průběžná kontrola studia:
  
  • půlsemestrální test - 20b
  • prezentace projektů - 30b
  • zkouška - 50b