Název:

Zpracování řečových signálů

Zkratka:ZRE
Ak.rok:2014/2015
Semestr:letní
Studijní plán:
ProgramOborRočníkPovinnost
IT-MGR-1HMGH-doporučený
IT-MGR-2MBI-povinně volitelný - skupina S
IT-MGR-2MBS-volitelný
IT-MGR-2MGM1.povinný
IT-MGR-2MIN-povinně volitelný - skupina C
IT-MGR-2MIS-volitelný
IT-MGR-2MMI-povinně volitelný - skupina S
IT-MGR-2MMM-volitelný
IT-MGR-2MPV2.povinně volitelný - skupina G
IT-MGR-2MSK2.povinně volitelný - skupina B
Vyučovací jazyk:čeština
Informace veřejné:http://www.fit.vutbr.cz/study/courses/ZRE/public/
Kredity:5 kreditů
Ukončení:zkouška (písemná)
Výuka:
hod./sempřednáškasem./cvičenílab. cvičenípoč. cvičeníjiná
Rozsah:26201212
 zkouškatestycvičenílaboratořeostatní
Body:51140629
Garant:Černocký Jan, doc. Dr. Ing., UPGM
Přednášející:Černocký Jan, doc. Dr. Ing., UPGM
Grézl František, Ing., Ph.D., UPGM
Hannemann Mirko, Dipl.-Ing., UPGM
Szőke Igor, Ing., Ph.D., UPGM
Cvičící:Egorova Ekaterina, Ing., UPGM
Fér Radek, Ing., UPGM
Novotný Ondřej, Ing., UPGM
Ondel Lucas, Mgr., UPGM
Fakulta:Fakulta informačních technologií VUT v Brně
Pracoviště:Ústav počítačové grafiky a multimédií FIT VUT v Brně
Navazující:
Systémy zpracování řeči (SRE), UPGM
 
Cíle předmětu:
  Seznámit studenty se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Popsat základní algoritmy analýzy řeči společné mnohým aplikacím. Podat přehled aplikací (rozpoznávání, syntéza, kódování) a informovat o praktických stránkách implementace řečových algoritmů.
Anotace:
  Aplikace počítačového zpracování řeči, číslicové zpracování řečových signálů, tvorba a slyšení řeči, úvod do fonetiky, předzpracování a základní parametry, lineárně-prediktivní model, cepstrum, určování základního tónu hlasu, kódování - časová oblast a vokodéry, rozpoznávání - DTW a HMM, syntéza. Software a knihovny pro zpracování řeči.
Získané dovednosti, znalosti a kompetence:
  Studenti se seznámí se základními charakteristikami řečového signálu v návaznosti na tvorbu a slyšení řeči lidmi. Pochopí základní algoritmy analýzy řeči společné mnohým aplikacím. Získají přehled o aplikacích (rozpoznávání, syntéza, kódování) a o praktických stránkách implementace řečových algoritmů. Budou schopni navrhnout jednoduchý systém pro zpracování řeči (detektor řečové aktivity, rozpoznávač několika izolovaných slov), včetně implementace do aplikačních programů.
Osnova přednášek:
 
  • Úvod, aplikace zpracování řeči, relevatní vědní obory,  informační obsah.
  • Číslicové zpracování řečových signálů
  • Tvorba a slyšení řeči, základní pojmy z psychoakustiky, aplikace ve zpracování řeči.
  • Úvod do fonetiky, mezinárodní normy pro označování fonémů.
  • Předzpracování a základní parametry. 
  • Lineárně-prediktivní model, spektrum pomocí lineární predikce. Aplikace LP. 
  • Cepstrální analýza, Mel-frekvenční cepstrum
  • Určování základního tónu hlasu
  • Kódování řeči.
  • Rozpoznávání řeči, dynamické programování DTW, skryté Markovovy modely HMM
  • Syntéza řeči
  • Software a knihovny pro zpracování řeči.
Osnova numerických cvičení:
 
  • Paramatrizace, DTW, HMM.
  • Prezentace projektů.
Osnova počítačových cvičení:
 
    V laboratořích (kromě poslední) je používán Matlab.
  • Rámce, okna, spektrum, předzpracování.
  • Lineární predikce (LPC).
  • Určování základního tónu.
  • Kódování.
  • Rozpoznávání - Dynamic time Warping (DTW).
  • Rozpoznávání - skryté Markovovy modely (Hidden Markov Model Toolkit - HTK).
Literatura referenční:
 
  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7 
  • Krčmová, N.: Fonetika a fonologie: zvuková stavba současné češtiny. ISBN 80-210-0137-2. Masarykova univerzita, Brno, 1990
  • Rabiner, L., Juang, B.H.: Fundamentals of Speech Recognition, Signal Processing, Prentice Hall, Engelwood Cliffs, NJ, 1993, ISBN 0-13-015157-2 
Literatura studijní:
 
  • Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, Praha, 1995, ISBN  80-200-0203-0
  • Gold, B., Morgan, N.: Speech and Audio Signal Processing, John Wiley & Sons, 2000, ISBN 0-471-35154-7
Průběžná kontrola studia:
  
  • půlsemestrální test 14b
  • projekty 29b
  • presentace výsledků na poč. cvičeních 6b