DZIEKAN i RADA WYDZIAŁU ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i INŻYNIERII BIOMEDYCZNEJ AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr inż. Leszka Gajeckiego |
MODELOWANIE JĘZYKA NATURALNEGO (POLSKIEGO) DLA POTRZEB BUDOWY SYSTEMU ROZPOZNAWANIA MOWY KLASY LVCSR |
Dyskusja odbędzie się 6 listopada 2013 roku o godz. 13:30 w Sali Posiedzeń Rady Wydziału EAIiIB, al. Mickiewicza 30, pawilon B-1, sala 4 |
PROMOTOR: Prof. zw. dr hab. inż. Ryszard Tadeusiewicz, Akademia Górniczo-Hutnicza w Krakowie |
RECENZENCI: Dr hab. inż. prof. UAM Grażyna Demenko, Uniwersytet Adama Mickiewicza w Poznaniu |
Prof. zw. dr hab. inż. Adam Kowalewski, Akademia Górniczo-Hutnicza w Krakowie |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
Modelowanie języka naturalnego (polskiego) dla potrzeb budowy
systemu rozpoznawania mowy klasy LVCSR
mgr inż. Leszek Gajecki
Promotor: Prof. zw. dr hab. inż. Ryszard Tadeusiewicz
Dyscyplina: Informatyka
Przedmiotem rozprawy jest modelowanie języka naturalnego (polskiego) dla potrzeb budowy systemu rozpoznawania mowy ciągłej z zastosowaniem dużego słownika LVCSR.
Aby osiągnąć ten cel wykazano tezy:
1. Jest możliwe wykonanie modelu językowego dla języka polskiego z użyciem sieci neuronowych - sieci samoorganizującej się mapy Kohonena.
2. Model języka naturalnego oparty na automatycznej ekstrakcji reguł pozwala uzyskać poprawę jakości rozpoznawania mowy polskiej w systemie klasy LVCSR w stosunku do szeroko stosowanego modelu bigramowego.
Model n-gramowy typowo stosowany w badaniach w niektórych językach (np. angielskim) jest rozwiązaniem wygodnym i wydajnym, jednakże sztywno uwzględnia kolejność wyrazów. Język polski potrzebuje takiej klasy modeli językowych, które uwzględniają swobodny (w pewnym zakresie) szyk zdania.
Tezy wykazano poprzez analizę uwarunkowań pracy modeli językowych, analizę znanych modeli statystycznych, gramatyk formalnych, wskazanie najważniejszych elementów gramatyk języka polskiego. Następnie zaproponowano model gramatyki powierzchniowej oparty o proste reguły językowe. Obszerną część pracy poświęcono autorskim modelom opartym o sieci neuronowe, które spełniają uwarunkowania szyku swobodnego.
Dodatkowo reguły językowe w modelach bazujących na sieciach neuronowych są utworzone poprzez automatyczną ich ekstrakcję z korpusu językowego, co pozwoli w przyszłości na budowę modelu automatycznie doskonalącemu się w trakcie użytkowania.
Pracę zakończono testami na zbiorze referencyjnym.
Pełna wersja autoreferatu