DZIEKAN i RADA WYDZIAŁU ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i INŻYNIERII BIOMEDYCZNEJ AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
|
---|---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr inż. Magdaleny Igras-Cybulskiej |
|
ANALYSIS OF NON-LINGUISTIC CONTENT OF SPEECH SIGNALS | |
Termin: | 7 marca 2017 roku o godz. 13:30 |
Miejsce: | Sala Posiedzeń Rady Wydziału EAIiIB al. Mickiewicza 30, pawilon B-1, p. 4 |
PROMOTOR: | Prof. zw. dr hab. inż. Mariusz Ziółko - Akademia Górniczo-Hutnicza |
PROMOTOR POMOCNICZY: | dr inż. Bartosz Ziółko - Akademia Górniczo-Hutnicza |
RECENZENCI: | Prof. zw. dr hab. inż. Zygmunt Vetulani - Uniwersytet im. Adama Mickiewicza w Poznaniu |
Prof. dr hab. inż. Krzysztof Ślot - Politechnika Łódzka | |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
Analysis of non-linguistic content of speech signals
mgr inż. Magdalena Igras-Cybulska
Promotor: prof. dr hab. inż. Mariusz Ziółko
Dyscyplina: Biocybernetyka i Inżynieria Biomedyczna
Głos jest nośnikiem wielu informacji - począwszy od treści, którą chcemy przekazać, przez tożsamość mówcy, aż po informację o afektywnych, psychologiczno-socjologicznych czy fizycznych atrybutach mówcy. Stan i cechy mówcy wpływają zarówno na sam głos, jak i sposób mówienia, składnię oraz semantykę mowy. Z technicznego punktu widzenia, wszystkie te informacje są zawarte w jednowymiarowym sygnale, dopiero odpowiednie metody parametryzacji i analizy statystycznej pozwalają na ekstrakcję wokalnych korelatów cech profilu mówcy.
Niniejsza praca łączy różne aspekty analizy informacji para- i nielingwistycznej zawartej w sygnale mowy: form i treści, które wykraczają poza zawartość słowną. Sposób mówienia został zbadany pod kątem takich funkcji, jak sygnalizowanie granic fraz, zdań, akcentów, czy też ekspresji stanów mówcy – emocji i nastawienia.
Kluczowym celem przeprowadzonych prac była automatyzacja rozpoznawania poszczególnych aspektów profilu mówcy przy użyciu algorytmów uczenia maszynowego.
Badania nad paralingwistyką stanowią gałąź technologii mowy kształtującą się od kilku dekad. To interdyscyplinarne pole zlokalizowane jest na pograniczu informatyki, przetwarzania sygnałów, lingwistyki, fonetyki, fonologii, psychologii i socjologii, jak również nauki medyczne i artystyczne. Pierwsza część pracy zawiera opis podłoża teoretycznego tej dyscypliny, z uwzględnieniem definicji, taksonomii oraz przeglądem literatury.
W części eksperymentalnej, autorka poszukuje parametrów akustycznych, modeli i metod opisu barwy głosu i sposobu mówienia, w tym struktury czasowej mowy (pauzy, akcenty, cechy segmentalne, prozodia), stosując analizę ilościową i jakościową. Dalsza część poświęcona jest ekstrakcji informacji wysokopoziomej o stanie i cechach mówcy. Dla tego zastosowania, zaadaptowano i zoptymalizowano algorytmy znane z innych gałęzi technologii mowy, m.in. analizę falkową oraz falkowo-Fourierowską. Opracowane zostały modele i algorytmy dla
automatycznego rozpoznawania emocji i nastawienia mówcy.
W badaniach wykorzystano różnorodne korpusy mowy (niektóre z nich zostały zebrane i opracowane przez autorkę), w tym zawierające monologi/dialogi, mowę czytaną/spontaniczną, nagrania w sytuacjach formalnych/nieformalnych, mówców profesjonalnych/niedoświadczonych, nagrania o różnej jakości: studyjnej, telefonicznej, z sytuacji życia codziennego.
Rezultaty pracy są stosowane dla celów innych systemów technologii mowy lub mogą być wykorzystane jako osobne narzędzia. Część badań dotycząca zjawisk niezależnych od kultury ma znaczenie również w kontekście języków innych niż polski. W zakresie języka polskiego, praca wnosi ewidencje dotyczące polskich fonemów, związków cech akustycznych z interpunkcją, jak również natury akcentu w polskim języku mówionym.
Tezy pracy
T1. Parametry akustyczne głosu i mowy stanowią uniwersalne wskaźniki zawartości paralingwistycznej mowy, jak również cech i stanu mówcy (emocji i nastawienia).
T2. Algorytmy state-of-the-art dla rozpoznawania mowy i mówcy mogą zostać wykorzystane bezpośrednio do automatycznej klasyfikacji cech paralingwistycznych i nielingwistycznych, przy zapewnieniu odpowiedniego materiału uczącego.