Spis treści



Zaproszenie na obronę pracy doktorskiej


DZIEKAN i RADA WYDZIAŁU
ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i INŻYNIERII BIOMEDYCZNEJ
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczną dyskusję nad rozprawą doktorską

mgr inż. Magdaleny Igras-Cybulskiej
ANALYSIS OF NON-LINGUISTIC CONTENT OF SPEECH SIGNALS
Termin:7 marca 2017 roku o godz. 13:30
Miejsce:Sala Posiedzeń Rady Wydziału EAIiIB
al. Mickiewicza 30, pawilon B-1, p. 4
PROMOTOR:Prof. zw. dr hab. inż. Mariusz Ziółko - Akademia Górniczo-Hutnicza
PROMOTOR POMOCNICZY: dr inż. Bartosz Ziółko - Akademia Górniczo-Hutnicza
RECENZENCI:Prof. zw. dr hab. inż. Zygmunt Vetulani - Uniwersytet im. Adama Mickiewicza w Poznaniu
Prof. dr hab. inż. Krzysztof Ślot - Politechnika Łódzka
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30


Recenzje


Streszczenie

Analysis of non-linguistic content of speech signals

mgr inż. Magdalena Igras-Cybulska

Promotor: prof. dr hab. inż. Mariusz Ziółko
Dyscyplina: Biocybernetyka i Inżynieria Biomedyczna


Głos jest nośnikiem wielu informacji - począwszy od treści, którą chcemy przekazać, przez tożsamość mówcy, aż po informację o afektywnych, psychologiczno-socjologicznych czy fizycznych atrybutach mówcy. Stan i cechy mówcy wpływają zarówno na sam głos, jak i sposób mówienia, składnię oraz semantykę mowy. Z technicznego punktu widzenia, wszystkie te informacje są zawarte w jednowymiarowym sygnale, dopiero odpowiednie metody parametryzacji i analizy statystycznej pozwalają na ekstrakcję wokalnych korelatów cech profilu mówcy.

Niniejsza praca łączy różne aspekty analizy informacji para- i nielingwistycznej zawartej w sygnale mowy: form i treści, które wykraczają poza zawartość słowną. Sposób mówienia został zbadany pod kątem takich funkcji, jak sygnalizowanie granic fraz, zdań, akcentów, czy też ekspresji stanów mówcy – emocji i nastawienia. Kluczowym celem przeprowadzonych prac była automatyzacja rozpoznawania poszczególnych aspektów profilu mówcy przy użyciu algorytmów uczenia maszynowego. Badania nad paralingwistyką stanowią gałąź technologii mowy kształtującą się od kilku dekad. To interdyscyplinarne pole zlokalizowane jest na pograniczu informatyki, przetwarzania sygnałów, lingwistyki, fonetyki, fonologii, psychologii i socjologii, jak również nauki medyczne i artystyczne. Pierwsza część pracy zawiera opis podłoża teoretycznego tej dyscypliny, z uwzględnieniem definicji, taksonomii oraz przeglądem literatury.

W części eksperymentalnej, autorka poszukuje parametrów akustycznych, modeli i metod opisu barwy głosu i sposobu mówienia, w tym struktury czasowej mowy (pauzy, akcenty, cechy segmentalne, prozodia), stosując analizę ilościową i jakościową. Dalsza część poświęcona jest ekstrakcji informacji wysokopoziomej o stanie i cechach mówcy. Dla tego zastosowania, zaadaptowano i zoptymalizowano algorytmy znane z innych gałęzi technologii mowy, m.in. analizę falkową oraz falkowo-Fourierowską. Opracowane zostały modele i algorytmy dla automatycznego rozpoznawania emocji i nastawienia mówcy. W badaniach wykorzystano różnorodne korpusy mowy (niektóre z nich zostały zebrane i opracowane przez autorkę), w tym zawierające monologi/dialogi, mowę czytaną/spontaniczną, nagrania w sytuacjach formalnych/nieformalnych, mówców profesjonalnych/niedoświadczonych, nagrania o różnej jakości: studyjnej, telefonicznej, z sytuacji życia codziennego.

Rezultaty pracy są stosowane dla celów innych systemów technologii mowy lub mogą być wykorzystane jako osobne narzędzia. Część badań dotycząca zjawisk niezależnych od kultury ma znaczenie również w kontekście języków innych niż polski. W zakresie języka polskiego, praca wnosi ewidencje dotyczące polskich fonemów, związków cech akustycznych z interpunkcją, jak również natury akcentu w polskim języku mówionym.

Tezy pracy

T1. Parametry akustyczne głosu i mowy stanowią uniwersalne wskaźniki zawartości paralingwistycznej mowy, jak również cech i stanu mówcy (emocji i nastawienia).
T2. Algorytmy state-of-the-art dla rozpoznawania mowy i mówcy mogą zostać wykorzystane bezpośrednio do automatycznej klasyfikacji cech paralingwistycznych i nielingwistycznych, przy zapewnieniu odpowiedniego materiału uczącego.


Ważniejsze publikacje autora rozprawy

  1. M. Igras, B. Ziółko: The role of acoustic features in marking accent and delimiting sentence boundaries in spoken Polish. Acta Physica Polonica A. 2014, 126(6), s. 1246–1257.
  2. M. Igras, B. Ziółko: Detection of sentence boundaries in Polish based on acoustic cues. Archives of Acoustics. 2016, 41(2), s. 233–243.
  3. M. Igras-Cybulska, B. Ziółko, P. Żelasko, M. Witkowski: Structure of pauses in speech in the context of speaker verification and classification of spontaneous speech type. EURASIP Journal on Audio, Speech, and Music Processing. 2016, 18(1).
  4. M. Igras, B. Ziółko: Akustyczne korelaty intonacji ironicznej. W: Sens i brzmienie, red. Magdalena Danielewiczowa et al., Warszawa: Wydawnictwo Uniwersytetu Kardynała Stefana Wyszyńskiego, 2015. s. 33–48.
  5. M. Igras, B. Ziółko: Rodzaje pauz akustycznych i ich korelacje z interpunkcją w transkrypcjach mówionego języka polskiego. W: Bogactwo współczesnej polszczyzny, pod red. Piotra Żmigrodzkiego, Sylwii Przęczek-Kisielak. Kraków: Towarzystwo Miłośników Języka Polskiego, 2014. s. 61–69.
  6. M. Igras, B. Ziółko: Baza danych nagrań mowy emocjonalnej. Studia Informatica. 2013, 34(2B), s. 67–77.
  7. M. Igras, W. Wszołek: Pomiary parametrów akustycznych mowy emocjonalnej – krok ku modelowaniu wokalnej ekspresji emocji. Pomiary, Automatyka, Kontrola. 2012, 58(4), s. 335–338.
  8. M. Igras, B. Ziółko: Wavelet method for breath detection in audio signals. In: ICME 2013: 2013 IEEE International Conference on Multimedia and Expo: July 15–19, 2013, San Jose, USA: proceedings, s. 1–6.
  9. M. Igras, M. Ziółko, J. Gałka: Wavelet evaluation of speaker emotion. W: Proceedings of the eighteenth national conference on Applications of mathematics in biology and medicine: Krynica Morska, 23–27 September 2012, s. 54–59.
  10. M. Igras, J. Grzybowska, M. Ziółko: Classification of emotions in emergency call center conversations. W: ICACII 2015: 17th International Conference on Affective Computing and Intelligent Interaction: international scholarly and scientific research & innovation: May 18–19, 2015, Paris, France, s. 1448.
  11. M. Ziółko, P. Jaciów, M. Igras: Combination of Fourier and wavelet transformations for detection of speech emotions. W: 7th International Conference on Human System Interactions (HSI): 16–18 June 2014, Costa da Caparica. s. 49–54.
  12. M. Igras, B. Ziółko: Different types of pauses as a source of information for biometry. W: Models and analysis of vocal emissions for biomedical applications: 8th international workshop: Firenze, Italy, December 16–18, 2013: proceedings, s. 197–200.
  13. M. Igras, J. Grzybowska, M. Ziółko: Emotional profiles of emergency phone callers. W: IACS-2014: the first conference of the International Association for Cognitive Semiotics: September 25–27, 2014, Lund, s. 196–197.
  14. M. Majdak, M. Igras: Metafory głosu – analiza akustyczna. Prace Filologiczne. 2015, 66, s. 179–199.
  15. M. Majdak, M. Igras, A. Domeracka-Kołodziej: Looking for natural voice – the effectiveness of the program of Postgraduate Studies of Voice and Speech Training. W: 2014 XXII Annual Pacific Voice Conference: Kraków, Poland, 11–13 April 2014, s. 1–6.
  16. K. Barczewska, M. Igras: Detection of disfluencies in speech signal. Challenges of Modern Technology. 2013, 4(2), s. 3–10.
  17. M. Witkowski, M. Igras, J. Grzybowska, P. Jaciów, J. Gałka, M. Ziółko: Caller identification by voice. W: 2014 XXII Annual Pacific Voice Conference (PVC): Kraków, Poland, 11–13 April 2014: proceedings, s. 1–7.
  18. J. Gałka, J. Grzybowska, M. Igras, P. Jaciów, K. Wajda, M. Witkowski, M. Ziółko: System supporting speaker identification in emergency call center. W: INTERSPEECH 2015, September 6–10, 2015, Dresden, Germany eds.: Sebastian Möller, [et al.]. Germany: International Speech Communication Association, s. 110.
  19. M. Witkowski, J. Gałka, J. Grzybowska, M. Igras, P. Jaciów, M. Ziółko: Online caller profiling solution for a call centre, The Speaker and Language Recognition Workshop - Odyssey 2016, Show&Tell session, June 21-24, Bilbao, Spain.