DZIEKAN i RADA WYDZIAŁU ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i INŻYNIERII BIOMEDYCZNEJ AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE | |
---|---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr inż. Katarzyny Barczewskiej |
|
AUTOMATYCZNE ROZPOZNAWANIE GESTÓW NA POTRZEBY WSPOMAGANIA INTERAKCJI Z KOMPUTEREM OSÓB Z PORAŻENIEM MÓZGOWYM ZE SZCZEGÓLNYM UWZGLĘDNIENIEM DZIECI | |
Termin: | 30 października 2018 roku o godz. 12:00 |
Miejsce: | pawilon B-1, sala 4 Al. Mickiewicza 30, 30-059 Kraków |
PROMOTOR: | Prof. dr hab. inż. Ryszard Tadeusiewicz – Akademia Górniczo-Hutnicza |
RECENZENCI: | Prof. dr hab. inż. Bożena Kostek – Politechnika Gdańska |
Dr hab. inż. Adam Wojciechowski – Politechnika Łódzka | |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
AUTOMATYCZNE ROZPOZNAWANIE GESTÓW NA POTRZEBY WSPOMAGANIA INTERAKCJI Z KOMPUTEREM OSÓB Z PORAŻENIEM MÓZGOWYM ZE SZCZEGÓLNYM UWZGLĘDNIENIEM DZIECI
Rozprawa doktorska dotyczy zagadnienia automatycznego rozpoznawani gestów. W związku z trudnościami w pozyskaniu danych od docelowych użytkowników, ograniczeniami, a także zróżnicowaniem ich indywidualnych predyspozycji, sprecyzowano szereg wymagań, jakie powinien spełniać system automatycznego rozpoznawania gestów dedykowany dla osób z porażeniem mózgowym. Na podstawie analizy sporządzonej listy wymagań sprecyzowano cel pracy. Celem było stworzenie systemu szybko uczącego się nowych gestów wykonywanych przez nowego użytkownika na podstawie niewielkiej liczby powtórzeń.
Dokonano przeglądu literatury poświęconej automatycznemu rozpoznawaniu gestów, począwszy od sposobów akwizycji danych, przez metody przetwarzania, po stosowane modele gestów. Na podstawie przeglądu opracowano koncepcję rozwiązania, w którym gesty dynamiczne, reprezentowane jako sekwencje podjednostek, modelowano przy pomocy równoległych ukrytych modeli Markowa (ang. Parallel Hidden Markov Models, PaHMM). Problem niewielkiej ilości danych gestów osób z porażeniem mózgowym rozwiązano inspirując się na metodzie transfer-learningu: do zbudowania modeli gestów osób niepełnosprawnych zaplanowano wykorzystać modele gestów osób zdrowych. Na podstawie zgromadzonej bazy gestów osób zdrowych wytrenowano modele podjednostek gestów (ukryte modele Markowa, HMM). Następnie wykorzystując leksykon wytrenowanych podjednostek wykonano ich najlepsze dopasowanie do gestów nowych osób. Najlepsze dopasowanie polegało na znalezieniu sekwencji podjednostek maksymalizującej kryterium największej wiarygodności wygenerowania danych obserwacji (algorytm Viterbiego). Dzięki wykorzystaniu stanów nieemitujących modeli podjednostek, modele podjednostek z rozpoznanej sekwencji „sklejono” w model nowego gestu, który był potem wykorzystywany przez system rozpoznawania.
Do eksperymentów wykorzystano zarówno sensor Kinect 2.0 jak i czujnik inercyjny o 9 stopniach swobody. Eksperymenty przeprowadzono zarówno na grupie osób zdrowych jak i niepełnosprawnych. Wykonano też szereg dodatkowych analiz, w których wprowadzono nowy prosty wektor cech wystarczający do opisu gestykulacji, zaproponowano metodę automatycznego grupowania cech do kanałów modelu równoległego PaHMM, a także dokonano analizy doboru liczby kanałów. Opracowano metodę automatycznej indywidualnej rekomendacji gestów na potrzeby interakcji z komputerem, przy pomocy której można wskazać zestaw gestów, które najlepiej się sprawdzą w interakcji człowiek komputer. Zaproponowano również wykorzystanie większej liczby miar pozwalających na ocenę działania systemu automatycznego rozpoznawania gestów w warunkach rzeczywistego użytkowania.
Wykazano, że do stworzenia modeli, które pozwalają uzyskać wysokie wartości skuteczności rozpoznawania, wystarcza wykonanie przez nowego użytkownika chociaż jednego powtórzenia nowego gestu. Poruszana problematyka wpisuje się na listę najważniejszych kierunków rozwoju metod automatycznego rozpoznawania gestów. Zaproponowane rozwiązanie jest istotne z punktu widzenia rozwoju metod uczenia na podstawie małej liczby przykładów uczących, wykorzystania metod transfer-learningu, a także rozpoznawania gestów niezależnie od użytkownika. Wypracowane rozwiązania mogą mieć przełożenie na wiele innych zastosowań automatycznego rozpoznawania gestykulacji.
Pełna treść rozprawy jest dostępna w bibliotece Akademii Górniczo-Hutniczej.