Synchronizace mezi jazykem a gesty během interakce s robotem

Synchronizace mezi jazykem a gesty během interakce s robotem

V přirozené komunikaci lidé využívají kombinaci multimodálních signálů, jako je úhel pohledu, řeč a gesta. Není však jasné, zda jsou gesta časově sladěna s řečí, nebo mají odlišný nástup. Tyto poznatky jsou klíčové pro vývoj humanoidních robotů, kteří musí porozumět přirozené řeči v čase i prostoru. Proto jsme analyzovali vztah mezi začátkem a vrcholem deklarativních (ukazovacích) gest a odpovídajícími prvky řeči.

Zaměřili jsme se na možné rozdíly mezi začátkem gesta a začátkem řeči, mezi časem vrcholu gesta a odpovídající jazykovou částí a mezi celkovým trváním gesta a řečové instrukce. Účastníci komunikovali s humanoidním robotem ve VR, kde jej učili rozpoznávat objekty a jejich vlastnosti pomocí řečových instrukcí a gest. Scénář zahrnoval 16 úloh s pěti objekty v pseudonáhodném rozmístění. Během úloh byly zaznamenávány pohyby hlavy, trupu, rukou i zvukový záznam.

Zásadním zjištěním bylo, že řeč předcházela gestu: průměrný čas zahájení řeči byl 0,6 s, u gest 1,16 s. Vrchol gesta následoval po vyřčení klíčového slova a gesta trvala déle než řeč, což potvrzuje jejich doplňující roli v komunikaci.

Studie má však omezení. Vzorek tvořili převážně mladší účastníci a rozdíly v jejich zkušenostech s VR mohly ovlivnit načasování gest. VR navíc nemusí plně zachycovat přirozenou interakci.


Sepsala: Mgr. Karina Zamrazilová et al.

Zdroj:

Zamrazilova, K., Vavrecka, M., Ostapenko, S., Sejnova, G., & Skovierova, J. (2025, September). “Are Multimodal Signals Synchronous?”: Temporal Relation of Declarative Gestures and Language Instructions in Human Robot Interaction. In 2025 IEEE International Conference on Development and Learning (ICDL) (pp. 1-6). IEEE.