Mondom, hogy értsd: hogyan van értelme hangalapú játékot fejleszteni?

Mára a fizikai input eszközök (billentyűzet, egér, érintőképernyő) mellett tagadhatatlanul mindenhová elterjedtek a mikrofonok is. Megtalálhatók az összes telefonban, de egyre gyakrabban fellelhető perifériának számítanak az otthoni számítógépeknél is. A beszédfelismerő technológia ezzel együtt szintén olyan szintre jutott, hogy egyre komplexebb beviteli eszközként képes kezelni a mikrofont. Felmerül hát a kérdés: hogyan használható a hangalapú vezérlés az olyan összetett folyamatokban, mint a játékok?

Néhány évvel ezelőttig, a hanggal vezérelhető AI-asszisztensek felbukkanásáig relatíve alacsony volt azon alkalmazások száma, melyek aktívan használták volna a mikrofonból érkező jeleket, mint elsődleges inputot. Mára viszont ezek az asszisztensek olyan technológiai versenyt generáltak, melynek köszönhetően nemcsak fejlettebbé, de sokkal elérhetőbbé is váltak a fejlesztők számára a beszédfelismerő alkalmazások a különböző speech-API-okon keresztül.
Mielőtt azonban belevágnánk a hangalapú játékok fejlesztésébe, érdemes körülnézni az iparágban. Milyen fontos szempontokat kell figyelembe venni egy ilyen játék fejlesztése során, milyen típusú játékokban van egyáltalán értelme felhasználni a technológiát, és végső soron milyen akadályai lehetnek a hangvezérelt játékok széleskörű elterjedésének?

Beszédfelismerés vs. hangfelismerés

Fontos elkülöníteni ezt a két fogalmat. A beszédfelismerés az emberi nyelvekben jelen lévő mintázatok, összefüggések felismerésével foglalkozik. Így például, ha a felhasználó kimondja azt a szót, hogy „fel”, akkor a rendszer felismeri a szót a hangjel tulajdonságai alapján, és képes a nyelvi adatbázissal összehasonlítva értelmezni is. Ugyanígy akár összetett mondatokat, például kérdéseket vagy utasításokat is képes dekódolni.
Ezzel szemben a hangfelismerés pusztán a szavakat is meghatározó hangtulajdonságok azonosítását, számszerűsítését jelenti. Így például a hangerő, a hangmagasság, vagy a hangzók sajátosságainak érzékelését.

Minden hangvezérelt megoldás ebbe a két nagy csoportba osztható. Érdemes kiemelni két fontos különbséget a kettő között, ez pedig a számítási idő. Ahogy azt Susumu Harada et al. tanulmányában is olvashatjuk, a fizikai input nagy előnye minden hangvezérléssel szemben, hogy a számítógépek szinte azonnal feldolgozzák a beérkezett jeleket.

Kép forrása: Harada tanulmány (elsősorban csak a reaction time és a processing time kiemelése miatt)

A beszédfelismerés feldolgozási ideje ennél jelentősen nagyobb, hiszen az elhangzott szavakat és mondatokat első körben rögzíteni kell, majd feldolgozni, értelmezni a konkrét szavakat, ezután pedig még a nyelvi szintaxisokat is dekódolni kell.

Ehhez képest nagyjából a fizikai input és a beszédfelismerés között helyezkedik el a hangvezérlés számítási ideje. A hangvezérléshez köthető hátrány, hogy az esetek többségében a felhasználónak olyan parancsokat kell adnia, melyek a többi vezérlési elvhez képest szokatlanok, tanulást igényelnek – így a felhasználó reakcióideje lassabb lehet, legalábbis a kezdeti időkben mindenképp.

A hangalapú jelek feldolgozása ráadásul egyelőre olyan komplex számítást igényel, hogy gyorsabb azt nem magán az eszközön, hanem egy távoli adatközpontban elvégezni. Így egyelőre az internetkapcsolattól is függ, milyen gyorsan tudja az eszközünk feldolgozni a hangjeleket.

Itt a képen elsősorban a Simple Reaction Task részt emelném ki grafikonban, a reaction és a system time összehasonlítását

 

Hogyan használható fel a hangalapú vezérlés a játékokban?

Fontos kihangsúlyozni, hogy a ma elérhető videojátékok jelentős többsége esetében különösen fontos a reakcióidő és a feldolgozási idő. Hiszen ezek a játékok többnyire olyan kihívásokra épülnek, melyek a felhasználótól megadott (vagy lehető legrövidebb) idő alatt megfelelő inputot követelnek meg. Így például egy autóversenyzős játékban a kanyarokra kell reagálnunk, mielőtt nekimennénk a falnak, egy lövöldözős játékban pedig időben meg kell húznunk a ravaszt, vagy fedezékbe vonulni az ellenfelek elől, mielőtt sebzést kapnánk. Amíg a hangalapú irányítás nem tudja túlteljesíteni a fizikai irányítás sebességét, addig csak olyan speciális esetekben használható, ahol az időbeliség nem fontos tényező.

Így a beszédfelismeréssel legkönnyebben megvalósítható játéktípusok a trivia, azaz kvízalapú játékok, vagy az alapvetően is szövegalapú játékok, mint például a Zork című szerepjáték. Itt általában nemcsak a vezérlés, de a megjelenítés is lehet teljesen hangalapú – természetesen a kvízek esetében ez sokkal könnyebben kivitelezhető, mint egy bonyolultabb szerepjátéknál.

A hangfelismerés legkézenfekvőbb felhasználása az ősi emberi kifejezésmódokhoz, az énekléshez és a zenéhez köthető alkalmazások. Így például rengeteg karaoke-alapú játék létezik, melyek a felhasználó ritmusérzékét és hangmagasságeltalálási képességét (hétköznapi nyelven: énektudását) veti össze a dalok tulajdonságaival, és ez alapján oszt ki pontszámokat. Ezen játékok általában valamilyen kottához hasonlítható koordinátarendszerben jelölik a megfelelő hangok ritmusát és hangmagasságát.

 

Kép forrása: Playstation, SingStar

A korábban már idézett Harada tanulmány említi a University of Washington fejlesztését, a Vocal Joystick Engine-t. Ennek lényege, hogy pusztán hangokkal vezérelhetővé válik egy bármilyen folyamatos mozgást rögzítő input, azaz például egy egér vagy egy joystick. A magánhangzótípusokhoz irányokat rendelnek, míg a hangmagassághoz és a hangerőhöz sebességet. Ez már bármilyen komplex egéralapú játékot vezérelhetővé tesz pusztán egy mikrofon segítségével, viszont értelemszerűen sokkal lassabb, mint a hagyományos irányítási módok, és használatának elsajátítása is hosszabb időt vesz igénybe.

Ahogy a fenti videó is mutatja, a Vocal Joystick Engine elsősorban nem is amiatt jött létre, hogy valóban integrálja a gaming iparba a hangvezérlést. Elsődleges célja inkább az akadálymentesítés, hogy azok számára is elérhetővé tegye a játékokat, akik valamilyen mozgásszervi fogyatékosság miatt képtelenek a hagyományos beviteli eszközök működtetésére.

Szintén egy lehetséges útja a hangvezérlés gaming integrációjának a beszédfelismerő asszisztensek felhasználása a játékokban. Hogy erre közeli példát hozzunk, a magyar startup, a FridAI fejlesztett hasonló megoldást. Ennek lényege, hogy a játékosok szóban kérhetnek segítséget, amikor elakadnak. Az asszisztens felkutatja az elérhető adatbázisokat (hivatalos, illetve játékosok által üzemeltetett wiki forrásokat) és a játékhoz köthető fórumokat, és ez alapján segít megoldani a kihívást.

Ehhez hasonló megoldáson dolgozik a Sony is, legalábbis erre utal egy nemrégiben benyújtott szabadalmi kérelmük. Ez a rendszer azonban nem crowdsource-olja a játékok akadályainak leküzdését, hanem inkább mikrotranzakciók, azaz kvázi pénzért megvásárolható segítségek felé tereli a felhasználót.

Még mélyebb integráció lehetne, ha ezek a hangalapú asszisztensek aktívan be lennének építve a játékba. Rengeteg olyan játék létezik, ahol a játékosok egy nagyobb világba léphetnek be, és ott interakcióba léphetnek ennek a világnak a lakóival. Egyelőre az ilyen beszélgetésmotorok relatíve egyszerűen működnek: vagy egy felsorolásból, vagy egy kör alakú tárcsáról választhatjuk ki saját karakterünk mondatait, és a beszélgetés ez alapján halad előre egy ágrajzban.

Ha ezeket a beszélgetésmotorokat beszédvezérlésre cserélnénk, valós párbeszédeket hozhatnánk létre, ahol nem előre megírt mondatokból választhatunk, hanem immerzív szerepjátékban vehetnénk részt. Egyelőre egyik fejlesztőstúdió sem tart ott, hogy képes legyen minden szereplőhöz ilyen asszisztens-rendszert építeni, viszont ez tűnik az egyértelmű következő lépésnek.

A hangalapú játékok előtt álló akadályok

Egyelőre a hang- illetve beszédvezérelt játékok előtt álló legfontosabb akadály, hogy ez a típusú beviteli mód minden szempontból lassabb, mint a többi elérhető alternatíva. Ám a feldolgozási idő napról napra javul, és lehet, hogy hamarosan már egy okostelefon is képes lesz hangjelek feldolgozására. Így vélhetően ahogy egyre elterjedtebbek lesznek ezek a megoldások, az emberi reakcióidő is rövidül majd, ahogy megszokjuk ezt a fajta vezérlést.

Szintén egy akadály, hogy a hangalapú asszisztensek többnyire még csak néhány nyelven (többnyire angolul) használhatók igazán hatékonyan. Ahogy azonban más nyelveken is elérhetőek lesznek ezek a fejlesztések, úgy egyre több felhasználó előtt nyílik majd meg a lehetőség, hogy kipróbálják a hangalapú játékokat.

Tagadhatatlan előnye a fizikai inputoknak (így hátránya a hangvezérlésnek), hogy ezek használata már készségszinten elterjedt. A ma született gyerekek már sokszor előbb tanulják meg a tabletet kezelni, mint hogy kimondanák az első szavukat. Ez tovább nehezíti a hangvezérlés esélyeit a fizikai inputokkal vívott sebességharcban.

Szintén nagy akadályt állít a hangalapú játékok elterjedésének az a tény is, hogy a videojáték alapvetően egy egyedül, csöndben végzett időtöltés. Senki sem szeretne például az ebédszünetében vagy a buszon hangalapú játékkal játszani, pedig a mobiljáték statisztikák alapján a felhasználók többsége ezekben az időkben talál időt arra, hogy játsszon.

Félő, hogy ezek alapján a technológia hosszú időre megreked majd a „gimmickszinten. Egyelőre nehéz ugyanis valóban releváns, mással ki nem váltható lehetőséget találni a hangalapú játékokra a fent említett trivia és éneklés alapú megoldásokat leszámítva. Ami viszont jobban megfogná a játékosokat, például a valós idejű asszisztensekre épülő játékbeli beszélgetésmotor, az pedig egyelőre technológiailag túl komplex feladat a stúdiók számára.

Addig is azonban vannak olyan területek, ahol a hangalapú vezérlés valóban segítséget nyújthat, és amelyeket választva a fejlesztők tovább tökéletesíthetik a technológiát.

Hogyan és miért érdemes hangalapú játékokat fejleszteni?

Az első és legegyértelműbb útvonal az akadálymentesítés. Sajnos a videojátékok elsődleges, fiatal célközönségében is sokan vannak, akik különböző mozgásszervi problémák miatt képtelenek a hagyományos vezérlőket irányítani. Számukra a fejlesztők készíthetnek olyan akadálymentesítő megoldásokat, melyek a játék bizonyos funkcióit hanggal is vezérelhetővé teszik. Ezen kísérletek során kialakulhatnak azok a gyakorlatok, melyek segíthetik igazolni, hogy a komplex játékokban is van helye a hangalapú irányításnak.

Rengeteg olyan szituáció van, ahol a felhasználó kezétmár leköti valamilyen fizikai vezérlő. Így például már ma is kiegészíti a játékok többségét a hangalapú kommunikáció: ebben a helyzetben nem egy programozott aspektust vezérlünk a játékban, hanem a fejlesztést nem igénylő csoportdinamikát, stratégiakidolgozást. Azaz megbeszéljük a csapattársainkkal, hogy a következő körben az épületet jobbról kerüljük meg, és úgy támadjuk meg a másik csapatot – bizonyos szempontból ez is hangalapú játékvezérlés.

Szintén ilyen helyzetet teremt az autóvezetés is. A korábban már említett, kifejezetten sofőrök számára készített Drivetime például egy 100%-ban hangvezérelt kvízjáték, melyet biztonságosan játszhatunk aközben, hogy a kezünket és szemünket teljesen lefoglalja a vezetés.

Bár még mindig csak fejlődő terület, a virtuális valóság terén is nagy előrelépéseket hozhat a hangalapú vezérlés. Ennek elsődleges oka, hogy a jelenlegi VR-felhasználók még mindig early adoptereknek számítanak – ennek megfelelően könnyebben meggyőzhetőek újfajta vezérlési módok kipróbálására. Ráadásul egy jól kidolgozott hangvezérlés segíthet még immerzívebbé tenni a játékokat, ami szintén az egész technológia egyik kitűzött célja.

Látható tehát, hogy a hangalapú játékok előtt még rengeteg a kiaknázatlan lehetőség, de nem szabad ignorálni az előtte álló akadályokat sem. Szinte biztos, hogy a feldolgozási idő és a komplexebb rendszerek fejlesztése idővel meg fog valósulni, ám valószínűleg erre még sokat kell várni. Addig is a fejlesztőknek oda kell figyelniük, hogy kihasználják a technológia erősségeit, hogy valós áttörést érhessenek el, és megszólíthassák a szélesebb körű játékos közösséget.

Oszd meg velünk véleményed

Kérem írd be üzenetedet

Kérem írd be email címed!

Kérem írd be üzenetedet

Küld

Website-okat, mobil applikációkat és szoftvereket tervezünk, hogy segítsünk megvalósítani üzleti céljaidat!

Csapatunk

Kapcsolat

Kedves Ergo,

A nevem
. Az email címem
. Üzenetem:

ajánlott
cikkek

Find out more about the topic

Tudatosabb és gondosabb funkcióválasztást!

2020. máj. 18. | 12 perc olvasás

Dr. Rung András, az Ergománia CEO-ja „Choose your features with care“ címmel adott elő az budapesti eFinance & Fintech Festival 2020 eseményen, angol nyelven. Előadásának bevezetőjében arról beszélt...

Az azonnali fizetés kialakulása, és amit tudni érdemes

2020. Már. 29. | 12 perc olvasás

Annak ellenére, hogy azonnali üzenetváltás korát éljük, a banki utalásoknál akár egy egész napot is várnunk kellett, míg az összeg a címzett számláján megjelent. Nem beszélve arról, ha az utalás ideje...