Terjed a szó(és)beszéd: a hangalapú kezelőfelületek meghódítják a világot
A hangalapú kezelőfelületek, a VUI-k népszerűsége töretlen, és évről évre új területeket hódítanak meg.
A technológia fejlődésével és a felhasználói igények változásával a hangalapú kezelés többé már nem sci-fi a telefonok, számítógépek, digitális asszisztensek esetében, sőt a VUI ma már jelen van az okosingatlanokban vagy járművek fedélzetén is. A koronavírus-járványhoz hasonló pandémiás esetekben egyébként is kifejezetten előnyös, ha az emberek érintés nélkül tudják kezelni a különféle eszközöket, főként közterületen.
Ha pusztán hangparancsokkal is lehet egy liftet használni vagy éppen jegyet, üdítőt vagy könyvet venni automatából, akkor az a fertőzés terjedését is csökkentené. Szintén hatékony védelmet jelent, ha úgy lehet sorszámot húzni postán és bankfiókban, hogy elég ezt szóbeli utasításokkal végrehajtani.
A kényelem és használhatóság legalább ennyire fontos, sőt kimondhatjuk, hogy messze biztonságosabb is az eszközök kezelése minden esetben, amikor egyébként meg kell osztani a figyelmet. A rossz időben használt mobil rengeteg baleset forrása, ha viszont tisztán beszéddel is irányítható, sőt megoldható a chatüzenetek, sms-ek küldése és „olvasása” is, akkor azzal mindenki csak nyerhet!
A jövő tehát elkezdődött és már most egyre többen érzik úgy, elképzelhetetlen az életük VUI nélkül – még ha sokszor ezt nem is realizálják ebben a formában. Lássuk tehát, mi most a helyzet a hangalapú irányítás terén és mi várható a következő 5-10 évben.
(Okos)eszközök hangalapú kezelőfelülettel
Ma már közhelyszámba megy a fejlett világban, hogy beszélhetünk bizonyos eszközökhöz – és azok reagálni is fognak. Pár évtizede még senki se várta el, hogy ha veszekszik a televízióval vagy szidja a sütőt, akkor válaszoljon is a renitens gép.
Míg 1980-ban tényleg csoda lett volna, ha megszólal a tévé, addig 2025-ben már az lesz a fura, ha nem válaszol egy felső kategóriás készülék, hiszen már 2018-ban nyilvánossá vált, hogy három cég, a Sony, a Hisense és az LG is azon dolgozik, hogy az okostévéiket összekapcsolják az Amazon Alexával.
Habár az igazán „értelmes” okostelevízióra még várni kell (néhányat azért most is lehet hanggal irányítani), számos, valódi VUI-val rendelkező készülék már most is beköltözött sok millió háztartásba.
Otthoni digitális asszisztensek
A leggyakoribbnak tekinthető, elsődlegesen vagy kizárólag hangalapú kezelőfelülettel irányítható eszközök közé tartoznak az otthoni digitális asszisztensek. Az Amazon Echo (más néven Alexa), a Siri vagy a Google Nest már jól ismertek, és még több eszköz készül meghódítani a piacot, köztük a Mycroft, a világ első, nyílt forráskódú, mesterséges intelligenciát használó virtuális asszisztense.
Az Echo-hoz és a Google Assistanthoz hasonló digitális asszisztensek tökéletes példák a VUI megfelelő alkalmazására, illetve (szinte teljes) kizárólagosságára: lényegében egy minimalista formatervezésű kis készülékek, amik leginkább egy „cserepes mikrofonhoz” hasonlítanak.
Az Ergomania-nál mi is tisztában vagyunk azzal, hogy miként lehet piacvezető technológiával olyan VUI-t fejleszteni, ami mellett felesleges a grafikus felület. A titok nyitja pedig a felhasználói igények szerint megalkotott rendszer.
Nincs mindegyiken grafikai kijelző, távirányító se tartozik hozzájuk, így a felhasználók elsősorban vagy egy központi applikációval, vagy hangparancsokkal, illetve párbeszéd rendszerű hangutasításokkal tudják kezelni a rendszerüket.
Kifejezett előnye a Google Nest és Home rendszernek, hogy alapvetően nincs szükség semmiféle extra kütyüre vagy appra, hogy irányíthassuk a digitális asszisztenst, bár rendelkezésre áll, ha például az otthonunktól távolról akarjuk vezérelni a rendszert, vagy ellenőrizni a biztonsági kamerát.
Az Amazon Echo felett szürke felhők gyűlnek
Emellett adatvédelmi aggályok is felmerültek az idők során, hiszen ezek az eszközök folyamatosan figyelik a környezetüket, hogy mikor mondják ki az aktiváló hangparancsot.
Illetve az elhangzott szavak, mondatok, párbeszédek továbbítása és elemzése ugyancsak rengeteg adatvédelmi és személyiségi jogi kérdést vetett fel, főként az Amazon Alexája esetében (itt a személyiségi jogi gondokról, itt pedig adatvédelmi incidensről írnak).
A VUI tervezésekor már eleve érdemes figyelembe venni tehát az adatok védelmét. Az Ergomania például elkötelezett a privát szféra és a személyes adatok védelme mellett, és mindent megteszünk azért, hogy az általunk fejlesztett rendszerek védjék a felhasználók érdekeit is.
Már a házunkat is irányíthatjuk a Google vagy a Homey segítségével
A Google Nest az induláskor még Google Home névre hallgatott – ez most csak az applikáció neve, míg a Nest az egész rendszert jelöli.
Ma már valódi okosotthon-központtá nőtte ki magát, amelyet részben VUI részben grafikus felületen át kezelhetünk: a hőfokszabályzó és a világítás beállításától kezdve a riasztó kezelésén át egészen az „okos zárak” használatáig mindent irányíthatunk vele.
A Homey, amely szintén elsősorban a hangalapú kezelőfelületre épít, célzottan az okoseszközökkel „felokosított” lakás irányítására hozta létre a holland Athom cég. A központi egységet a “Hey, Homey” hangparanccsal lehet aktiválni, de többre képes, mint az okosberendezés menedzselése: párbeszéd alapú intelligenciával bír, ami szükség esetén kérdésekkel pontosítja az egyes utasításokat.
Például ha megkapja azt az utasítást, hogy „este nyolckor indítsd el az Xyz filmet” megkérdezi, hogy feliratosan akarja-e a felhasználó megnézni. Amerikában ez ritkán merül fel kérdésként, de Európában teljesen szokványos, hogy rengetegen tanulnak úgy második-harmadik nyelvet, hogy eredeti hanggal nézik a filmeket, de a felirat a saját nyelvükön olvasható.
Említésre érdemes még két olyan, a Google Home-mal irányítható fejlesztés is, amelyek évtizedek óta megannyi nő és férfi vágyát teljesítik be: az egyik a Xiaomi által fejlesztett Roborock robotporszívó, a másik pedig a Rain bird okos-öntözőrendszer.
Mindkettő teljeskörűen integrálható az okosotthon rendszerbe, de akár önállóan is használhatók, így meglehetősen sok funkcióval gondoskodnak arról, hogy a legkevésbé szeretett háztartási munkákat ne kelljen nekünk elvégezni.
Hanggal irányított televíziók
Apropó, filmek. A cikkünk elején már említettük, hogy piacvezető cégek dolgoznak az okostelevíziók „értelmessé tételén”. Az egyoldalú, pusztán hanggal történő irányítás azonban már most is adott bizonyos esetekben.
Például a Comcast által forgalmazott Xfinity Voice Remote a készülékeik beszéddel való kezelését teszi lehetővé, amit egy gomb benyomásával aktiválhatunk. Az otthoni asszisztensek kapcsán felmerült adatvédelmi aggályok miatt ez kifejezetten pozitív megoldás, hiszen a készülék így nem kell, hogy folyamatosan figyelje a környezetét, hallja-e az aktiváló hangparancsot.
A Comcast készülékei képesek egyszerű hangparancsokat megérteni, mint például „mutasd a beállításokat”, „kapcsolj a Discovery-re”, „keress gyerekműsort”, vagy „mutasd meg, milyen filmek lesznek este hétkor”.
Mindeközben a készülék csak vizuális visszajelzést ad, és még bizonyosan el fog telni pár év, mire az első valós VUI-val felszerelt televíziót a piacra dobják.
VUI-val irányítható hordozható eszközök
Sokkal elterjedtebbek a kisebb, olcsóbb, magunkon viselhető okoseszközök, amelyek részben vagy egészben szintén hangalapú kezelőfelülettel irányíthatók. Talán a legismertebbek ezek közül az okosórák, amelyeket manapság főként a legnagyobb mobilgyártók fejlesztenek, mert nem igazán váltották be a hozzájuk fűzött reményeket.
Az amúgy is gyér keresletnek a koronavírus-járvány tett be: 2020 elején az okosórák piaca durván bezuhant, míg az olyan „hallgatható” (angolul „hearables”) eszközök iránt, mint a headsetek, ugrásszerűen megnőtt a kereslet.
Mindennek nem a (részben) hangalapú kezelés az oka, hiszen a felhasználók kifejezetten kedvelik a VUI-val irányítható eszközöket. Egyszerűen az okosórák nem váltották be a hozzájuk fűzött reményeket, többek között a túlságosan magas áruk és ehhez képest rövid üzemidejük és funkcionalitásuk miatt.
Ráadásul lakáson belül, illetve sportolási lehetőségek híján még az elsődleges célközönsége se használta túlzottan. Van azonban egy olyan terület, ahol a VUI mostanában kezdett elterjedni és mindennél fontosabb, hogy a felhasználók pusztán hanggal is tudják kezelni az eszközüket: ez pedig a járműipar.
A hangalapú kezelőfelületek a közlekedésben
A vezetés közbeni mobilozás, pontosabban a szöveges üzenetek írása és olvasása, a közösségi oldalak böngészése, és általában az okostelefon használata rendkívül veszélyes. Habár már a rádiótelefonok kétezres évek eleji elterjedése óta rendelkezésre áll a hangirányítás lehetősége, viszonylag kevesen élnek vele azok, akik a balesetet okozzák.
A fő gondot ugyanis nem a hangalapú telefonálás okozza, hanem ellenkezőleg: a képernyőt figyelik a forgalom helyett. Ezért is fejlesztik folyamatosan a hangalapú kezelés lehetőségeit a járműgyártó cégek: minél jobban használhatók a csatlakoztatott okostelefonok tisztán hangalapú irányítással, annál kevesebb balesetet okoznak majd a figyelmetlen sofőrök.
2000-es évek: a Ford, a Honda és az első VUI-k
Még mielőtt a GPS az okostelefonokba költözött volna, vagy egyáltalán léteztek volna kellően nagy érintőkijelzős GPS eszközök, a Honda és az IBM már partnerségre lépett, és 2005-ben megalkották az első modern, hangfelismerő navigációs rendszert.
2007-ben a Ford és a Microsoft lépett szövetségre a SYNC létrehozására, ami az első, járművön belüli, hangvezérelt mobilkezelést tette lehetővé. Ez később kiegészült zenelejátszás vagy közlekedési információ lekérésének lehetőségével.
Miért nem volt eddig VUI az autókban?
Az elmúlt 15 év rengeteg változást hozott az okostelefonoknak és mobilnetnek hála. Többek között teljesen átalakították a tartalomfogyasztási szokásokat, a vásárlási folyamatokat, az emberi kapcsolattartást, és általában az egész világot.
Már az mindent elmond a szó szerint forradalmi változásokról, hogy például Afrikában majdnem kétszer annyi embernek van okostelefonja mint számítógépe. Mindez pedig két alapvető változást indukált az autóiparban is: egyfelől a gépkocsik fedélzeti komputere is hasznosíthatja az összes mobilfejlesztést, másfelől az emberek egyre inkább igénylik is ezeket a szolgáltatásokat.
Az utóbbi szerepéről gyakorta elfeledkeznek, pedig az elmúlt kb. 150 év megannyi esete bizonyítja, hogy ha egy technológia megelőzi a saját korát, az gyakran kudarccal végződik. Emlékszik még bárki az első okostelefonra, az IBM Simonra 1993-ból?
A VUI-k alkalmazása a gépkocsikban tehát bár régóta rendelkezésre áll, igazából csak mostanában kezdett megérni a piac arra, hogy ténylegesen kialakuljon fizetőképes kereslet arra, hogy kommunikáljanak is az autójukkal, ne csak vezessék.
Vezető autómárkák és a VUI jelenje
Természetesen egy gépkocsiban használható VUI megtervezése számos egyedi kihívást támaszt a fejlesztők elé. Rögtön adott a jelentős zajterhelés: a motor, a kasztni, a forgalom, az időjárás és az utasok zaja külön külön is erősen befolyásolhatja a szövegértést, összeadódva pedig hatalmas problémává válnak.
Természetesen ez áthidalható a párbeszéd alapú megközelítéssel, amikor a rendszer rákérdez, ha valamit nem értett – de azért egy gyakorta értetlenkedő rendszer hamar presztízsveszteséget okozhat. Ráadásul az autók lassú (a mobilnál jóval lassabb) életciklusa is lassítja a fejlődést. Aligha fogja valaki két év után lecserélni az autóját csak azért, mert kijött egy jobb VUI rendszer.
Emellett a VUI aktiválása is felvet design kérdéseket, éppen úgy, mint az Echo, a Homey vagy a Google Assistant esetében, hiszen ha gombbal is aktiválható kell legyen, akkor azt a gombot valahova el is kell helyezni.
A Mercedes neve ismét egyet jelent az innovációval
A legújabb konferenciák és bejelentések alapján azt mondhatjuk, hogy a különféle iparágak vezető szereplői nagyon is egymásra találtak: a Mercedes vezetésével zajlott például az egyik legutóbbi, ”Voice of the car” summit, amin a Google, a Soundhound, az Intel, a Ford is képviseltette magát több más cég között.
A Mercedes amúgy is élen jár a saját VUI fejlesztésben, és ennek egyik legújabb eredménye az MBUX hangvezérlés. Az MBUX a Mercedes-Benz User Experience rövidítése és már 2018-as CES-en bemutatták, de egyelőre még csak az A-osztályú, illetve hamarosan már az S-osztályú Mercedesekben is elérhető.
A bemutató videó alapján az MBUX az autóvezetés olyan új generációs digitális segéde, ami alapjaiban fogja meghatározni a következő 15 év fejlesztéseit. Gyakorlatilag egy természetes szövegértésen alapuló, VUI-n át kezelhető fedélzeti rendszert jelent, ami kapott egy grafikus éintőkijelzőt is, így hanggal és kézzel egyaránt vezérelhető az autó megannyi funkciója.
Az bizonyos, hogy a VUI térhódítása még csak most kezdődött el, és húsz év múlva éppen annyira fura lesz egy „analóg” autó, amivel nem lehet szóban kommunikálni, mint most az, ha valaki tárcsás telefont használ. Ha pedig zöld utat kapnak és elterjednek az önvezető autók, könnyen lehet, hogy 2050-ben már kizárólag hangutasítások segítségével is eljuthatunk bárhova velük.
Oszd meg velünk véleményed