Mind egyszerűbb a hangalapú kezelőfelületek megalkotása

Az angol vált a modern idők közös nyelvévé a világ északnyugati negyedében, és ez jelentősen megkönnyíti a kommunikációt a mindennapok során. Ám félmilliárd ember joggal teszi fel a kérdést Európában, hogy miért kéne egy második nyelvet tanulniuk csak azért, hogy hangparancsokkal tudjanak kezelni eszközöket?

Az Ergománia a VUI, azaz hangalapú kezelőfelületek európai szakértője. Ilyen minőségben is azt mondhatjuk, hogy a hangalapú UI régóta a mindennapok része. Gyakorta észrevétlenül van jelen, úgy használjuk, hogy bele sem gondolunk, éppen egy hang alapú interfészen keresztül kommunikálunk egy rendszerrel, viszont a koronavírus járvány, és a higiéniai elvárások növekedése egyértelműen azt mutatja, hogy van hova fejlődni ezen a téren is.

 

A VUI-ra nagy az igény, de lassan terjed

Habár jelentős technológiai eltérést találunk az egyes országok között vagy éppen országhatárokon belül, a tisztán hangalapú rendszerkezelés a legtöbb helyen még csak részlegesen, szakaszosan valósult meg.

Például tömegközlekedési eszközökön utazva vagy a sofőr/automatika nyitja az ajtókat, vagy gombbal kell jelezni, de ha valaki nem akar hozzáérni a ki tudja, hány utas mennyire tiszta keze által összefogdosott jelzőgombhoz, kénytelen kesztyűt viselni vagy a leszállás után azonnal fertőtlenítőért nyúlni.

Igaz, hogy nagy az igény a hangalapú kezelőfelületekre, mégis hasonló helyzettel találkozunk köztéri, bevásárló központokban elhelyezett elektronikus információs pultok és munkahelyi automaták, stb. esetében: a hangalapú kezelőfelületek esetlegesen vannak jelen.

 

A VUI-k egyre több helyen találhatók meg

A hangalapú kezelőfelületeket egyaránt megtalálhatjuk felhasználói felületekként a telefonokban, televíziókban, intelligens otthonokban és számos más termékben. A hangfelismerés és az intelligens otthoni technológia fejlődésével a hangalapú interakciók aránya és száma várhatóan csak növekedni fog.

Előfordul, hogy a hangalapú felhasználói felületek az egyébként grafikus felhasználói felületek opcionális kiegészítői – például, amikor a filmek címének keresésére használjuk az okostévében.

A VUI-k egyre több helyen találhatók meg

Máskor a VUI jelenti az elsődleges vagy egyetlen módot a termékkel való interakcióra, például az intelligens otthoni hangszórók esetében, mint amilyen az Amazon Echo Dot vagy a Google Home, de olyan is akad, hogy tisztán hangalapú játékfejlesztésbe kezdenek.

 

A képernyőn való pötyögtetést egyre inkább felváltja a hangalapú használat

Legalábbis bizonyos esetekben. Az elmúlt évtizedben több okból kifolyólag is jelentős elmozdulás történt a hangalapú eszközhasználat irányában.

Általában megfigyelhető, hogy az emberek egy idő után besokallnak a „képernyő használattól”, és általában is elkezdik csökkenteni az eszközhasználatukat. Erre még a legtöbb operációs rendszer részét képező digitális jóléti funkciók is rásegítenek. A Fintech UX szakértők szerint is eljött az „elsődlegesen hang” korszaka, ahogy 2010 az „elsődlegesen mobil” korszakának kezdete volt.

Azonban más szempontok is közrejátszanak: az emberek 30%-a vagy funkcionálisan analfabéta vagy fiatalabb annál, hogy elkezdhetett volna olvasni tanulni. Mellettük a lakosság 2% vak vagy gyengénlátó, és szintén mérhetően nagy a diszlexiások számaránya.

„Kimondhatjuk” tehát, hogy még a fejlett társadalmaknál is a lakosság egyharmada egyáltalán nem, vagy nehézkesen, komoly kihívásokkal tud hagyományos kezelőfelületeket hatékonyan használni.

Vegyük hozzá azokat az eseteket, amikor még egy írástudó, felnőtt, ép ember is csak bajosan kezeli a grafikus felületeket (tele a kezük, járványhelyzet van, kesztyűt viselnek, akadályoztatva vannak, stb.), és máris belátjuk, hogy a VUI-k alkalmazása hatalmas előnyt biztosíthat a legtöbb UI-val bíró termék esetében, nem pedig csupán lehetőség!

Részben a fogyatékkal élők támogatása, részben az innovációs rendszer és részben a „képernyő fáradtság” leküzdése érdekében jelentek meg a hangalapú segédek a piacon, ám nagyon hamar az információk gyors lekérésének egyik preferált lehetőségévé váltak.

A statisztikák szerint 2020-ban a keresések 50%-a hang alapon történt, illetve a mobiltulajdonosok 31%-a hetente legalább egyszer él a hang alapú keresés lehetőségével, sőt az emberek több mint fele arról számolt be, hogy jobban szereti beszéd útján lekérdezni a várható időjárást, vagy adott termékre rákeresni.

 

A VUI terjedésének egyik gátja a nyelv

A VUI mégsem terjed olyan gyorsan, mint arra számítani lehetett volna. Tény, hogy a legelterjedtebb világnyelveken egészen jó eredményeket érnek el a fejlesztők, de a legtöbb embernek mégsem az angol vagy a kínai az anyanyelve.

Az angol ugyan közös nyelvvé vált, ám a Brexittel meglehetősen furcsa helyzet áll elő az Európai Unióban: igaz, hogy 24 hivatalos nyelvet ismer el az EU, ám a közös nyelvet alig pár milliónyi tagországi állampolgár, az írek fogják anyanyelvükként használni.

Mindenki más tanult nyelvként beszéli jól-rosszul – ha egyáltalán elsajátítja. Amikor félmilliárd ember alig 1%-a beszél anyanyelveként egy nyelvet, és az EU 24 nyelvet ismer el hivatalos nyelvként, akkor joggal merül fel a kérdés az átlag magyar, olasz, német, francia vagy svéd felhasználóban, hogy miért is kéne az angolt erőltetni?

A válasz az, hogy akkor olyan rendszerekkel kell tervezni, amelyek mind a 24 hivatalos nyelven egyformán jól értenek. Erre már korábban is akadtak törekvések, például a flandriai Lernout & Hauspie Speech Products (röviden: Lernout & Hauspie) részéről, akik megszerezték a szövegfelismerés egyik alapszoftverét, a Dragon NaturallySpeakinget.

A VUI terjedésének egyik gátja a nyelv

A zászlót tőlük az amerikai Nuance Communications vette át, amelyik élen jár a hangalapú technológiák fejlesztésében és például az Apple partnere a Siri fejlesztésében.

 

Egy VUI létrehozása viszonylag egyszerű

Mára már odáig jutott a technológia és a rendelkezésre álló eszközpark, hogy kimondhatjuk, egy angolul, vagy egyetlen nyelven tudó VUI létrehozása az Ergománia számára rutinfeladat. Mind az Amazon Alexája, mind a Google Assistant relatív könnyű lehetőséget biztosít arra, hogy létrehozzuk a saját egyedi hangalapú kezelőfelületünket.

Amióta a természetes nyelvi analízis, a nyelvtan hatékonyabb megértése, és általában, az emberi beszéd és nyelvek új szemléletű megközelítése vált a beszédfelismerés alapjává, a VUI-k fejlesztése is sokkal hatékonyabbá vált.

Ha VUI-val bővítjük a UX designunkat, akkor a hangalapú interakcióval megkönnyíthetjük a felhasználók számára a meglévő grafikus interfészekkel való tevékenységeket, vagy a csak hang-interakciókat használó termékek esetében akár meg is tervezhetjük a saját alkalmazásainkat.

 

Hogyan hozhatunk létre saját hangalapú kezelőfelület?

A hangalapú felhasználói felületek jelentős mértékben különböznek a grafikus felhasználói felületektől, méghozzá olyannyira, hogy gyakorta nem is alkalmazhatjuk ugyanazokat a tervezési irányelveket.

Tisztán VUI esetében például nem hozhatunk létre vizuális, látható előnyöket. Következésképpen a felhasználóknak nem lesz egyértelmű jelzésük arról, hogy mit tehet az interfésszel, milyen lehetőségei vannak.

A felhasználók gyakorta bizonytalanok azzal kapcsolatban is, hogy mire számíthatnak a hangalapú interakciótól, mert az értelmes emberi beszédet általában más emberekkel való kommunikációhoz kapcsoljuk, nem pedig a technológiához.

 

A VUI designja jelentette kihívások

A felhasználók bizonyos mértékben úgy akarnak kommunikálni a hangfelületekkel, mint más emberekkel. Mivel a beszéd annyira alapvető az emberi kommunikáció szempontjából, nem hagyhatjuk figyelmen kívül a felhasználók elvárásait, sem azt, hogy normálisan hogyan zajlik a beszédkommunikáció két ember között, még akkor sem, ha teljesen tisztában vagyunk azzal, hogy egy eszközzel beszélünk, nem pedig egy emberrel.

Ahhoz tehát, hogy megértsük a felhasználók VUI-val szemben támasztott elvárásait, meg kell értenünk az emberi kommunikációt irányító elveket.

 

Mire számítanak az ügyfelek egy VUI kapcsán?

Élő beszéd esetében két olyan lényeges, tudattalan jelenséget is megfigyelhetünk, amit a hangalapú kezelőfelületekkel szemben is önkéntelenül elvárnak a laikusok.

Az első az, hogy a metakommunikáció, azaz a testbeszéd adja ki a tényleges élő kommunikáció egy jelentékeny hányadát (ami eleve nem jöhet szóba egy tisztán hangalapú UI esetén), a másik pedig, hogy amikor az emberek beszélgetnek, sok információ nem kerül közlésre magában a kimondott üzenetben.

A kontextusról alkotott ismereteinket felhasználva közös jelentést teremthetünk a hallgatás és beszélgetés közben. Ráadásul azt is szem előtt kell tartani, hogy a hangfelismerés lényegében a hang tulajdonságainak (információinak) adattá való alakítása – a hangszín, hangmagasság, a hangok közötti szünet éppen úgy lényegi információ, mint az egyes hangok.

 

Az adatfeldolgozás sebessége „sokkal” lassabb egy VUI esetében, mint egy GUI-nál

Habár a „sokkal” erős túlzásnak tűnhet emberi időfogalmak szerint, számítógépek esetében jelentős az időbeli eltérés egy grafikus felületen kiadott parancs (szöveges/ikonos) végrehajtása és egy hangparancs végrehajtása között.

Ez utóbbinál egyfelől maga a felhasználó is gyakorta lassabban fogalmazza meg a parancsot, mintha rákoppintana egy ikonra, vagy beírna egy parancssort, főként eleinte, amikor külön meg kell tanulnia, mit képes megérteni a rendszer.

Az adatfeldolgozás sebessége „sokkal” lassabb egy VUI esetében

Az NLP (Natural Language Processing, Természetes Nyelvi Feldolgozás) éppen ebben van szolgálatunkra, mert jelentős mértékben meggyorsítja a folyamatot azáltal, hogy lehetővé teszi a kimondott szöveg számítógép általi értelmezését.

Másfelől a hangfelismerés maga is „hosszadalmas” folyamat, legalábbis egy számítógép számára: először rögzítenie kell a mondatokat/hangparancsokat, majd feldolgozni a rögzített adatokat, többek között kontextuális elemzéssel.

A hang által szerzett adatok feldolgozása olyan számítási kapacitást igényel, amit még manapság is gyorsabb egy távoli, erre a feladatra dedikált szerveren elvégezni, mint egy kézi eszközben – ez viszont tovább lassítja a hangparancsok végrehajtását. De ennél több minden okoz kihívást.

 

Szinte képtelenség tökéletesen élethűen imitálni egy embert

Vegyünk egy példát: valaki egy kávét szeretne rendelni.

Odamegy a baristához, és azt mondja:

– Jó napot, egy kávét szeretnék elvitelre. Tejjel, cukorral, minden mehet bele.

A pult mögött álló ember vagy rutinos, és tudja, mire gondol az ügyfél, vagy pontosítást kér:

– Milyen legyen a tej és hány cukorral kéri? Barna, fehér?

Ugyanakkor a „minden mehet bele” esetében nem fogja úgy érteni, hogy a kávézó teljes árukészletét bele kéne öntse az elviteles pohárba!

Ha egy digitális rendszerrel beszélne az ügyfél, a „minden mehet bele” szó szerinti értelmezése hatalmas problémákat szülne.

Az emberek elvárják, hogy megértsék őket, amikor kifejezik magukat, mint ebben a példában is. Itt nekünk, mint tervezőknek figyelnünk kell a kontextusra – a barista nem csupán érti a „minden mehet bele” kifejezést, de a szövegkörnyezettől függően értelmezi, azaz nem akarja a rendelkezésre álló ízesítéseket is a kávéhoz adni, csak a tejet és cukrot, ahogy az ügyfél kérte.

A „veszélyes zóna”, ahová belépünk a VUI fejlesztése során, a következő: a hangfelismerési technológia szempontjából szinte lehetetlen megragadni az összes szükséges kontextusbeli tényezőt és feltételezést a rövid információcsere során.

A VUI-k esetében, még ha mesterséges intelligenciát (valójában gépi tanulást és algoritmusokat) is tudunk a rendszerbe implementálni, akkor is hatalmas hátránnyal indul: az emberek natív körülmények között évek, évtizedek folyamatos társas interakciója során sajátítják el a kontextuális szövegértést, ráadásul a többségnél adott a látás is, ezért a hang mellé a metakommunikáció is társul.

Az emberek évtizedek alatt sajátítják el a kontextuális szövegértést

 

Jogi-technológiai kihívások Európában: a GDPR és a VUI

Habár a GDPR, azaz az Általános Adatvédelmi Rendelet elsődleges célja a felhasználók, mint adatgazdák adatainak védelme és a lehetőségeik bővítése az adatvagyonuk feletti uralomért, sok területen komoly aggályok merültek fel nem csupán a cégek, de a tervezők és fejlesztők részéről is.

A beszéd is tartalmaz adatot, ráadásul sok esetben kifejezetten védett adatot (vallási hovatartozás, szexuális irányultság, egészségügyi állapot, stb.), vagy egyszerűen olyan bizalmas információt, amit az emberek jó okkal nem akarnak mások orrára kötni. Csak néhány példa: mikor utaznak el otthonról hosszabb időre, mi a pontos lakcímük, mennyi a fizetésük, kinek utalnak pénzt, stb.

Ha írásban, grafikus felületen kezeli valaki a bankszámláit, mondjuk a mobilbankos appon keresztül, akkor ott sokkal könnyebben gondoskodhat a privát szféra fenntartásával még tömegben is, mintha hangparancsokat adna ki.

Amikor tehát VUI-t tervezünk, az Ergomániánál mindent megteszünk azért, hogy, összhangban a GDPR vonatkozó rendelkezéseivel, megvédjük a felhasználók adatait!

 

Hogyan hozhatunk létre VUI-t mobilra és más eszközre?

Amíg a technika állása nem változik olyan mértékben, hogy az idiomatikus kifejezések befogadására legyünk képesek, addig bizony rá kell vezessük a felhasználóinkat arra, hogyan tudják használni a hangalapú kezelőfelületet.

Amennyiben van rá módunk, mindenképpen érdemes grafikus segítségekkel kiegészítve, gyakorlatilag hibrid UI-t tervezni, mert ez biztosítja az optimális működést.

Nézzünk szembe a ténnyel: a felhasználók gyakran irreális elvárásokat támasztanak azzal kapcsolatban, hogyan tudnak kommunikálni egy hangalapú felhasználói felülettel. Mindez összefügg azzal a problémával, hogy a 2010-es évek végére a fejlesztések és azok piacra dobása soha nem látott sebességgel zajlott.

Míg a 70-es évektől kezdve évtizedekig kitartott egy-egy új technológia (gondoljunk a VHS videokazettára, a floppyra, a klasszikus mobiltelefonra, az asztali számítógépre, stb.), manapság években mérhető egy „korszak”.

Videók és filmek házi archiválásra VHS kazettát legalább húsz évig használt a világ. DVD-t tíz évig. HD-DVD-t és Blue Ray-t meg pár évig – mert manapság a felhasználók vagy pendrive-on/hordozható meghajtón tárolják az adatokat, vagy streamelik. Gondoljunk bele, manapság már az a fura, ha egy laptop DVD-olvasót tartalmaz.

A VUI-t használó eszközök manapság kezdenek terjedni, és érthető, hogy sokan nem tudják, mi mindent kezdhetnek egy hangalapú digitális asszisztenssel. Pedig akár még hangalapú játékot is tervezhetnek vele, mint azt az Ergománia is tette.

Most menjünk bele a részletekbe, és nézzük meg, hogyan hozhatunk létre egyedi designnal és fejlesztéssel hangalapú UI-t mobil és más eszközökhöz. Ehhez számos eszköz áll rendelkezésre, és mára már odáig jutottunk, hogy a munka legnehezebb részét megvalósították mások: az emberi hang felismerését és a kontextuális szövegértelmezés kereteit.

 

Hogyan készíts működő VUI prototípust?

Ha megnézzük az Amazon digitális asszisztenséről, az Echo Dotról adott felhasználói véleményeket, akkor egyértelművé válik, hogy egyes felhasználók erős érzelmi kapcsolatot építettek ki az eszközzel, mintha az nem is egy élettelen termék volna, hanem egy kedvtelésből tartott kisállat.

Egyes felhasználók érzelmi kapcsolatot építettek ki a digitális asszisztensükkel

Mivel szinte képtelenség teljesíteni a felhasználóknak a természetes beszélgető partnerrel szemben támasztott elvárásait, még fontosabbá válik a VUI tervezése kapcsán, hogy az megfelelő mennyiségű információt tartalmazzon, és elegáns, szerethető és a felhasználót segítő designt kapjon.

Az alábbi irányelveket az Ergománia szakemberei állították össze az Amazon Alexánál bevált gyakorlataink alapján. Egyfajta kiindulópontként szolgálnak arra, miként érdemes működő VUI-t tervezni, kihasználva az Alexa hangkommunikációs készségeit.

 

Szöveget hanggá technológia alkalmazása

Az Amazon Echo Dot digitális asszisztens az Alexa hangalapú felhasználói felületet használja az interakció elsődleges formájaként, míg a Google Home a Google Assistantot.

Mindkét rendszerre egyaránt igaz, hogy képesek a szöveget hanggá alakítani. Például amikor a Google keresőjét használva terméket keresünk, szinte kizárt, hogy bármely webshopban hang állományok szerepelnének a termékek mellett, felsorolva a tulajdonságaikat, hogy a digitális asszisztensnek csak le kelljen játszania a hangállományt.

 

Adj információt a felhasználóknak arról, hogy mit tehetnek a VUI-val

Amíg egy grafikus felhasználói felületen egyértelműen megmutathatod a felhasználóknak, hogy milyen lehetőségek közül választhatnak. A hangalapú UI nem képes megmutatni, hogy milyen választási lehetőségek állnak rendelkezésre, és az új felhasználók az elvárásaikat a beszélgetések során szerzett tapasztalataikra alapozzák.

Ezért elkezdhetnek olyasmit kérni, aminek nincs értelme a rendszer számára, vagy ami nem lehetséges. Érdemes tehát egyértelműen felkínálni a felhasználónak a konkrét interakciós lehetőségeket.

Például ha a VUI-n keresztül rendelhet taxit, akkor a rendszer tájékoztathatja a felhasználót, hogy „választhat a hivatalos taxi társaságok vagy Uber vagy Bolt sofőrök közül”.
Szintén érdemes biztosítani a felhasználóknak az egyszerű kilépést bármely funkcióból, például a „kilépés” hangparanccsal.

 

Segítsd a felhasználókat tájékozódni

Amikor GUI-t használunk, (szinte) mindig tudjuk, hol tartózkodunk az adott rendszeren belül, például melyik almenüponton belül vagyunk, és hova lépünk onnan át. A VUI esetében azonban könnyen összezavarodhat a felhasználó, vagy tévedésből aktivál valamit.

A Google Home színes LED-ekkel tájékoztatja a felhasználókat arról, hogy aktív és figyel.

Gondolj a felhasználóra úgy, mintha vak volna, aki belép egy ismeretlen szobába – és egyértelműen tájékoztasd a lehetőségekről, továbbá a válaszok legyenek teljes mondatok.

Például:

„ – Milyen a várható időjárás Rómában?

– Rómában a várható időjárás a következő egy hétben többnyire napos, átlag húsz Celsius fok feletti napközbeni hőmérséklettel”

 

Kérd a felhasználót, hogy beszéljen egyértelműen

Rengeteg félreértést és frusztrációt kerülhetsz el, ha előre tájékoztatod a felhasználókat, hogy miként kommunikáljanak a VUI-val. Nyugodtan megmondhatod nekik, hogy a rendszered csak az egyszerű, hétköznapi megfogalmazást érti, és a kerek egész mondatokat, a szlengesített félszavakkal nem fog működni.

Mindezt érdemes gyakorlati példákkal illusztrálni, hogy még egyértelműbb legyen. Ha például a napi hírekre kíváncsi, akkor a jó példa ez:

„Alexa, mik a vezető napi hírek a Világgazdaság.hu-n?” {English: Alexa, what are the latest news on Telegraph}

míg ezt nem fogja érteni a rendszer:

„Alexa, nyomasd, mizu a végéhun?” {English: Alexa, whats the haps on Torygraph}

 

Korlátozd az információ mennyiségét

Amikor a felhasználók vizuális tartalmat vagy listákat böngésznek, visszatérhetnek az elfelejtett információkhoz. A szóbeli tartalommal nem ez a helyzet, mert itt minden mondatot rövidre kell fognod, hogy a felhasználó ne keveredjen össze és ne felejtse el a listán szereplő elemeket.

Az Amazon azt javasolja, hogy ritkán adj háromnál több lehetőséget egy interakcióra. Ha hosszabb listád van, inkább csoportosítsd az opciókat, és kezdd azzal, hogy a felhasználók számára a legnépszerűbbeket biztosítod.

 

Jelezze a rendszered, hogy aktív

Amikor telefonon, vagy chatprogramon keresztül felhívnak minket, egyfelől maga a készülék is jelzi alapesetben a bejövő hívást, másfelől a hívó fél szinte biztosan beleszól a telefonba, hogy „halló?” – azaz mind a készülék, mind a beszélgetőpartner jelzi, hogy „hang alapú interakcióra nyílt lehetőség”.

A kék fény azt jelenti, hogy Alexa figyel.

A VUI esetében is nagyon fontos, hogy tudassa az eszköz a felhasználóval, hogy aktív állapotban van, figyel és várja a hangparancsokat. Az Amazon Alexa például kékes fényjelzéssel mutatja, hogy aktív, míg a Google Home tetején a négy led színkombinációkkal és fényerővel jelzi az aktuális státuszát.

 

Használj prototipizálást segítő eszközöket

Az Ergománia szakemberei több, különböző erőséggel bíró eszközt használnak, amikor VUI prototípust terveznek.

Dialogflowkülönösen a Google Assistantra építő projekteknél ajánlott, mivel a Google keretrendszerére épül. Ennek legújabb változata a Dialogflow CX, ami egyértelmű és világos ellenőrzést biztosít a beszélgetés felett, jobb felhasználói élményt és jobb fejlesztési munkafolyamatot biztosítva. Új vizuális építési rendszert is kapott és még könnyebbé vált a (komplex) beszélgetési folyamatok kezelése.

Storylinenagyszerű eszköz az Alexa Skill prototípusának elkészítéséhez és a készség fejlesztéséhez kódolás nélkül, ráadásul a prototípust fel is tölthetjük vele a saját Alexa eszközre. A tervek szerint kompatibilis lesz a Google Assistanttal is.

Botsociety – amennyiben a hangalapú digitális asszisztensekre szánt prototípus mellett chatbotot is terveznél, vagy általában egy remek folyamattervező alkalmazást keresel, a Botsociety a nyerő választás.

Papír és toll – gyakorta a legegyszerűbb, ha fogsz egy tollat meg egy papírt (vagy ezek digitális változatát), és manuálisan kezded felvázolni a folyamatot, párbeszéd paneleket, opciókat, elágazásokat. Gondolj arra, hogy a luxusautók első terveit is papírra skiccelik fel a designerek, mielőtt gép elé ülnének!

 

Miért válaszd az Ergomániát a VUI prototípus tervezéséhez?

Az Ergománia az alapítása óta több hangalapú UI-t tervezett. A UX/UI tervezés hazai szakértőiként kiemelt szakmai tapasztalattal bírunk a VUI-k prototipizálása és a hangalapú felületek designja terén.

Szintén jelentős tapasztalattal bírunk az olyan hangalapú kezelőfelületek készítésében, amelyek a Google Home vagy az Amazon Alexa által nem támogatott európai nyelveken „beszélnek”.

Ilyenkor a VUI prototípus készítéséhez más eszközöket használunk, például a talkabot.net-et Google voice api-val. Amikor szinte a semmiből készítettünk egy, az Amazon és a Google digitális asszisztensei által nem támogatott nyelvhez pénzküldést lehetővé tevő hangalapú kezelőfelületet, a tervezésnél arra számítottunk, hogy az emberek egyszerű, jól feldolgozható módon kommunikálnak a telefonos ügyfélszolgálat munkatársaival és ez kiváló minta lesz a hangtervezéshez.

Ehelyett azt tapasztaltuk, hogy a felhasználók ilyenkor folyamatosan beszéltek, és ami még nehezebbé tette a munkánkat az az volt, hogy szinte alig lehetett olyan mintázatokat találni, amelyek tipizálhatóak.

Ezt úgy hidaltuk át, hogy lehetséges felhasználók széles körének küldtünk ki egy kérdéssort, az általuk leggyakrabban hallott és használt szövegek, mondatok, párbeszéd panelek kapcsán. Elegendő választ kaptunk, így már tanítani kezdhettük a rendszert.

A Google Text-to-Speech API használatával olyan jó eredményeket értünk el, hogy a következő lépés már egy korlátozott funkcionalitással bíró, de valós körülmények között is használható, VUI-n keresztül kezelhető pénzküldő alkalmazás megvalósítása lesz.

Természetesen ez csak egy könnyed példa, ám így is rávilágít arra, mennyire jól használható alkalmazások állnak ma már rendelkezésünkre a VUI-k prototipizálására.

Amennyiben pedig igazán profi, hangalapú kezelőfelületet szeretnél kapni, vedd fel a kapcsolatot az Ergománia szakembereivel!

Oszd meg velünk véleményed

    Kérem írd be üzenetedet

    Kérem írd be email címed!

    Kérem írd be üzenetedet

    Küld

    Website-okat, mobil applikációkat és szoftvereket tervezünk, hogy segítsünk megvalósítani üzleti céljaidat!

    Csapatunk

    Kapcsolat

    Kedves Ergo,

    A nevem
    . Az email címem
    . Üzenetem:

    ajánlott
    cikkek

    Tudj meg többet a témáról

    A beszédhang is alkalmas biometrikus azonosításra

    2021. jún. 08. | 23 perc olvasás

    Az elmúlt években a hangalapú interfészekkel való beszéd életünk normális részévé vált. Valójában már ma is számos hangvezérelt szolgáltatást használunk, mint például a beszélgetés során megvalósított...

    Van jövője a banki interface-eknek? Elmondom miért nincs.

    2021. ápr. 27. | 12 perc olvasás

    Talán elsőre kicsit furcsán hangozhat a blogbejegyzés címe, mert „bombasztikus” hatást akar kelteni. Persze egy rutinos olvasó tudhatja, hogy lesz valami csűrcsavar, amivel kihozom, hogy habár nincs, ...