Életünk számos területén észrevétlenül jelen van már a beszélő vagy a beszédet felismerni képes mesterséges intelligencia, de ehhez magyar nyelvű fejlesztésre volt szükség. Lassan egyre több témakörben lesz lehetőségünk diktálni a számítógépnek, megspórolva a gépelést, miközben a szakemberek egészségügyi fejlesztéseken is dolgoznak: az emberi agy egyedülálló és összetett képessége a beszéd, így annak betegségeit is előre jelezheti.

Fotó: shutterstock.com, illusztráció

Fotó: shutterstock.com, illusztráció

A beszédfelismerés fejlődésének egyik legkézenfekvőbb haszna a diktálásra alkalmas algoritmus: nem csoda, hogy ez az egyik legrégebb óta kutatott témakör, immár piacképes eredményekkel. A technológia elvileg akár nyelvfüggetlennek is nevezhető, miután – nagyon-nagyon leegyszerűsítve a folyamatot – csak egy adatbázisra van szükség, amire aztán rá lehet ereszteni a mesterséges intelligenciát tanulni. Próbálkoznak is ezzel az óriáscégek, de azért egy jól működő megoldás érdekében a gyakorlatban szükség van megfelelő nyelvi hozzájárulásra és sok-sok munkára. Ezt nyilván megnehezítik a gazdaságossági kérdések, hiszen a magyar nyelvű felhasználók köre kisebb, mint például az angol nyelvet beszélőké, ráadásul a gépi beszédfelismerés csak egy-egy szűk témakörben működik kiemelkedően jól, vagyis külön vannak jogi, orvosi, műszaki és egyéb területre kifejlesztett rendszerek, ami szintén csökkenti a célközönség nagyságát.


Oktatás és egészségügy

A Magyar Tudományos Akadémia és a Szegedi Tudományegyetem közös szervezete, a Mesterséges Intelligencia Kutatócsoport nem is olyan új, mint gondolnánk, ugyanis az 1969-ben született Automataelméleti Kutatócsoportból alakult át 1996-ban.

– Az automatikus beszédfelismerés nagyon régi vágyálom – mondja Tóth László informatikus, a beszédtechnológiai csapat vezetője. – Kevesen tudják, hogy 1930-ban Nemes Tihamér, a kibernetika hazai úttörője szabadalmi kérvényt nyújtott be egy berendezésre, amely optoelektronikai úton leírja a beszédet. A hangfelismerés egyik előfutára volt, és nemzetközi szinten is számontartják.

A kutatócsoport egyik nagy eredménye, hogy készítettek egy egészségügyi tematikájú diktálórendszert, konkrétan pajzsmiriggyel kapcsolatos leletekre vonatkozóan, de az algoritmus más területeken is működőképessé tehető némi módosítás után. Habár állami támogatásból finanszírozták a kutatást, az eredmény egyelőre nem jutott el a felhasználókhoz, noha egyértelműen megkönnyítené az orvosok munkáját, illetve felszabadítaná az asszisztensek egy részét.

Számos oktatási intézményben használatban van azonban a Beszédmester nevű beszéd- és olvasásfejlesztő programjuk, ami siketek számára készült. A beszédtanulásban ugyanis vannak olyan ismétlődő mozzanatok, amelyek aránylag egyszerű feladatot jelentenek, de a kevés számú pedagógusnak nincs rájuk kapacitása. Ezeket veszi át a program, képes például ellenőrizni és visszajelezni a gyereknek, hogy jól ejti-e a tanulandó hangot vagy sem – megtanítani nem tudná, de a gyakorlást megfelelően asszisztálja. Többek között a zöngeadás, a hangerő, a ritmus, a hangutánzás, a hangfejlesztés területén tartalmaz játékos feladatokat, és a hallottak rögzítésére is van lehetőség, tehát a pedagógus szükség esetén nyomon követheti a haladást. A Beszédmester már 10-15 éve használatos, és a szaklapok többször is cikkeztek a hatásosságáról.

Ezenkívül az olvasástanítást is a rendszerbe illesztették, a program bármelyik olvasni tanuló gyerek számára hasznos, miután az egyéni tempóban való gyakorlást biztosítja. Emellett segítheti a diszlexia terápiáját is. Több általános iskolában is használják, egyébként az internetről ingyenesen le lehet tölteni. A csoport most egy olyan projekten dolgozik, ami a beszédközpontot érintő, stroke-on átesett betegek rehabilitációját egészítheti ki, hasonló rendszerben.


Betegségek azonosítása

– A jövőben egyre kevésbé használjuk majd önmagában a beszédfelismerés funkcióját, ez csak az egyik eleme lesz egy bonyolultabb programnak, a beszéd­értéssel együtt – részletezi Tóth László. – Már most igyekeznek mesterséges intelligenciát használni ügyfélszolgálatok kiváltására, például pályaudvarok, repterek telefonos tudakozójaként, változó sikerrel.

Bizonyos autókban ma már van beszédvezérlés, az intelligens otthonokban parancsszavas irányítás, ezek az angol és a német nyelvterületen kiválóan működnek. Ehhez azonban többnyire izolált szavas felismerés is elég, ami jóval egyszerűbb, mint a folyamatos beszéd azonosítása.

A minőségét meghatározza a beszéd tisztasága, a megfelelő artikuláció is: így például a televízióban elhangzó híreket szépen leírják a gépek, mert a felolvasott, vagyis tervezett beszéd könnyebben érthető, mint a spontán. Emellett egy élő közvetítés zajos háttere vagy az akcentus is ronthatja a teljesítményt.

Egyre kutatottabb terület a nonverbális vokalizálás – a hangszín, a tempó, a szünet, a hangosság –, aminek például a betegségek felismerésében van szerepe. A kutatócsoport pár éve a Computational Paralinguistic Challenge elnevezésű viadalon nyert el első helyezést, ami az érintett szakemberek jelentős megmérettetése: a magyar algoritmus a beszélő hangja alapján jó eséllyel felismeri a Parkinson-kórt.

– A szellemi képességek romlásával járó betegségek, például az Alzheimer-kór mellett a beszédből azonosítani lehet az érzelmeket, a depressziót, illetve olyan fizikai elváltozásokat, mint amiket egy torokrák okozhat. Mindennek természetesen nem a diagnosztikában, inkább a szűrésben van szerepe. Ezenkívül az ügyfélszolgálatokon is ilyen programokkal rostálják azokat az ügyintézőket, akik nem megfelelő hangon beszélnek az ügyfelekkel, elveszítik a hidegvérüket, türelmetlenek – mondja Tóth László.

Természetesen a betegségek felismerése nagyobb hibaszázalékkal zajlik, mint a beszéd írott szöveggé alakítása. A szakértők sem mindig értenek egyet például abban, hogy a beszédben kódolt egyes jelek milyen érzelmeket takarnak, vagy hogy a depresszió egyáltalán tünetegyüttes-e. Nem is beszélve a nemzetközi különbözőségekről: az olaszok beszédének tónusai, gyorsasága innen nézve indulatosnak tűnhet, míg a finnek társalgása depressziósnak.


Természetesebb gépek

A Budapesti Műszaki Egyetem Beszédkommunikáció és Intelligens Interakciók Laboratóriuma, röviden a SmartLab fejlesztéseit több mint 30 éve használják Magyarországon, a mintegy húsz kutató a beszédtechnológia szinte minden területén otthon van..

A munkát Németh Géza docens koordinálja, aki 35 éve kezdett el foglalkozni a beszédkeltéssel, más néven beszédszintézissel. Arra törekednek, hogy egy tetszőleges, írott szöveget megfelelő hangzásban alakítson beszéddé a gép. Bárki ellenőrizheti az eredményességüket számos vasútállomás hangosbemondóját hallgatva, ők alkották az automatikus utastájékoztató rendszert például a Keleti és a Kelenföldi pályaudvaron, Debrecenben és a Balaton déli partján.

Forrás: dyslexic.com

A vakok és gyengénlátók számára készült, legelterjedtebb képernyőolvasó szoftver, a JAWS for Windows is az ő munkájuk nyomán hangzik magyarul. Egyebek mellett készítettek gyógyszeres adatokról hangos tájékoztatót, illetve őket kérték fel A mindenség elmélete című film szinkronizálásakor is, hogy elkészítsék Stephen Hawking robotbeszélőjének magyar hangját. 2003-ban a világon először készítettek mobiltelefonon futó SMS-felolvasót, amit az egyik szolgáltató SMSMondó néven forgalmazott – így biztonságosabb a vezetés. Manapság az EU egyik kutatási programján belül látássérült emberek beltéri navigációját támogató mobil alkalmazáson dolgoznak egy nemzetközi konzorciumban.

– A beszédszintetizáló rendszernek például egyfajta éntudatot is létre kell hozni – mesél munkájáról Németh Géza –, hogy milyen stílusban közöljön információkat, magázzon vagy tegezzen, hivatalos vagy barátságos legyen a hangneme, utasítson vagy kérjen inkább. Egyfajta személyiséget kap, ami a hangszínben, beszédtempóban, szünetekben és egyéb nonverbális eszközökben is megnyilvánulhat. Ez különösen fontos olyan területeken, mint az ember-robot interakció vagy általában ez ember-gép kapcsolat.

Mindez lényeges kérdéskör azok számára is, akik valamiért elveszítették a beszédre való képességüket, hiszen az új hangjuk protézis, ami személyiségük részévé válik. Stephen Hawking annak idején annyira azonosult a nyolcvanas években született gépi hangjával, hogy amikor újabb, természetesebb beszédet használhatott volna, visszautasította. A magyar kutatók 1993-ban kezdtek beszédsérült embereknek szánt szoftver fejlesztésébe, amely billentyűzeten beírt szövegeket vagy előre leírt, könnyen kiválasztható mondatokat olvas fel: a StrokeAid egyébként ingyenesen elérhető stroke-os vagy beszédsérült betegek számára.

Vicsi Klára vezetésével a Smartlabban is alkottak egy Beszédkorrektor nevű rendszert, amit 1993 óta számos intézményben használnak hallássérültek, siketek rehabilitációjára. Szintén foglalkoznak Parkinson- és Alzheimer-kór jelzésével, illetve csecsemősírás alapján történő, automatikus egészségiállapot-meghatározással is.

Számos olyan alapkutatás folytatnak, amiből aztán cégek valódi terméket fejlesztenek. Például a kutatók által alapított Speechtex Kft. alkotta meg az MTVA műsorait feliratozó rendszert.

– A stúdióban felvett hírolvasók vagy időjárás-jelentők beszédét 95 százalékban kiválóan leírja a rendszerünk, viszont az élő közvetítéseket, főleg a sporteseményeket már csak 80 százalékos helyességgel – mesél a nehézségekről Fegyó Tibor műszaki informatikus, a cég ügyvezető igazgatója. – Azonban az is igaz, hogy a magyar nyelv bonyolult, elég, ha csak egy ba-be ragot téveszt össze az algoritmus egy ban-ben raggal, az már szóhibának számít, ugyanis nem szokás külön betűhibákat számon tartani.

Legelső rendszerük egy hívásközpontban (call centerben) elhangzott beszédeket elemző szoftver volt, ami azt vizsgálja, mi hangzik el, és mi nem hangzik el a hívásokban, melyik értékesítési stratégia hatékonyabb, az ügyintéző betartja-e a protokollt stb. A cég fejlesztett egy jogi diktáló rendszert is, amit tavaly év végén dobtak piacra, és azóta közel száz bíró használja. Most pedig a műszaki szakfordítás támogatásán dolgoznak: gyorsabb, ha az idegen nyelvű szöveg olvasása közben diktálja a magyar változatot a fordító, és csak ezután kezd el vele dolgozni. Az európai uniós szakszövegek fordításaiban ezt már használatos módszer.


Személyi asszisztensek

– A témakör mindig kötött, mert így pontosabb az algoritmus – magyarázza Németh Géza. – Ha például elhangzik nem egészen tisztán az a szó, hogy orrszívó, akkor egy kisbabák gondozásáról szóló területen könnyebben be lehet azonosítani, viszont egy átlagos környezetben porszívónak is hallhatnánk. Márpedig az algoritmusnak sokszor kell döntenie több hasonló szóalak között.

A beszédfelismerés egyik része maga az akusztikus modell megalkotása, de a másik része egy olyan nyelvi modell létrehozása, ami például figyelembe veszi azt, hogy egy szó előtt és mögött általában mi szokott szerepelni. Ha például elhangzik az, hogy „jó”, később pedig a „kívánok” is, akkor a kettő között nagy valószínűséggel a „reggelt” fog szerepelni, és nem a „vekkert”, annak ellenére, hogy a témakört tekintve közel állnak egymáshoz. Ilyen törvényszerűségeket tanul meg az MI.

– Tág meghatározása van a mesterséges intelligenciának. Sokak szerint minden ide tartozik, ami emberi funkciókat vált ki, akár maga a számológép vagy egy sakk­automata is, pedig azokat egyszerű szabályok betáplálásával alkották meg – állapítja meg Németh Géza. – Mások szerint csak a tanulásra képes rendszereket sorolhatjuk ide, amelyek a viselkedésüket célszerűen és megismételhető módon képesek változtatni. De ebből a szempontból az is kérdés, hogy a szabályok bővítésével tanul-e a rendszer, vagy inkább magától. Mostanában sokan a mélytanulással, más néven deep learninggel fejlesztett algoritmusokat tekintik mesterséges intelligenciának, noha ez csak egy témaköre a szélesebb értelemben vett mesterséges intelligenciának. Lényege, hogy nagy mennyiségű adatot rendszerezve, címkézve kap meg a rendszer, és a neuronháló képes arra, hogy ebből általánosítson. Ha pedig újabb, hasonló jellegű bemeneti adatokat kap, akkor azt a betanító adatbázisnak megfelelően dolgozza fel.

A mesterséges neuronhálók alapgondolata több, mint 70 évre nyúlik vissza – a rendszerek az emberi agyhoz való hasonlítása könnyebben magyarázható analógiát ad, de valójában jóval egyszerűbb struktúráról van szó. Három tényezőre volt szükség a közelmúltbeli áttöréshez: mostanra lett meg az a szükséges digitális adatmennyiség, amiből az MI tanulni tud. Ehhez lett a gépeknek elég memóriája és számítási kapacitása. A harmadik tényező pedig érdekes módon a grafikai processzorok alkalmazása, ezek ugyanis el tudják végezni ugyanazt a számítást párhuzamosan, a képernyő több pontján egyszerre, és kiderült, hogy kiválóan lehet alkalmazni őket a neuronhálókon is.

Hosszú távon mégis a minél általánosabb rendszerű beszédfelismerés megalkotása a cél, például egy többfunkciós személyi asszisztensé, amivel a legtöbb nagy cég is folyamatosan próbálkozik. Ilyen a Siri (Apple), az Alexa (Amazon), a Cortana (Microsoft) és az Assistant (Google). Ezek funkcióit hanggal is vezérelhetjük – leginkább angolul, azt sem teljes sikerrel.

A szakemberek szerint a beszédtechnológia fejlődésének az a végső célja, hogy az ember és gép kapcsolatában előbb-utóbb szélesebb körben megjelenjen a beszéd. Idővel beszéddel fogjuk tudni legjobban irányítani a gépeket, mivel pedig ők visszajeleznek, kommunikálni fogunk velük, akár a saját otthonunk irányításáról, akár egy gyárban a géppel való közös munkáról, akár személyes oktatórobotunkról van szó.