Mentális konstrukciók adatorientált azonosítása korpuskutatás keretében a Mozaik módszer és ahhoz kapcsolódó technikák alkalmazásával – Magyar Nyelvtudományi Kutatóközpont.
Az emberi agyban számos nyelvi mintázat rejlik, amelyek a nyelvtanulás során tudatosan bővülnek, jellemzően explicit konstrukciók alkalmazásával. A nyelvi mintázatok kinyerésére jelenleg két fő megközelítés létezik: az egyik, hogy a nyelvészek manuális keresésekkel gyűjtenek bizonyítékokat elméleti hipotéziseik alátámasztására, míg a másik a nagy nyelvmodellek használata, amelyek statisztikai módszerekkel felfedezik a nyelvi összefüggéseket, ezzel egyre inkább emberszerű kimeneteket produkálva. Mindazonáltal, e megközelítéseknek vannak gyengeségeik: a nyelvmodellek nem képesek a nyelvi tudást értelmezni, mivel tisztán statisztikai alapokon működnek, ami nehezen összeegyeztethető a nyelvészet eddigi megállapításaival. A manuális keresések pedig a kutatók szubjektív intuíciójától függnek, ami miatt statisztikailag nem mindig megbízhatóak.
A Mozaik módszer kiterjesztéseként kialakított modell célja, hogy minimalizálja a kutatók intuitív döntéseinek hatását, ezzel egyidejűleg csökkentve a manuális munkát a korpuszban található minták felderítése során. Ennek a megközelítésnek a moduláris felépítése lehetővé teszi, hogy széles spektrumú nyelvi jelenségeket elemezzünk, és így egy olyan interpretálható modellt alakítsunk ki, amely hasonló képességekkel rendelkezik, mint a nagy nyelvmodellek. Ez a modell nemcsak hogy bővíti a nyelvről szerzett ismereteinket, hanem hidat is képez a különböző kutatási megközelítések között.
Az előadásomban a nyelvtudomány különböző irányzatai mentén vizsgálom meg a motivációt, amely a mögöttes modell alapját képezi. Részletesen bemutatom a Mozaik módszer működését, amely a rendszer fundamentumát jelenti. Esettanulmányok segítségével illusztrálom az eljárás aktuális állapotát, működését és jelentőségét a mai nyelvészeti diskurzusban. Végül pedig betekintést nyújtok a jövőbeli fejlesztési irányokba és alkalmazási lehetőségekbe, amelyek tovább gazdagíthatják a területet.
Bajzát Tímea, Indig Balázs és Kalivoda Ágnes (2024) írása, "A fatens felelt pedig..." - A Történeti Magánéleti Korpusz igei szerkezeteinek mozaik n-gram alapú feldolgozása, bemutatja a nyelvészeti elemzés új megközelítéseit. A tanulmány a Berend Gábor, Gosztolya Gábor és Vincze Veronika által szerkesztett XX. Magyar Számítógépes Nyelvészeti Konferencia kiadványában jelent meg, amely Szegeden, a Szegedi Tudományegyetem Természettudományi és Informatikai Karának Informatikai Intézetében került megrendezésre. Az írás 43-58. oldalain olvasható.