Ki vagy, megmondod te magad – szövegfejtő szoftverek
HVG, Háló melléklet, 2005. június 1.
A Federal Communication Comittee a második világháborúban előre jelzett több nagy német katonai és politikai offenzívát, emellett felbecsülte a náci vezetés saját helyzetértékelését, az uralmon lévő csoporton belüli pártpolitikai változásokat és a tengelyhatalmak közötti viszony módosulásait. Megjósolta a német csodafegyverek Anglia elleni bevetésének várható időpontját is. Szövegelemzőik továbbá Goebbels beszédeit figyelemmel kísérve e fegyverek gyártására utaló áthallásokat tudtak kimutatni, sőt, alig pár hetes időhatárok között megadták a támadás megindításának dátumát is – írja szövegelemzésről szóló könyvében Klaus Krippendorff a tartalomelemzés korábbi, de nem is annyira eredménytelen szakaszáról.
A második világháború óta az alapelvek kevéssé, viszont a technikai eszközök gyors ütemben megváltoztak. Egyre több és jobban használható szoftver jelent meg a már eredetileg is írott vagy leírt szövegek nyelvi mintázatainak azonosítására – fejti ki a téma egyik hazai szakértője, Ehmann Bea, az MTA Pszichológiai Intézetének munkatársa. Mint mondja, az egyik legnagyobb kihívás, hogy a szövegben a gép által könnyen megtalálható és számszerűsíthető elemeket – például az én személyes névmás, időpontra irányuló kifejezések sora, vagy éppen birtokragos főnevek – minőségi mutatókká alakítsák át. Először persze pszichológiai szempontból kell meghatározni, hogy mit keressen a szoftver. Egy vágatlan interjú szövegéből például jó eséllyel megállapíthatjuk, hogy az elmondottakból mit tart az illető fontosnak, milyen dolgokhoz ragaszkodik, mely események jelentenek számára traumát, s mindezt anélkül, hogy ezt az illető célzottan meg kívánná osztani velünk.
Síklaki István, az ELTE docense néhány árulkodó nyelvi jelre hívja fel a figyelmet: a beszélő öntudatlanul fedhet fel olyan ellenérveket, amelyeket lehet, hogy csak ő gondol. Ez megjelenhet egy állítást tagadó beszédfordulatban: „Nem arra törekszünk, hogy…”, amely szoftveresen is könnyen azonosítható. Ebben az esetben a befogadó elgondolkodhat: tényleg fennáll-e a tagadott dolog veszélye? Másszor felelősséget hárít el, vagy a kompetenciájának hiányát árulhatja el a nyilatkozó, ha a mondatokban gyakori az igék főnevesítése (nominalizáció), például „árfolyamcsökkenés” alak használata „az árfolyamot csökkenti”. A főnevesített formák túlsúlyba kerülése felvetheti a tényleges cselekvők elfedésének tudatos—tudat nélküli elkendőzésének szándékát. Bizonytalanságot, sumákolást fejez ki a „fedezék kifejezések” sűrű alkalmazása, melyet például az „egyfajta, a tulajdonképpen, a maga módján”, és hasonló kifejezések jeleznek. Az elhamarkodott értékelést kerülendő érdemes több tünetcsoportot keresni: az utóbbi példa kifejezései például eredhetnek akár puszta modorosságból is. A szövegösszefüggés is segít az értékelés pontosabbá tételében.
A szövegelemző alkalmazások képesek a szófajok elfogadhatóan jó azonosítására magyar nyelven is, így nagyobb szövegben vizsgálódva masszív eredményeket lehet kapni. A vizsgálódás terepe lehet a kríziskommunikáció, a vágatlan nyilatkozatok elemzése, de kritikával, a módosító hatásokat – például a pr-es kommunikáció-formálása, az újságíró stílusa, az adott sajtóorgánum stílusa és célja – figyelembe véve elemezhetők akár a sajtónyilatkozatok is.
De vannak más források is. A statisztikai szövegfeldolgozás egyszerűbb esete, amikor banki piacelemzésekben, tőzsdei jelentésekben kell táblázatokból kinyerni a gazdasági mutatószámokat – mondja Miskolczy Csaba, a TEXTlab Kft. ügyvezetője. A hazai fejlesztések képesek az ügyfél-levelekben megfogalmazott, sokrétű és akár emberi aggyal is nehezen értelmezhető üzenetek felismerésére és automatikus kategorizálásra.
A szövegelemzéssel a gazdasági adatokon túl az elfogultság is tetten érhető – folytatja Síklaki István: a részrehajlást jelezheti a Linguistic Intergroup Bias jelenségének minősített előfordulása: az állítmányok megválasztásánál az ellenfél negatívumait elvont, pozitívumait konkrét módon fejezzük ki, a saját érdekkörünk viszonylatában pedig épp ellenkezőleg. Így az elektronikus – vagy azzá átalakított – szövegek feldolgozása alkalmas akár a vezető személyek jövőképének elemzésére, kutatási folyamat szakaszának azonosítására, rejtett gondolataik kibányászására.