"A fiatalabb korosztályban nem tudott kiválasztódni egy kreatív, alkotó, szakmai közgondolkodást és tudást erősítő réteg."
Neuralgikus pontok a szakkönyvtárügy működésében / Horváth Tibor. In: Tudományos és Műszaki Tájékoztatás (1989) 11 http://tmt.omikk.bme.hu/show_news.html?id=3152&issue_id=396

Szövegek feldolgozása és elemzése – Rejtjelfejtés: Szövegelemzés az üzleti életben

A megjelent változat címe: Rejtjelfejtés — Szövegelemzés az üzleti életben, Figyelő, 48 (2003. dec. 18.) 51 p. 52.53

A második világháborúban a szövetségesek az elfogott üzenetek kódolt szavainak megfejtéséhez létrehoztak egy tezauruszt – rendezett szógyűjteményt – mely által asszociációkat vizsgáltak. Például a Narvik norvég város neve a vízfeldolgozásra asszociált (a városban polgári célú vízionizáló-mű volt a háború előtt), a vízfeldolgozás a nehézvízre, a nehézvíz az urándúsításra. Ha ez a név fordult elő ellenséges üzenetekben, felmerülhetett a gyanú, hogy ez összefügghet az atombomba előállítására irányuló német kutatásokkal – mondja Ungváry Rudolf tezauruszkészítő információs mérnök.

Az iskolában is tanítják a szövegelemzést, azon belül a mondatok, szavak elemzését. A leíró nyelvtan sok diák életét keseríti meg, holott mindezek a gyakorlatban alkalmazva üzleti döntéshozókat, hírszerzőket egyaránt lázba hozhatnak. Az iskola – szépirodalmi szövegekre koncentrálva – az író, költő rejtett vagy kevésbé rejtett mondanivalóját kívánja feltárni. Talán még érdekesebb lehet egy szerelmeslevél vagy egy üzleti tárgyalás szövegének tartalmi elemzése.

A jelek arra utalnak – fejti ki Horváth Péter, a BME-OMIKK címzetes főigazgatója, információkutató –, hogy az információtudományban (általa javasolt újabb elnevezésével: infológiában) nagyobb előrelépés a szövegfeldolgozás területén várható. A dokumentációs központokban már eddig is meg lehetett automatikusan nyelvek szerinti válogatni, hogy az anyagok melyik nyelv fordítójához kerüljenek. Talán meglepő, hogy ezt olyan egyszerű eljárás segíti, amelyben adatrögzítés vagy beolvasás után a szövegfeldolgozó szoftver megszámolja, hogy mekkora a szövegsorból alul illetve felül kilógó betűk száma, ez ugyanis a különböző nyelvekre jellemző állandó értékeket ad. A szövegtartalmak figyelése bibliometriai, informetriai módszerek alkalmazásával eddig is kimutatható volt, hogy melyek az adott kutatási szakterületek kiemelkedő képviselői, irányzatai, illetve előre jelezhető, hol várhatók áttörések a fejlesztésben. E téma specialistái a trend- illetve technológiafigyelésre szakosodott információbrókerek.

A szövegelemzés és –feldolgozás iránt fokozódik az érdeklődés. Ennek mozgatórugója az üzleti hírszerzés, a személyzeti menedzsment, a CRM, és ahol nagy mennyiségű szövegek gyors és viszonylag olcsó átvizsgálásának igénye, például irattári feldolgozás. Az igények kielégítésére megjelentek a számítógépes alkalmazások, a dobozosak, illetve a jobb eredményt mutató testreszabott alkalmazások. Ezekkel elérhető, hogy a túláradó információból – például emailek – csak az érdeklődésünknek megfelelő jusson el hozzánk, azokat is képesek legyünk osztályozni: például a vezérigazgató vagy a marketinges kapja-e a levelet, vagy a kivonatolás által egy döntés érdekében kevesebbet kell átolvasni, elemezni. Mindezek gyorsíthatják az ügyvitelt, döntéshozatalt.

A nagyvállalatok eljutottak oda, hogy feldolgozzák, digitalizálják irattárukat. További igényük, hogy gyorsan szeretnének benne keresni is – fejti ki Miskolczy Csaba, a TEXTlab Kft. cégvezetője. A meglévő szövegbányászati technológiát irattárban, adatbázisban vagy interneten történő dokumentumkeresésre, CRM-rendszerek támogatására szintén használják. Az ügyfélszolgálatokra beérkező SMS-ek, más szöveges üzenetek, és közelebbi—távolabbi jövőben a felismert, karaktersorokká alakított beszéd egyaránt alkalmas az automatikus feldolgozásra.

Jelképesen Mátrixnak nevezték azt a hírszerző-szoftvert, melyet az Enron használt a lehetséges politikai döntések és az azt megelőző szöveges információk elemezésére. Az elfogadandó törvénytervezetek közül választotta ki a számára kedvezőket. A költség-haszon összefüggések legmagasabb szintű optimalizációjára figyelő szoftver azonban a döntések közül kihagyta a társadalmi és erkölcsi megfontolásokat. Az Enron – a Washington Post szerint – ezzel erkölcstelen módon használta fel a technológiát, hiszen a feltárt haszonterületeket azonnal továbbították a cég lobbistáinak, akik immár „hathatós” érvek segítségével kezdték el meggyőzni a politikusokat és döntéshozókat. A szoftver tehát önmagában nem lett volna erkölcstelen eszköz, csupán az Enron működési mechanizmusa tette azzá.

A nagy mennyiségű gazdasági, piaci, tőzsdei, politikai hírek vagy tudományos közlemények elemzéséhez szükséges leginkább a logikai és szemantikai tudáselemekre támaszkodó mesterséges intelligencia, illetve a prediktív, azaz „előre vetítő” feldolgozás. Így azon túl, hogy a szövegről emberi olvasás nélkül megmondható, hogy miről szól, az is meghatározható, hogy – korábbi szövegelemzési tapasztalatok alapján – egy bizonyos tőzsdeindex várhatóan felfelé vagy lefelé fog tartani. A Commerzbank és a TEXTlab német képviselete szövegbányászati projektet készítenek elő, hogy az alkalmazás előre figyelmeztethesse a portfóliójába tartozó vállalkozások esetleges krízishelyzeteit. A bank tőzsdeindexe ugyanis két százalékot esett az érdekeltségi körébe tartozó Saban médiacég év eleji megingása miatt. A cég tehát mennyiségi mutatókat állapít meg adott sajtóinformációkból, például összegzi az adott iparág banki kockázatvállalásait (pl. kihelyezés, tulajdonlás), ami a pénzpiaci szereplők aktivitását jelzi. A mesterséges intelligencia alkalmazásában rejlő hazai és külföldi piaci lehetőségeit is figyelembe vette Bojár Gábor, a Graphisoft alapítója, amikor betársult a Miskolczyék vállalkozásba.

A Morphologic NewsPro rendszere az üzleti kishíreket elemezve szűri ki a cégfelvásárlások tényadatait, a vásárlót és a megvásároltat, a részesedést, az árat is. Iparágak ilyen „mozgásainak” feltérképezése a tőzsdén, a bankban és a termelői szférában egyaránt olcsó és hasznos információt kínálhat. A szövegbányászat túlnyúlik az üzlet területén: a cég a Pannon Tudományegyetem Pszichológiai Intézetével közösen fejleszt olyan elemző szoftvert, mely képes digitalizált szövegben azonosítani a negatív kifejezéseket, a szubjektív elemeket, attitűdöket kifejező szavakat, szókapcsolatokat. Itt talán még jobban kell azonban figyelni arra, hogy a valóság jóval bonyolultabb, mint amit a számítógép ki tud mutatni.

Amíg ügyfeleink által küldött e-mailek előválogatás nélkül kerültek a kollégákhoz, nagyon nehézkesen ment a levelek témakörök szerinti szétválogatása, csoportosítása és feldolgozása – mondja Nódrády Norbert, a UPC ügyfélszolgálati igazgatója. A bevezetett szövegbányászati megoldás nem csak azt biztosítja, hogy az e-mail tartalmának megfelelően az adott témában vagy akár témakörökben mindig éppen a legjobban képzett kollégánk képernyőjére kerüljön, hanem azt is, hogy a válaszra már komplett, megformázott választervezet is azonnal automatikusan rendelkezés-re álljon a kollégának, aki így nagyrészt megtakaríthatja a válasz begépelésére és formázására jutó időt. A válasz várható “megfelelőségét” a rendszer százalékos valószínűség-értékkel is minősíti. Egyelőre még 100%-os valószínűségnél sem engedjük automatikusan útjára a választ, hanem a témában szakosodott kolléga végez egy végellenőrzést. Tehát az ügyfél-elégedettség azáltal növekszik, hogy szakértő választ tudunk biztosítani sokkal rövidebb válaszadási idő mellett. Előnye még a TEXTlab megoldásának, hogy idegen nyelvű e-maileket is tud kezelni – fejti ki Nógrády.

A szövegbányászat további lehetősége az újdonságdetekció, mely által szinte azonos szövegekből kiválasztható azt, hogy melyikben van új információ. Ezen érthetjük például a hírügynökségek által kiadott közlemények helyi mutációit. Ezek a kisebb részletek sokszor döntő információelemeket kínálnak az üzleti hírszerzőknek.

Kibeszélt elhallgatások

A szövegben ösztönösen rejtett üzleti szándék jelei nehezen modellezhetők, illetve nem olyan gyakoriak, hogy megérné ezek megfelelő modelljét kialakítani. Ilyen helyzetekben alkalmazható a szövegpragmatika. Az írott, vagy egyéb módon rögzített szövegek elemezésével szerzett eredmények gyakran pontosabbak, mint a testbeszéd-jelek vizsgálatával kapottak. A közlő ugyanis nem gondol arra, hogy akaratától inkább függő, verbális kommunikációja során akaratlanul feltárhatja elhallgatni kívánt hátsó gondolatait is – fejti ki Galuska László Pál, a Kecskeméti Főiskola oktatója. E módszer a szöveg és alkotója közötti viszonyt vizsgálja, őszintén ír-e, beszél-e partnerünk, van-e kimondatlan tartalom a szövegben, vagy hogy befolyásolják-e külső körülmények a szerzőt. Magát a módszert az angolszász hírszerzés dolgozta ki és vezette be a múlt század harmincas negyvenes éveiben, a nácik, illetve a szovjetek propagandaanyagainak vizsgálatára. A szövegpragmatika rejtett utalások feltárása érdekében először a szövegen kívülre mutató, a szerző személyi viszonyait jelző adalékokra figyel. A ’Nem tartom elfogadhatónak az ajánlatot’ konkrét döntéshozóra utal, ellentétben a ’Nem tartjuk elfogadhatónak az ajánlatot’ mondattal. Az utóbbi azt is jelenti a hallgató számára, hogy a több döntéshozó miatt a kimondott ítélet nehezebben változtatható, mint a másik esetben. A tárgyalás stratégiája ezek szerint átgondolandó.

Hatékonyan alkalmazhatóak a mesterséges intelligencia alapú szoftverek, hogy bizonyos törvényszerűségeket megállapítsanak a kontextusból, és ezek alapján riadóztassanak, a riadót követően viszont magának az embernek kell összeállítania a következtetést. A gépi intelligencia – mondja Prószéky Gábor, a Morphologic ügyvezetője – megkönnyítheti az üzletember, információbróker, pszichológus vagy kutató rutinmunkáját. A porszívó is közvetlen emberi irányítással válik hasznossá, ám ha az emberi kontrollt elhagyva önjáróvá tennénk, feltehetően nagy felfordulást okozna.

Hozzászólás