Szövegbányászat, mint új üzleti szolgáltatás
Világgazdaság, 36 (2004. jan. 23.) p. 9, 11.
Elég a túláradó információból! Csak testreszabottra, az adott kérdésre megoldást kínálóra van szükség, és akkor, amikor az aktuális. Egyébként káros. E kimondott—kimondatlan elvárásra építenek azok a szolgáltatók, amelyek nagy tömegű adatból, információból a döntéshozáshoz szükséges néhány sort, diagramot vagy képet állítanak elő. A vállalati dokumentumtárban, elektronikus könyvtárban, interneten és adatbázisokban lévő, főként szöveges információt tehát tudássá kell formálni. A gyakran emlegetett adatbányászat mellett a szövegbányászat technikái kezdenek előretörni. Ám a szövegbányászat nem gyökeresen új dolog. A szövegpragmatika, diskurzuskutatás számos helyen szerepel a bölcsészkarokon, de e tudás és az üzleti alkalmazások közötti kölcsönösen előnyös kapcsolat kiépítése még várat magára.
A katonai hírszerzésben való alkalmazások itt is jóval előrébb állnak, mint a polgári használat. A második világháborúban a felek eredményesen alkalmaztak szövegelemzést a rejtjelezett üzenetek megfejtésére. A módszert idehaza évtizedek óta használja a kriminalisztika is. A szövegbányászatot újabban az üzleti hírszerzéssel, gépi fordítással és a CRM-mel (ügyfélkapcsolati menedzsmenttel) kapcsolatban említik legtöbbször. Nem is véletlenül.
Nógrády Norbert, a UPC ügyfélszolgálati igazgatója elmondása szerint a textmining számukra a hatékonyság és ügyfél-elégedettség növelésének eszköze. Ezen felül további terveik is vannak a hazai fejlesztésű, TEXTlab-szoftver használatával kapcsolatban: ’Már most úgy építjük CRM-rendszerünket, hogy a lehető legtöbb automatikus funkció vezérlésére legyen képes, például egyes termékek esetében a megrendelések azonnali teljesítésére. Hasonló megoldás szükséges, ha a későbbiekben be kívánjuk vezetni a “Pay per View”, esetleg még később a “Video on Demand” szolgáltatásokat. A mobiltelefon elterjedtségének folyamatos növekedésével az SMS-nek nagyon fontos szerepet szánunk az ügyfelekkel való szorosabb kapcsolattartásban. A születésnapi köszöntésen kívül valamennyi tipikus ügyfélszolgálati kérdéskörben érezzük az SMS-csatorna létjogosultságát. Legyen szó számlázási vagy hátralékkezelési kérdésekről, marketing- és kampányinformációkról, technikai jellegű kérdésről, vagy akár ügyféladatot-, szolgáltatáscsomagot érintő változtatásról.’ A call center működését a szövegbányászat az ún. contact center irányába viszi. A szövegfeldolgozó szoftverek jól integrálhatóak a call centerben már használatos alkalmazásokhoz, az ügyféladatbázisból olvasva azonosítják az ügyfelet, a folyamatvezérlő segítségével figyelembe veszik a teljes ügyféltörténetet és a már folyamatban lévő egyéb, az ügyfélnek adandó választ befolyásoló történéseket. Ezt „intelligens módon” akkor is megteszik, amikor az ügyfél néhány karaktert elütött az SMS vagy e-mail alapú megkeresésben. Az UPC által használt rendszer emellett tanul és javaslatot tesz újabb, akár eddig általuk észre sem vett szakosodási irányokra.
A szövegbányászat, mint technológia ugyanilyen hatékonyan alkalmazható külső forrásokban való keresésre is. A piacon számos olyan egyszerűbb, dobozos terméket kínál, amelyek a felhasználó profiljai szerint azonosítják, illetve rendszeresen végiglátogatják az illetékes weblapokat, tisztítják az eredményt és jelzik új adatok megjelenését. A testreszabott megoldások jóval pontosabb eredményt adnak, ám ezek megkövetelik, hogy a kereső fél részletesen határozza meg érdeklődését. Például: az „eb” keresőkérdésre az általános keresők nem adják meg a „kutya” találatait, nem beszélve a „bernáthegyi” vagy a „tacskó” kifejezésekről. E triviális asszociációkra meg kell tanítani a rendszert, s a fejlesztők energiáit jelentős részben ez köti le: összeállítják a megrendelő tárgyszójegyzékét, és a megrendelő érdeklődése szerinti logikai rendbe szedik azt. Az összetettség és az érdeklődési profil változása miatt a szolgáltatók nem csak szállítják és installálják, hanem folyamatos munkával finomhangolják is a rendszert.
Egyszerűbb a helyzet akkor, ha a keresőrendszert – DMS, azaz Document Management System – egy szervezet belső anyagainak keresésére használják. A hazai nagyvállalkozások esetében már gyakori, hogy papíron beérkező irataikat is elektronikus formában tárolják. Ám ezek hatékony keresése még csak ritkán megoldott.
Az eredményes és hatékony keresés tehát szorosan összefügg a tudás kezelésével. „A politikusok nyilatkozatainak nem a közvetlen tartalmát figyelem” – mondja Hernádi Sándor nyelvész – „hanem a mondatok felépítését, szövegkohéziót, szóhasználatot vizsgálom; ezekből és változásaikból vonok le következtetéseket”.
A tudásszerzés, megismerés ugyan nem azonos a nyelvvel, illetve annak rögzített vagy hangzó formájával, a szöveggel – amelyet a keresőrendszerek igyekeznek megfejteni –, de szervesen összefügg vele. A szövegbányászat a nyelv tartalmi elemeit és azok összefüggéseit vizsgálja, tárja fel. A szövegpragmatika és a diskurzuskutatás máshonnan közelít: főként a szöveg és környezete viszonyát nézik. Segítségükkel feltárható a nyilatkozó közvetlenül ki nem mondott gondolata, sőt akár a titkolni szándékolt tartalom is. Így elemezhető és sokszor azonosítható egy ártárgyaláson a ki nem mondott jelentéstartalom, amely döntő hatással lehet az üzletre. Nem mindegy például, hogy tárgyalópartnerünk egyes- vagy többes szám első személyt használ, mert ezzel utal döntési jogkörére. A partner belső fontossági sorrendjét tükrözi, hogy felsorolásnál mit mond először, vagy hogy egy korábbi történésből mely részleteket emel ki. Amelyik szempontot nem, vagy sokadikként említ – mondjuk szállítási határidő vagy jóteljesítési garancia – azon a területen a szállító nagyobb reménnyel próbálhat számára kedvezőbb kondíciókat elérni. Az elemzés tehát megtakarítást hoz.
A szövegbányászati piac megelevenedni látszik, számos hazai és külföldi gyökerű cég kínálja termékeit, megoldásait, például a Morphologic, Empolis, Wrightson, vagy a TEXTlab. A szereplők szerint a kínálat koncentrálódása várható.