Szövegbányászat – Tudásmenedzsment szoftvertechnológiák
Szerzők: Aszalós Péter, Miskolczy Csaba
BOSS Magazin, 2003. október, p. 37-39
A szerzők engedélyével közölve
Üzleti információszerzés alapjai
Mindenki hallott az internetes keresőmotorokról, és egészen biztosan használta már azokat üzleti partnerei, felhasználandó technológiák és egyéb üzleti hírek felkutatására. A webes keresők lehetőségei azonban határosak, hiszen jobbára csak kulcsszó alapú keresésre képesek vagy a keresési találatra olyan nagyszámú válaszlehetőséget ajánlanak fel, amelyeknek sokszor az elolvasása is lehetetlen. Léteznek ugyan összetettebb keresési megoldások, amelyek révén például szabadszavas kérdést tehetünk fel a kereső motornak (pl. AskJeeves, www.ask.com) vagy valamilyen előzetes értékelés (rating) során rangsorolódnak a felajánlott válaszok, azonban ezek sem sokkal hatékonyabbak a nagy információ özön tekintetében.
Az elektronikus üzleti információszerzés másik lehetősége egyrészt vertikális portálok, ún. ágazati hírportálok figyelése és rendszeres olvasása (pl. tobacco.org). De az internetes jegyzeteket tartalmazó szubjektív-jegyzetelő website-okon (blog-gok) vagy az internetes fórumokon is beszerezhető „érdekes” információ. Érdekes információt említettünk, mivel ezen információk megbízhatósága és hitelessége sokszor megkérdőjelezhető, ezért csupán felszínes üzleti tájékozódásra alkalmasak.
Push technológia, mint szelektált hírfigyelés
Az internetes körökben legendás PointCast találta ki a 90-es évek közepén az ún. ticker-technológiát, ami lényege az volt, hogy bizonyos információkat egy feltelepített program segítségével, egy kicsiny elektronikus felületen (interface) jelenítenek meg a felhasználó képernyőjén. A matricányi felületen (innen a ticker elnevezés) azonban az eredeti információnak csupán a kivonata (pl. lead-je) és a címe olvasható, a teljes hír olvasását már egy böngésző ablak megnyitása révén a weben lehetett megtenni.
Az EntryPoint és az IFN nevű tartalomszolgáltató cégek eközben az ún. streaming technológiát tökéletesítették, amely révén számos hírszolgáltató cikke egy közös hírgyűjtő felületen, különböző kategóriákban jelenhetett meg. Az internetes boom alatt, 2000-ben az IFN-ben 30 millió dolláros akvizíciót hajtott végre az Idealab és a Citigroup, amely révén az IFN felvásárolta az EntryPointot, amely már korábban megvette a Pointcastot. Az IFN ezután – az internetezők nagy felhördülésére – megszüntette a PointCast ingyenes szolgáltatását, amelyet Infogate néven vitt a piacra.
Hírfigyelés és információs „nyomkövetés”
Az Infogate – 2003. nyarán történt tönkremeneteléig – az egyik legsikeresebb képviselője volt a hírfigyelésnek (newswatching vagy news tracking) nevezett információs területnek. Az Infogate tartalmi partnerei között olyan nagy „hírgyártók” (primer hírforrások) szerepeltek, mint például a CNN vagy a USA Today, és az Infogate fénykorában csaknem 3000 médiapartnertől gyűjtötte be a híreket.
A hírfigyelőben egy letöltött szoftver révén hosszúkás alakú felhasználói felületen futottak a hírek, mint ahogy a tőzsdei televíziós műsorok alján az egyes információk. Ezekre rákattintva – már a böngészőben – elolvashatóak voltak a teljes cikkek. Ezentúl a havi 5-7 dolláros díjért igénybe vehető szolgáltatásprogram képes volt olyan testre szabható funkciókra, mint például bizonyos kulcsszavak (pl. cégek, tőzsdék, technológiák, egyéb elnevezések) figyelésére és amint az adatbázisban megjelent a figyelendő kulcsszavas információ a szoftver a beállított parancsnak megfelelően e-mail-ben, vagy a képernyővédőn vagy sms-ben riadóztatta az előfizetőt. A hírek a szoftver letöltésekor beállítható kategóriákban és a felhasználó érdeklődési körének megfelelő formában és kategóriákban jelentek meg.
Ez volt a hírfigyelés széles körben felhasználható szoftvereszköze és, hogy mi vezethetett a tönkremeneteléhez, azt csak tippelni tudjuk. Talán a sok új ingyenes hírszolgáltató (log, blog, feed-site-ok) megjelenése, vagy a rossz üzleti konstrukció, amely csupán a tömeges felhasználókra épített, mindezt úgy, hogy a szoftver reklámfelületeit nem értékesítették, csupán az alacsony előfizetési díjakból akartak nyereséget termelni. Az Infogate egyébként sohasem árulta el előfizetői számát, de a szakértők szerint világszerte 1,5 millió elégedett ügyfele lehetett, hiszen akik használták, azok egyúttal függővé is váltak a hírdömpinget biztosító programnak: a felmérések szerint a munkaidejük 70 százalékában háttér információs forrásként figyelték a nemzetközi történéseket.
Tudásmenedzsment és kompetitív intelligencia
Az internetes hírfigyelő szolgáltatások és a hagyományos sajtófigyelés tapasztalatai révén olyan szelektált tartalmakat tudhat meg bárki a hírfigyelés révén, amelyek tovább növelhetik gazdasági előnyét a konkurenciával szemben. Ha ezt az információs „jól informáltságot” vegyítjük a cégeknél felhalmozott belső tudással, készségekkel és kapcsolatokkal, akkor olyan tudásmenedzsment eszköz jöhet létre, amely az üzleti döntéseket igazán hatékonnyá és gyorsabbá teszi. Ezt tudásmenedzsment-ágat nevezik competitive illetve competitor intelligence-nek, azaz verseny- ill. versenytárs-figyelésnek (CI).
Az elektronikus CI lényege, hogy a versenytársakat és az adott ágazat piaci mozgásait intelligens szoftverek révén figyelik és a felhalmozott információk alapján bizonyos döntések meghozatalában a szoftverek képesek segíteni. Ezen döntések lehetnek olyan típusú kérdésekre adott válaszok, hogy érdemes-e befektetni egy régióban vagy mikor éri meg egy új szolgáltatást, technológiát a piacra vinni.
Lobbiszoftver etikátlan célokra
A CI szoftverek egyik elhíresült verziója az, amelyet a kilencvenes évek végén az Enron alkalmazott lobbidöntéseinek meghozatalára. A jelképesen Mátrixnak elnevezett csodaszoftver ugyanis a lehetséges politikai döntéseket és az azt megelőző szöveges információkat elemezte oly módon, hogy az elfogadandó törvények közül kiválasztotta azokat, amelyek hatályossá válása az energiacég számára a legnagyobb haszonnal kecsegtetett. A költség-haszon összefüggések legmagasabb szintű optimalizációjára figyelő szoftver azonban a döntések közül kihagyta a társadalmi – erkölcsi megfontolásokat. A felhasználó alkalmazottak elmondása szerint ezek súlya döntésekben nulla volt és a szoftverről beszámoló Washington Post is ezt nehezményezte. Az Enron – a neves sajtóorgánum véleménye szerint – ezzel erkölcstelen módon használta fel a technológiát, hiszen a feltárt haszonterületeket azonnal továbbították a cég lobbistáinak, akik immár „hathatós” érvek segítségével elkezdték meggyőzni a döntésekben érintett politikusokat, döntéshozókat. De a lap megjegyzi, hogy a szoftver önmagában nem lett volna erkölcstelen eszköz, csupán az Enron azon működési mechanizmusa tette azzá, amely alapja volt, hogy az agresszív lobbi révén, az illegalitás és a törvénytelen korrupció eszközeivel „kikényszerítse” a cég számára hasznos, viszont a társadalom számára káros amerikai törvényeket.
Szövegbányászati technológia
Mint a fenti példa mutatja, a CI-szoftverek hatékonyan összekapcsolhatóak belső céges tudásbázisokkal. Ebből is kitűnik, hogy e szoftverek nem dobozolható, nagyszériában értékesített szoftverek, hanem egyedi-kifinomult alkalmazások. A szoftvereket működtető technológiát szövegbányászatnak (textmining) nevezik, mely által nem csak kulcsszavak alapján lehet az információt szűrni, hanem a szöveg mondanivalója, az egyes mondatokba fölött lévő szemantikai tartalmak alapján is.
Egyszerűbben fogalmazva, a szoftverek elolvassák a nagy mennyiségű szöveges információkat és egy mesterséges intelligencia alapú tanulási folyamat révén képesek azok mondanivalóját értelmezni, illetve – az értelmezést követően – képesek csoportosítani, megtalálni, kivonatolni az adott dokumentumot. A kivonatolás lehet releváns keresés, amikor a felhasználó bizonyos dokumentumrészleteket kiválaszt, vagy tovább szűkíti azok alapján a keresést, de lehet olyan típusú kivonatolás is, amikor a szoftver eldönti, hogy pl. több száz azonos témában megfogalmazott dokumentumban melyik tartalmaz a többitől eltérő, új információt.
Komplex információkutatás
A szövegbányászati szoftverek tehát nemcsak a kulcsszavakra figyelnek (mint például a webes keresőmotorok vagy a push-technológiák), hanem ezentúl képesek egyes relációk, logikák követésére. Ezek a tudáselemek tanítási folyamat révén kerülnek a szoftverbe, azaz a rendszert fel kell készíteni az adott cég vagy ágazat tudásanyagára. A felvitel során megadásra kerülnek a cég kulcsszavai, főbb kifejezései, meghatározhatóak ezek egymáshoz való viszonya (lásd ontológiai megközelítés) és detektálhatóak a főbb üzleti modellek, eseménytípusok (pl. felvásárlás, technológiatranszfer stb.) Az így felkészített szoftverek képesek a figyelésbe bevont adat- és szövegbázisok, dokumentumtárak folyamatos feldolgozására, és amennyiben a többszörösen összetett és személyre szabott figyelési feltételeknek megfelel egy adott információ, azonnal kiszűrik azt.
A detekció során fontos szempont, hogy ezek a szövegbányászati szoftverek immár a szövegben elrejtett, vagy nehezen kibányászható jelentéstartalmakat is képesek felismerni. Amikor ugyanis olvasóként böngészünk egy cikket, sokszor nem azok az információk a relevánsak számunkra, amelyek a cikk íróját vezérelték. Egy cikk végén is előfordulhatnak számunkra fontos információelemek, amelyek teljesen irrelevánsak az eredeti híranyag címétől és tematikai besorolásától. A szoftver tehát segít az ilyen tartalmak felkutatásában is.
Televíziós riportok szövegfeldolgozása és a titkosszolgálat
Meglepőnek hangzik, de léteznek olyan szövegbányászati szoftverek, amelyek képesek videós képanyagokat, riportfilmeket átnézni és azok szövegét feldolgozni, például oly módon, hogy bizonyos kulcsszavak visszakereshetőek legyenek. Az Autonomy amerikai cég szoftvere például képes visszakeresni a BCC riportfilmjeiben bizonyos kulcsszavakat, mindezt a textmining és a beszédfelismerés (Speech-to-Text, STT) technológia révén teszi. Az ilyen platformokra felkészített szoftverek nemcsak üzleti alkalmazásokra, hanem titkosszolgálati felhasználásokra is képesek. Az amerikai szövegbányászati cégek egy része is vélhetően ilyen kormányzati megbízásokat, kémszoftvereket állíthat elő. Minderre természetesen nem lehet az adott cégek referenciáiban ráakadni, csak következtetni lehet.
Beszédfelismerés és információfeldolgozás
Az AT&T Lab kutatói olyan megoldásokon dolgoznak, amelyek lehetővé teszik a szöveg és a beszélt nyelv közötti átjárást. Ennek két iránya van: egy részt a szövegből való beszéd generálása (Text-to-Speech, TTS), illetve a beszédfelismerés (Speech-to-Text, STT). A TTS technológia képes humánközeli hang előállítására és az elhangzó beszédben érzelmek kifejezésére. Az AT&T üzleti megoldása ma már kisebb vállalatok és egyéni felhasználók számára is elérhető és tetszőleges desktop alkalmazásba beépíthető. A Natural Voices szoftver angol nyelvű férfi és női hangot tartalmaz, és kompatibilis a Microsoft Speech Application Programming Interface-szel.
A beszédfelismerő folyamatok nagyobbrészt ún. dialógusmenedzsmentre épülnek, azaz az elhangzó szöveg detektálása során egy adott témakörön belül, a textmining segítségével próbálják értelmezni a beszéd jelentéstartalmát, a beszédkép mögött álló szintaktikai viszonyokat. Az STT és a szövegbányászat egymást kiegészítő technológiák és a zárt tematikájú szövegkörnyezet feldolgozása során működnek együtt.
A szövegbányászat üzleti haszna
Azon cégek, amelyek igénybe veszik a tudásmenedzsment ezen részterületét elsősorban azokból az ágazatokból kerülnek ki, ahol kiélezett a piaci verseny. Ezeknél a vállalkozásoknál a releváns és gyors üzleti információnak pénzben is kifejezhető értéke van, ezért többszörösen megtérül a CI- vagy textmining-szoftverek alkalmazásába fektetett tanítási idő és a testreszabott szoftverek sokszor több százezer eurós ára. Ilyen ágazatok például a távközlés, a dohányipar, a gyógyszeripar. Ez utóbbiban érdemes a tudományos kutatásokat és a konkurensek gyógyszerszabványait figyelni, hiszen az információ hiány akár többéves kutatómunkára tehet pecsétet.
A pénzügyi szektorban például a befektetési kockázatok felmérésénél és adott befektetési területek nyomon követésénél tehet elévülhetetlen szolgálatot a CI-szoftver. Például egy több milliárd értékű beruházásnál nem elhanyagolható az a lehetőség, hogy akár pár hét alatt képes a befektető elemzői csapata feltárni az adott beruházás és annak iparági kockázatait a feldolgozott szöveges információk alapján.
A szövegbányászati szoftverek főként a felsővezetők és a menedzserek döntéshozatali munkáját, valamint az elemzők stratégia-alkotó tevékenységét teszik hatékonyabbá és megalapozottabbá. De a szoftverek használata kiterjeszthető a cég összes szellemi munkására és ebben az esetben – a felmérések szerint – a piaci információ megtalálására szánt idő csaknem a harmadára csökkenthető. Arról az értékes szempontról nem is beszélve, amikor például egy projektmenedzser vagy termékfelelős a saját ügyfélköréről vagy a konkurens cégekről tud meg a napi munkája során használható információt. A szoftvereket ugyanis rá lehet hangolni az egyes munkaterületek információs igényeire is.
A szövegbányászat hazai helyzete
Európában három-négy vállalkozás foglalkozik szövegbányászati szoftverek fejlesztésével, illetve kb. egy tucatnyi fejleszt olyan szoftvereket, amelyek bonyolultabb információ kutatási feladatokra alkalmasak (information retrieval, IR). Magyarországon elsőként – és egyelőre egyedüliként – a TEXTlab Technológiai Kft. fejlesztett ki a textmining technológiára épülő CI-szoftvert. A fiatal, de komoly adatbányászati tapasztalatokkal rendelkező hazai szoftverfejlesztő cég tavasszal nyitotta meg képviseleti irodáját Frankfurt mellett, Németországban. Erre azért volt szükség, mert a német cégeknél olyan regionális nagyságrendű, európai léptékű szövegbányászati feladatok is rendszeresen felmerülnek, amelyekhez hatékony segítségül szolgálhat az egyelőre magyar, angol és német nyelvekre adaptálható, hazai fejlesztésű szoftver. Míg itthon elsősorban a távközlési cégek érdeklődnek a hazai szoftvermegoldás után, Németországban a bankszektorban merültek fel értékesítési lehetőségek. A cég jelenleg egy nagyobb léptékű dohányipari fejlesztést készít, de a megbízás összetettsége több mint féléves-egyéves fejlesztést igényel – fejti ki Miskolczy Csaba, a TEXTlab ügyvezetője. A cég alapító tulajdonosai között – a menedzsment mellett – Bojár Gábor, a Graphisoft elnöke is szerepel.
Hazai szoftver regionális célokra
A cég főként a távközlési szektorban értékesíti az ügyfélszolgálatok munkáját segítő szoftvereit, de előkészületben van egy nagyobb ipari szektor hírfigyelésére és az adott ágazat tudásanyagának elemzésére alkalmas szoftver piacra vitele is. Ez utóbbi összetett megoldás lesz az első magyar fejlesztésű kompetitív intelligencia szoftver, amely remélhetőleg nyomába eredhet az angolszász piacon már kifejlesztett „csodaszoftvereknek”. Stratégiai elképzelések szerint az ilyen nagyobb piacokon a már hatékonyan alkalmazott szoftver hazai kifejlesztésére azért is lehet szükség, mert az európai uniós csatlakozással a hazai cégek előtt számos olyan új, információs forrás nyílik meg, amely feldolgozására egyelőre nem állnak rendelkezésre eszközök. Arról nem beszélve, hogy számos hazai nagyvállalat törekszik regionális vezető szerep kialakítására, amelyben hatékonyan segédkezhet egy kifinomult, szövegalapú döntéstámogató szoftvereszköz.