Line törvényei: A könyvtár lényege, hogy információforrásokat menedzsel emberek számára.
Line’s five laws of librarianship : …and all embracing law. / Maurice Line. In: Library Association Record 98 (1996) 3

Mire jó a NewsPro? — Rövidhírek automatikus elemzése – magyarul!

Szerzők: Kis Balázs, Prószéky Gábor
BOSS Magazin, 2003. október, p. 40-41

A szerzők engedélyével közölve

A termék-előállításától a szolgáltatásnyújtására való átmenet után a globális gazdaság fejlődésében újabb váltás van készülőben. Ezt a kibontakozó fordulatot különböző szavakkal lehet leírni. Van, aki a tudásalapú, avagy információs társadalom kialakulásának nevezi, mások a szimbólumok által vezérelt piac, az imázs-asszociációkkal megerősített brandek világáról, ismét más szakértők a kommunikáció és befolyásolás-ipar által kialakított új gazdaságról beszélnek. Ennek az új gazdasági környezetnek a folyamatos figyelése (monitorozása), a változások észlelése, a minden korábbinál komplexebb és éppen a globalizáció miatt sok nyelven párhuzamosan megjelenő kommunikációs tartalmak – ha lehet – automatikus feltárása a szereplők – a vállalatok, szervezetek – számára elsőrendű feladat.

A papíralapú újságok és más információhordozók, a hír- és más kommunikációs ügynökségek véleménykialakítást szolgáló termékei, a gazdaság és a politikai élet szereplőinek weboldalai szinte bárhonnan és bármikor elektronikusan hozzáférhetők. Ezek – szolgáljanak akár a termék és szolgáltatások leírására, akár részvénytulajdonosok, partnerek és munkatársak megnyerésére, befolyásolására – szinte kivétel nélkül mind felbonthatók viszonylag rövid szövegegységekre. Ebből a háttérből indult ki a MorphoLogic Kft.-t, a Magyar Tudományos Akadémia Nyelvtudományi Intézetét, a Szegedi Tudományegyetem Informatikai Tanszékcsoportját, valamint a Magyar Gallup Intézetet magában foglaló konzorcium, amikor a 2/017/2001. számú NKFP-pályázat keretében arra vállalkozott, hogy olyan automatikus információszerzési (information extraction) technológiát dolgoz ki, amellyel lehetővé válik a rövidhírek információtartalmának tömör, jól strukturált ábrázolása. A NewsPro (News Processor = hírfeldolgozó) elnevezésű, a legkorszerűbb, XML-alapú adatleírásra és a konzorciumi partnerek legfrissebb számítógépes nyelvészeti kutatási eredményeire támaszkodó tervezett prototípus-rendszernek – a figyelt és feldolgozott hírek témakörétől függően – több, jelentős nemzetgazdasági haszonnal is kecsegtető alkalmazása kínálkozik. A kutatási projekt 2003. július 31-én sikerrel lezárult; jelenleg a NewsPro rendszer széles körű alkalmazásra való előkészítése folyik.

A NewsPro rendszer

A NewsPro prototípus-rendszer legfontosabb – általános – célja, hogy rövid hírekben, illetve minden olyan szövegben, amely rövidhír-jellegű egységekre bontható, elemzéseket tegyen lehetővé. Noha a projekt során megépülő rendszer kísérleti jellegénél fogva csak bizonyos jól meghatározott konkrét információkinyerési feladatokra képes, a konzorcium arra törekedett, hogy a rendszer architektúrája, működési elve ne korlátozza a jövőbeni gyakorlati alkalmazásokat. Ellenkezőleg: valamennyi, gazdasági szempontból ígéretes területen tegye lehetővé a magyar nyelvű rövidhírek információtartalmának automatikus kinyerését, majd azt követő elemzését. A rendszer felépítése, működése és az elemzéshez használt alapadatok jelentős része teljesen független a konkrét információszerzési céltól – a gazdasági rövidhírek elemzésétől –, ugyanakkor teljesen kiszolgálja azt.

A témával kapcsolatos nemzetközi szakirodalmat, webhelyeket áttekintve megállapítható, hogy hasonló alkalmazások eddig szinte kizárólag angol nyelvű szövegek feldolgozására készültek. Még angolul is meglehetősen kevés a nyilvánosságra hozott projekt, s még kevesebb a – ráadásul igen drága – piaci termékben vagy szolgáltatásban megtestesülő kutatás. Ugyanakkor korunk információ-, s ezen belül hírdömpingjében világszerte, így hazánkban is mind nagyobb a kereslet az információ automatikus kategorizálása, tartalmi feldolgozása iránt.

Ennek fényében kiemelkedő jelentőségű, hogy a projekt az angolnál lényegesen bonyolultabb szerkezetű nyelven, magyarul megfogalmazott rövidhír-szövegek számítógépes „megértését”, automatikus kategorizálását, lényegük nemzetközi szabványos, strukturált adatbázisba való írását tűzte ki célul.

Fontosabb külföldi hírfeldolgozó alkalmazások

Az angol nyelvterületen eddig publikált legismertebb, kifejezetten rövid szövegek elemzésére vonatkozó példák mindegyikében találunk néhány olyan alapfunkciót, amelyeknek célszerűen egy hasonló magyar nyelvű alkalmazásban is meg kellene jelenniük.

Philip Stone, az angol nyelvű számítógépes tartalomelemzés társadalomtudományi alkalmazásának egyik úttörője, angol nyelvű választási kampányszövegeket tanulmányozott abból a szempontból, hogy milyen mértékben fordulnak elő bennük pozitív vagy negatív fogalmak, van-e szignifikáns különbség e téren a jelöltek között. Ehhez mindkét fogalomkörből szótárat vett fel, s az egyes szavak gyakoriságát vizsgálta a szövegekben. A kutatás egyik érdekes eredménye, hogy a nyertes jelölt újságokban közölt megnyilvánulásaiban a pozitív szavak domináltak a negatívakkal szemben. (Ezeket az eljárásokat Magyarországon a Gallup Intézet alkalmazza, amely az említett projekt konzorciumának is tagja volt. A módszer magyar nyelvre alkalmazásában a MorphoLogic is közreműködött.)

Rokon természetűek azok az ugyancsak angol nyelven végzett pszichológiai hatásvizsgálatok, amelyekben Osgood úgynevezett szemantikus differenciál-skáláját alkalmazták. Ennek háromdimenziós koordinátái a pozitív–negatív kategória mellett az erős–gyenge, valamint az aktív–passzív fogalompárt fogják át. Hasonló jellegű elemzések üzleti területen, az egyes vállalatok, márkajelzések angol nyelvű megnyilatkozásaival kapcsolatban is viszonylag könnyen elvégezhetők.

Több webhely kínál az automatikus tartalomelemzés témájával kapcsolatos linkgyűjteményt. Közülük most kettőt emelünk ki. A legteljesebb és a területtel foglalkozók levelezőlistáját is működtető amerikai lapcsomag a http://www.gsu.edu/~wwwcom/ címen volt található. Az európai site-ok sorában a Harald Klein által fenntartott http://www.textanalysis.info/ oldalain olvashatunk a legújabb eredményekről.

Mint ezekből a forrásokból is kiderül, a rövidhírek tartalomelemzésére az elmúlt néhány évben leginkább a következő szoftverek terjedtek el: DiMap, Hamlet, Salt, TextPack, TextQuest, TextSmart, WordStat. Közös jellemzőjük, hogy – különböző rutinok formájában – biztosítják a kvantitatív szövegelemzés alapfeltételeit. A magyar konzorcium e módszereket nem ítélte elég „erősnek”, jól alkalmazhatónak a magyar nyelvhez, ezért a fentiek helyett komplex elemzési stratégiát dolgozott ki, amely előbb robusztus nyelvtani elemzést végez a szövegen, majd az elemzési eredményekre úgynevezett szemantikai kereteket illeszt, amelyek mintegy „kivágják” a szövegből az információs igénynek megfelelő adatokat és összefüggéseket.

A NewsPro működése

A NewsPro rendszer a feldolgozandó szövegek – a jelenlegi prototípusrendszerben gazdasági rövidhírek – tartalmi előkészítését végzi. Ez tehát nem a kész alkalmazás, amely tálcán kínálja a döntéshozók által igényelt jelentéseket, de jelentősen egyszerűsíti ilyen alkalmazások létrehozását.

A NewsPro arra vállalkozik, hogy strukturált, adatbázisba illeszthető formába alakítja az elemzett szöveget. A bevitt rövidhírből XML-formában ábrázolt adatstruktúra keletkezik, amelynek elemei például adatbányász-alkalmazásokban használhatók fel.

A mondatot – például „A Gastron Ingatlanhasznosító és Vendéglátó Rt. november 27-én részvényvásárlás útján 6,8 százalékkal növelte közvetlen befolyását a Bonbon Hemingway Kereskedelmi Rt.-ben” – nyelvtani szerkezete szerint bontja szét. Az eredmény programsorai ugyan nem olvashatók könnyen „emberi” szemmel, de a NewsPro azonosítja a mondatban az úgynevezett eseménysémákat (event schema), amelyek meghatározzák az esemény fajtáját és a résztvevőket. Ha tehát tulajdonosváltásáról van szó, akkor a rendszer „tudja”, hogy itt meg kell nevezni a vevőt, az eladót, az adásvétel tárgyát, az árat (ha rendelkezésre áll), illetve a kérdéses tulajdoni hányadot. Ezek a kulcsadatok az elemzésben „szabad szemmel” is láthatók. E struktúrát, illetve a szűréssel kapott egyes elemeket – adatbázisban tárolják, ami megkönnyíti, hogy a rendszer szabványos témabesorolást és esemény-, illetve szerep-megnevezéseket kapjon. A kimenet a NewsML-szabványt követi, ami a hírek XML-formátumú leírására szolgál.

A NewsPro rendszer haszna

A NewsPro rendszer a jelenlegi formájában elsősorban olyan rendszerintegrátorok számára érdekes, akik alkalmazásaikban pontos, nyelvi alapú információ-kivonást szeretnének megvalósítani. A döntéshozók számára pedig azt a lehetőséget teremti meg, hogy képessé válnak nagy mennyiségű információból döntésük számára kritikus adatokat koncentráltan megjeleníteni.

Hozzászólás