A technológiát legjobban az emberek munkájának segítésére lehet használni, nem pedig arra, hogy helyettesítsük őket.
Fortune cookies : Management wit and wisdom from Fortune magazine / ed. by Allan Dentschman. - Random House : New York, 1993.

Könyvtárosok is elkezdhetik… – Üzleti tudás az adatok mélyén

Nyomtatásban: Tudományos és Műszaki Tájékoztatás 52 (2005) 11-12 p. 540-542

Könyvismertetés: Üzleti tudás az adatok mélyén : adatbányászat alkalmazói szemmel / Fajszi Bulcsú, Cser László. – Budapest, Budapesti Műszaki és Gazdaságtudományi Egyetem, Gazdaság- és Társadalomtudományi Kar, Információs és Tudásmenedzsment Tanszék : 2004. – 260 p.

Közhely, hogy a könyvtáraknak már régen időszerű túllépni a dokumentum- és adatszolgáltatáson, egyre több és különböző irányú értéknövelt szolgáltatást kínáljon. Egyik út az adatbányászat. Az adatbányászat az adatbázisokból olyan implicit és rejtett információkat, szabályszerűségeket, mintázatokat nyer ki, amelyek a gyakorlatban is jól használhatók. A matematikán kívül a statisztikát, a számítástudományon belül a mesterséges intelligenciát valamint az IT egyre szélesedő eszköztárát használja.

A Budapesti Műszaki és Gazdaságtudományi Egyetem, Gazdaság- és Társadalomtudományi Kar, Információs és Tudásmenedzsment Tanszék által kiadott könyv egyaránt szól szervezeti vezetőknek és az adatbányászat alkalmazóinak. E szerzők által is kifejezett cél arra is utal, hogy sikeres adatbányászati projektekhez mindkét fél egybehangzó akaratára szükség van. A könyv alcíme az alkalmazói szempontot hangsúlyozza, ami által felhatalmazva érezhetjük magunkat az adatbányászat saját (információs és könyvtári) szempontú átgondolására.

A könyvtárak alapesetben két nagy adathalmazzal is rendelkeznek; egyik az általuk kínált dokumentumok adatai, másik a használattal összefüggő (használói illetve használati adatbázis). Az integrált könyvtári szoftverek a két oldalt egy rendszerbe „integrálják”. Hogy az informatikai alkalmazás lépcsői közül a könyvtárak melyik fokon állnak, megmutatja az alábbi korszak-felsorolás:
1. automatizálási korszak,
2. folyamatok átszervezése,
3. vállalati (esetünkben: könyvtári) alkalmazások használata,
4. elektronikus kereskedelem,
5. informatikai alapú üzleti modellek,
6. csatlakozás elektronikus szövetségi rendszerekhez.
Nos, a könyvtárak jelentős hányada rendelkezik integrált rendszerrel (3. szint), és még sok fejlesztési lehetőség áll előttük.

Annál is inkább, mert a könyvtárakkal szemben a fenntartó elvárja, hogy gazdálkodjon állományával, munkatársaival, épületével és berendezésével. A meglévő adatvagyonnal való gazdálkodás azonban még alig elvárás, annak ellenére, hogy igen értékes forrást jelenthet. E forrást az információs szektor szédületesen fejlődő vállalkozásai – Amazon.com, Google, Yahoo! stb. ki is használják (egyelőre pl. testre szabott reklámok, a keresetthez hasonló könyvek ajánlása, honlapok testre szabása, honlapon való navigáció optimalizálása). És sejthető, hogy e folyamat még sok meglepetést tartogat.
Könyvtárunkban már ma is gyakran kérdezzük: mely elkülöníthető használói csoportok látogatják könyvárunkat (mert honlapon, hírlevélben stb. meg kell szólítani őket)? Állományfrissítés vagy helyhiány esetén az állomány mely részeit érdemes leginkább csökkenteni? Mely fiatalok fognak az iskola végeztével eltűnni a könyvtár látóköréből?

Az integrált könyvtári rendszerek még alig rendelkeznek – például a fenti kérdésekben is használható – döntéstámogató modulokkal. A döntéstámogató rendszerek töltik be a rést a korlátozott emberi befogadóképesség és a hatalmas adatmennyiség között (gondoljunk pl. a kölcsönzések adatainak tárára). E rendszer legrafináltabb módszere a hatékonyságnövelésre pedig éppen az adatbányászat (datamining). De joggal nevezhetnénk tudásbányászatnak is, mely az üzleti intelligencia (az ember természetes értelmi képességét mesterséges körülmények között utánozó rendszer) fontos része.

Az adatbányászat többféle megközelítéssel élhet. A felfedezés esetében nincsenek előfeltevések és keresett összefüggések, például mikor a kölcsönzési statisztika év közbeni vagy több éven keresztüli alakulását vizsgáljuk. A célzott adatbányászat a részletekben megbúvó összefüggéseket keresi. Ez történhet akkor, mikor a felsőoktatási könyvtárban azt próbáljuk kideríteni, hogy az idei évben miért lett hirtelen kevesebb az elsőévesek beiratkozási aránya. A döntésautomatizálás akkor praktikus, ha nagyon gyors vagy nagyon sok ismert döntést kell meghozni. Az korábbi évi tapasztalatok alapján kiadhatjuk-e és meddig az adott olvasótermi dokumentumot az évnek ebben a szakában?

Az adatbányászathoz többféle ismeret szükséges:

  • adatbányászati szakértelem és tapasztalat,
  • üzleti tudás (könyvtárosul fogalmazva inkább: a szervezeti célok, eszközök, ügymenet ismerete),
  • adatismeret, mely a tárolt adatok és a közöttük való tranzakciók informatikai jellemzőire vonatkozik.

Mind e hasznos tudás gyakran nem található meg egészében a szervezetben, ezért mindenhol gyakori, hogy az ismeretek egy részét külső szakértő adja.

„Eddig is tudtuk, hogy a testnevelés-szakosok jönnek legkevesebbszer a könyvtárba.” – hangozhat el egy felmérési projekt eredményének hallatán, ám abban már kevésbé lehetünk „fejből” biztosak, hogy mennyivel kevesebbszer, vagy hogy az évek során a látogatások száma milyen tendenciát mutat, vagy hogy részleteiben milyen motivációk állnak a hallgatói aktivitás változása mögött. Az egyharmad—kétharmad szabály szerint akkor ad jó eredményt az adatbányászati munka, ha a feltárt összefüggések kétharmada igazolja a terület munkatársainak sejtését, egyharmada teljesen új ismeretet ad.

Az adatbányászat üzleti alkalmazásaira, úgymint ügyfélszegmentáció, ügyfélérték-számítás, adósminősítés, lemorzsolódások vizsgálata, csalásfelderítés, keresztértékesítés, bolti együttvásárlások, személyazonosítás (oroszországi hadifoglyok), internetes viselkedési szokások elemzése ezen ismertetés írója nem tud minden esetben könyvtári megfelelőt írni. Mindazonáltal a könyvtári rendszer (vagy meghatározott részének) kölcsönzési adatai területre és használói szegmensekre lebontva az egyes könyvtárak állománymenedzsment gyakorlata, a könyvtár-politikai döntéshozók vagy a könyvkiadók számára egyaránt értékes forrást jelentenek. A módszerrel elég pontosan lemérhető Az olvasás éve vagy a Nagy könyv mozgalom valós hatása is. Figyelemmel kísérhető, hogy a beszerzési keret 1%-os növelése vagy csökkentése hogyan éreztette magát az állomány minőségében vagy a használati adatokban. Az eljárás tehát érveket adhat a könyvtár kezébe, illetve segíthet a saját erős és gyenge pontok felderítésében is.

Mindezen eljárások meghatározott adatbányászati módszertanon alapulnak. Ennek pontjai:

  • Az üzleti cél meghatározása. (Miben szeretnénk döntést hozni könyvtárunkban? Mondjuk: csökkentsük az oktatási rendszerből való kikerülés utáni könyvtári lemorzsolódást),
  • Elemzési feladat meghatározása: felügyelt és felügyelet nélküli tanulás. (A korábban lemorzsolódottak milyen előzetes könyvtárhasználati mintát mutattak?)
  • Modellek felállítása. Lehetséges összefüggések körének megválasztása; felügyelt tanuláshoz prediktív modellek, pl. döntési fák, neuronhálók görbék által határolt tartományokhoz, regressziók egyenesekkel v. síkokkal való felosztás; felügyelet nélküli tanuláshoz klaszterezési eljárások, önszervező rendszerek és vizuális technikákon alapuló modellek. (Pl.: a tanulmányi célú dokumentumok használatának azonosítása az adott csoportban.)
  • Modellek megvalósítása. (Benne visszacsatolás: megfelel-e a modell az üzleti céloknak?). (Algoritmusok futtatása a kurrens kölcsönzési adatokon, a lemorzsolódni hajlamos használók azonosítása.)

Felmerül a kérdés, hogy mivel több vagy más az adatbányászat a statisztikánál. Nos, az adatbányászat célzottan üzleti (vagy közszolgálati) alkalmazásokat szolgál, míg a statisztika ennél általánosabb jellegű. Pl. nem elég az együttkölcsönzést kimutatni (mondjuk: aki gyerekkönyveket kölcsönöz, visz-e zene-CD-ket is), hasznos tudni, hogy melyik ösztönzi a másik iránti érdeklődést. Az adatbányászatban megengedhetők elhanyagolások és „nagyvonalúságok” (pl. egy változó normális eloszlásának feltételezése). Így a statisztika a milyen, az adatbányászat a miért kérdésre válaszol inkább.

Szintén kifejtést érdemel az adatbányászat és a hagyományos adatelemzések a lekérdezés viszonya. Ahogyan a szerzők kifejtik: az utóbbi — jellegéből adódóan – csak előre meghatározott dimenziók mentén lehetséges, így nem lehet például az ismeretterjesztő dokumentumok használatának fiókkönyvtárak közötti területi megoszlására keresni. Ezért célszerű az adatbányászat eszközeivel feltárni az üzletileg fontos dimenziókat (célzottan feltenni a kérdéseket), ezek alapján adattárházat építeni (adattárház: az integrált rendszerből külön, adatbányászatra szolgáló tárló), és hagyományos adatelemzéssel folyamatosan nyomon követni az üzleti eseményeket. Így az adatbányászat feltáró módszer, a nagyüzemi kiaknázást viszont hagyományos módon érdemes végezni.

A könyv előszava azt ígéri, hogy egyaránt szól üzletemberekhez (és ide érthetjük a könyvtárvezetés szakembereit) és informatikusokhoz. Ha ez teljesen nem is valósul meg, az Adatbányászatról egyszerűen fejezet joggal tarthat igényt széles szakmai nyilvánosságra és a könyvtárosképző intézmények kötelező olvasmányok listáján való szereplésre. A további fejezetek – Amit az üzleti intelligenciáról tudni kell, Az üzleti intelligencia alkalmazásai, Az adatbányászat alkalmazásai, Adatbányászati projekt szervezése, Az adatminőség kérdése, Az adatbányászat technológiai háttere – szintén izgalmas könyvtári gondolatokat ébresztenek, de nehezebb olvasmányt jelentenek. A témában való tájékozódást segíti a könyv végén a függelék: további alkalmazási területek, a neuronhálók matematikai alapjai, fogalomjegyzék, angol—magyar adatbányászati szótár, rövidítések jegyzéke, irodalomjegyzék, tárgymutató.

Az alkalmazási területek között olyan könyvtárosi figyelemre méltó szakaszok találhatók, mint webbányászat, weboldalak rangsorolása (gondoljunk a katalógus-tételek megjelenítési sorrendjére), a kattintássorok elemzése (pl. hány kattintással jut el az olvasó a számára fontos tételig), intelligens internetes keresés (mely a tájékoztató könyvtárosok hatékonyságát növeli), az üzleti intelligencia, online tartalom publikálása, tudáskinyerés szövegből, használók elégedettségének mérése, vagy éppen hírszerzés.

(A könyvtári alkalmazásról korábban a TMT-ben: Adatbányászat a könyvtárban – referátum 2004. 12., p. 564-565)

Hozzászólás