A könyvtárosoknak felelősséget kell vállalniuk az általuk szolgáltatott információért.
Management and the management of information and library services / Patricia Layzell Ward. In: Library Management 22 (2001) 3 p. 131-155

Adatbányászat könyvtárban (referátum)

Tudományos és Műszaki Tájékoztatás (2004) 12 p. 564-565

Forrás: The bibliomining process: data warehousing and data mining for library decision making / Scott Nicholson. In: Information Technology for Libraries (2003) December p. 146-151

A bibliomining vagy könyvtárak számára végzett adatbányászat a könyvtári szolgáltatásból adatokat előállító adatbányászati és bibliometriai alkalmazás. (A bibliomining kifejezést a szerző, Nicholson és Santon egy korábbi publikációjukban kívánta bevezetni az adatbányászat könyvtári alkalmazására. A cikkben a továbbiakban könyvtári adatbányászatot fogunk említeni.) A könyvtári adatbányászat a könyvtári folyamatokkal kapcsolatos adathalmaz feltárásának statisztikai és mintázat-felismerési eszköze, melynek célja a döntés-előkészítés illetve a szolgáltatások igazolása. (Az adatbányászat az ipari és kereskedelmi szektorban az utóbbi tíz évben bevetté vált tevékenység; a szervezet jelentős folyamatait elektronikus eszközökkel lefedő rendszerekben tárolt adatokat, illetve a közöttük lévő összefüggéseket tárja fel. Ennek célja lehet a tervezés, döntés-előkészítés, értékelés, kontrolling, minőségirányítás stb. Az ilyen rendszerek lehetővé teszik, hogy a vállalkozások azonosítsák a szolgáltatásukat igénybe nem venni kívánók – lemorzsolódók – csoportját. Például telefonszolgáltató esetében visszakeresik azon ügyfeleket, akik az utóbbi három hónapban 50%-os forgalomcsökkenést realizáltak. De azt is megállapíthatják, hogy mely szegmensek vennék szívesen, ha értéknövelt szolgáltatáshoz jutnának stb. E módszer által marketingköltséget takarítanak meg, miközben növelik az ügyfél-elégedettséget. A könyvárak esetében az integrált könyvtári rendszerek által gyűjtött működési adatok jelenthetik a könyvtári adatbányászat alapját. – MG)

A könyvtári adatbányászat folyamatának lépcsői:

1. A kutatás fókuszának meghatározása. Ez lehet általánosabb vagy konkrétabb probléma, döntés előkészítése. Például költségcsökkentést megelőzendő egyre fontosabb igazolni és megvédeni az egyes könyvtári szolgáltatásokat. Amennyiben nincs jól azonosított cél, a kutatás során túl sok mintázatot találunk, ami miatt bizonytalanná válhat a rendszer. (Mintázat lehet például az a korreláció, amelyben az 50-70 év közötti életkor, az alsóvárosi lakhely, illetve az évi 25-50-es könyvkölcsönzési szám „áll együtt”. – MG)

2. A külső és belső adatforrások meghatározása. Az adat legyen működésre utaló, nem aggregált és alacsony feldolgozottságú. (Ezek kinyerése érdekében nem szabad letörölni idő előtt az adatokat adatvédelmi okokra hivatkozva) Külső, könyvtári rendszeren kívüli források lehetnek például a demográfiai adatok, belsők az ügyfelek jellemzőit mutató adatok, kölcsönzési adatok, a könyvtári portál látogatottságát mutató logfájlok stb.

3. Az adattárházba szánt adatok gyűjtése, tisztítása és anonimizálása. Az adattárház: az integrált rendszertől független adatbázis, amely tisztított és anonimizált, elemzésre előkészített működési adatokat tartalmaz. (Az adattárház tehát esetünkben nem azonos az integrált könyvtári rendszerben tárolt adatokkal; onnan azokat ki kell menteni az adattárházba. – MG) A tárolt adatokat ugyanis el kell választani a konkrét személyi adatoktól, megelőzve az illetéktelen felhasználást. Ennek érdekében hasznos egyeztetni jogi szakértővel. Kutatóintézetben működő könyvtárnak hasonló okból engedélyt kell kérnie az illetékes kutatási bizottságtól. Az adattárház szoftverét meg kell írni, és az alrendszer némi fenntartást is kíván. A tanulási folyamat lépcsőzetessége érdekében érdemes kevésbé összetett adatbányászati cél megfogalmazásával és megvalósításával kezdeni.

4. A megfelelő elemzési módszer kiválasztása. A vezetői információs rendszer (Management Information System – MIS) adatai a működő rendszerből származnak. Ezek az adatok nincsenek megtisztítva. Egyes MIS-rendszereknek van kritikusérték-figyelő és -jelentő rendszere, mely rámutathat például az alacsony használat vagy elhasználódás miatt kivonandó dokumentumokra, vagy a meg nem válaszolt referenszkérdések számának túl magas voltára.

5. Minták azonosítása adatbányászattal, jelentéskészítés hagyományos elemzési eszközök által. Az online elemző adatfeldolgozás (Online Analytical Processing – OLAP) az adatok interaktív bemutatását kínálja a döntéshozó számára, mely alapján diagramokat, jelentéseket készíthet. (Kirajzolhatja a kölcsönzés időbeli változását, az olvasószám napi eloszlását, vagy a különféle napszakokban egy könyvtárosra jutó használók számát stb. – MG)

6. Az eredmények elemzése és alkalmazása. Az adatbányászat a korábban megszokottaktól eltérő, inspiráló adatelemzési módszer. Célja, hogy nagy mennyiségű adatból statisztikai és mesterséges intelligencia segítségével érvényes, új és felhasználható mintákat azonosítson. A múlt és jelen adatainak megértése a cél. Eszközei például a predikció (meglévő tudás alapján ítéletalkotás), osztályozás vagy a becslés (nem ismert változónak numerikus értéket adni). A kinyert adatok – főként az adatbányászati tevékenység első idejében – tesztelendőek. Hasznos, ha azokat könyvtárosok is minősítik, értékelik, hogy ki lehessen küszöbölni az esetleges félreskálázásokat, programozási bakikat. A folyamat utolsó része pedig a jelentéskészítés bevezetése, rendszeressé tétele.

Az adatbányászathoz számos cég kínál szoftvereket. Legismertebbek például a SAS és az SPSS alkalmazásai, ám ezek nagyon költségesek. Létezik nyílt forrású szoftver is, például a Weka, amely olcsóbb ugyan az előbbieknél, ám nem túlságosan felhasználóbarát.

ref.: Mikulás G.

Hozzászólás