Információvadászat az interneten
Szerző: Perjés László
BOSS 2001. november, p. 35-39 (Az informácóibróker-melléklet cikke)
A szerző hozzájárulásával közölve
Elemzők szerint a weben mintegy 500-550 milliárd weboldal van elhelyezve. Az ezen található információ mennyisége szinte felbecsülhetetlen, annak ellenére, hogy a potenciális információforrásokhoz képest a mennyiség továbbra is elenyésző. A weben található információ minőségi paraméterei kevésbé biztatóak. Tény ugyanis, hogy a webre elvileg bárki — bizonyos keretek között — bármit feltehet, de e tevékenységnek távolról sincs akkora kontrollja, mint a nyomtatott információs forrásoknak. Számos tudományos publikáció is felhívja a figyelmet a webről való információszerzés veszélyeire, illetve arra, hogy az ott található információt több szempontból viszonylagosnak kell tekinteni. Mindezeket figyelembe véve van létjogosultsága annak, hogy az információbróker a világhálón keressen adatokat, információt. E tevékenységében nélkülözhetetlenek a különféle keresők.
A keresés eredménylistája lényegében két dologtól függ: az egyik az információ után kutató keresési technikája, amely három dolgot foglalhat magában: a kereső kiválasztását, az alkalmazott kulcsszavakat és a kulcsszavak között használt logikai operátorokat. A másik tényező a kulcsszavakra megjelenő webhely tartalma. Ezt a tényezőt a keresőszolgáltatás vagy a keresést végző személy nem tudja befolyásolni. Ezzel szemben a tartalom nagy hatással van a megjelenő találati listára, amit a webhelyek tulajdonosai az előnyösebb megjelenés érdekében esetleg félrevezetően manipulálnak.
Óvatos becslések szerint is a létező weboldalak összesen mintegy 10%-a kereshető az ismert szolgáltatásokkal, a többire csak véletlenül, például privát linkgyűjteményekben vagy e-mailben terjedő “szájhagyomány” útján, esetleg levelek szignatúrjából szerezhetünk tudomást. A mintegy 500-550 milliárd weboldal mennyisége nem tévesztendő össze a webhelyek számával, amely körülbelül 2.2-2.5 milliárdra tehető, de természetesen ez folyamatosan változik. (Ne keverjük össze a webhelyek és a weboldalak fogalmát. Egy webhelynek a weboldalak kisebb részei, és ezek remélhetőleg már jól tervezett, átlátható struktúrában állnak a látogató rendelkezésére.) A webhelyek száma természetesen nem azonos a megvásárolt domainnevek számával, hiszen a webhelyhez nem kötelező saját domaint venni, az ingyenes szolgáltatók többségénél ez eleve lehetetlen is, amely tovább nehezíti a keresést. A domainnevek statisztikájából az derül ki, hogy mintegy 20 millió domainnév talált eddig gazdára, de ebből mintegy 8 millió név alá soha nem került elérhető tartalom. A keresőknek viszont nem a webhelyeket kell megtalálniuk, hanem az oda elhelyezett oldalakat.
Érdemes megfigyelni saját magunkon is azt a folyamatot, miszerint a “kezdő” internetező lelkesen és gyakran használja a keresőket, majd miután főbb témaköreiben megtalálta és bookmarkolta, vagy egyszerűen megjegyezte az értékes címeket, a keresők használata jelentősen visszaesik. Ezért a gyakorlott internetezők már sokkal ritkábban, célirányosabban használják a keresőket, így a kutatói munka során ezek jelentősége folyamatosan csökken, illetve csak újabb témák feldolgozása esetén válik ismét fontossá.
Röviden összefoglalva tehát a keresőszolgáltatások feladata az, hogy a fellelhető, de strukturálatlan információhalmaz első elemét (oldalát) megteremtse, felállítson ezek között egy eredetileg nem létező prioritási sorrendet, és ezen belül is szelektív legyen. További fontos szempont a törött linkek és a tartalmi manipulációt használó oldalak szűrése (ez utóbbira jelentős erőket összpontosítanak), a változások és az új oldalak regisztrációjának gyors követése (ez viszont egy kissé elsikkad). A fentieknek a keresők különböző mértékben képesek megfelelni, ezért érdemes a munka során több szolgáltatást is használni.
Online keresők
Az online keresők igénybevételénél egyszerűen a böngészőnket kell használni. Ezeken az oldalakon sok más mellett a legfontosabb az az adatbeviteli mező (szövegmező), amelyikbe beírhatunk kulcsszavakat annak érdekében, hogy megkapjuk a találati listát. Néha egy-egy kulcsszó hatalmas, feldolgozhatatlan és pontatlan listát eredményez. Ennek elkerülésére szűkítenünk kell a keresés feltételeit. Használjunk tehát olyan logikai operátorokat, amelyek több kulcsszó egyidejű előfordulását keresik majd az oldalakban, de kizárhatunk bizonyos kulcsszavakat akkor, ha a téma szűkítése érdekében erre van szükség. A logikai operátorok keresőtől függenek és nem mindenhol egységesen egyformák, de ez célszerűen kizárás esetében “-” jel, hozzáadás esetében pedig “+” jel. További hasznos operátor főleg a magyar nyelvben a joker “*” karakter, ami egy megkezdett karaktersorozatot, célszerűen egy szótövet tetszőleges toldalékokkal is megkeres.
Az ilyen keresőknek két csoportja van.
- Az első csoport elsősorban olyan keresővel — spiderrel — rendelkezik, amelyik az internetet folyamatosan és automatikusan pásztázó szoftverrel, és automatikusan begyűjti az oldalakat saját kereshető adatbázisába.
- A másik egyszerűsített verziónál a rendszerezés automatikus, de azt a webhely tulajdonosának kezdeményeznie kell. Ez a folyamat a regisztráció. Ilyenek például az Infoseek, az AltaVista, a Lycos, az Excite, a Hotbot.
Másféle elveken működnek a katalógusok. Az ilyen programoknak nincs spiderjük, ami megvizsgálja az oldalt és eldönti, milyen keresési feltételek esetén lesz oldalunk elérhető. Itt minden esetben nekünk kell kezdeményeznünk a regisztrációt, és a kategóriáról is nekünk kell döntenünk. Ilyen katalógus a Yahoo!, (http://www.yahoo.com/), ami az Internet egyik első keresőrendszere. Tartalmát a mai napig a Yahoo! dolgozói ellenőrzik.
Jelenleg úgy tűnik, hogy az automatizált keresők sem időben, sem precizitásban nem képesek követni a web fejlődését növekedés és változás szempontjából. Éppen ezért több nagy kereső is csatlakozott az Open Directory Project (ODP) nevű kezdeményezéshez, amely azt tűzte ki céljául, hogy a Yahoo! analógiájára egy-egy weboldalt a témafelelős személyes ellenőrzése után hajlandó csak feldolgozni.
Hol keressünk?
Mivel minden keresőrendszer más-más eredménylistát ad fel ugyanazokra a keresési feltételekre, ezért azt felelhetjük, keressünk mindenhol. Egy részletes felmérés alkalmával valóban az a legjobb, ha több keresőn többféle szempont szerint keressük végig ugyanazt a témát.
Az eredeti kérdésre visszatérve, a négy legnagyobb rendszerben, a Yahoo! vagy az ODP katalógusában, az AltaVistán és Google-on érdemes kezdeni a keresést. Ha ez sikertelen vagy kevés, a rendkívül jól strukturáló, bár egyre elhanyagoltabb Infoseeken is érdemes próbálkoznunk, bár ennek a szolgáltatásnak a színvonala rohamosan és jelentősen csökken, elképzelhető, hogy idővel nem lesz érdemes használnunk ezt a valamikor példaértékű piacvezető szolgáltatást. Ha mindez kevés vagy zsákutca, a rendkívül stabil Lycos és Excite keresővel lehet folytatni a sort, végül a regionális keresők, szakportálok, linkgyűjtemények (mint például a cikkünk elején szereplő http://www.twics.com/~takakuwa/search), majd beszélgetőfórumok, vagy például az apróhirdetések következhetnek. Érdemes első körben egy adott téma vertikális szakportálját megkeresni, hiszen innen könnyebb tájékozódni (gitárokkal kapcsolatos témára keres például a http://www.guitarseek.com/, és http://www.guitarsite.com/, üzleti témákra a http://www.business.com/, számítógépekre a http://www.hardwarecentral.com/, http://www.pcmech.com/index.htm, http://arsrobotica.com/portal.php3, http://www.bizspaceelectronics.com/), és ha ezeket megtaláltuk, lehet, hogy már nem is kell a továbbiakban általános célú keresőt használnunk, ami nagyban segíti a tájékozódást.
Hogyan keressünk magyar nyelven? Ez nem okoz semmiféle problémát. Ha tipikusan magyar szót ütünk be a keresőmezőbe, akkor nagy eséllyel csak magyar nyelvű oldalakat fogunk eredményként viszontlátni. Ez természetesen minden nemzetközi keresőben így működik. Az AltaVista annyival kiegészítette a fenti lehetőséget, hogy közvetlen nyelvválasztási lehetőséget kínál. A mező melletti lehulló listából kiválaszthatjuk azt a nyelvet, amin belül keresni szeretnénk. Így rendkívül erőteljes szűkítés alkalmazható például a “web” vagy az “Internet” kulcsszavakra is. Ilyen szűkítésre nincs lehetőség a többi keresőn, de például a “mákostészta” kulcsszó esetében erre nincs is szükség.
Végső esetben használhatjuk a regionális keresőket és katalógusokat is. Ilyet üzemeltet a Matáv/Axelero Vizsla néven (http://www.origo.hu), és még két hazai katalógust érdemes megemlíteni: az Elenderes Kincskeresőt (http://www.eol.hu) és a Hunnia-Net (http://www.hunnia.net) Yahun! nevű katalógusát.
A nagy keresőkön kívül tallózhatunk még különféle linklistákban. Ezek lehetnek egyszerű linkgyűjtemények, például privát bookmarkok, vagy üzleti célú adatbázisok, mint például a Yelow Pages (http://www.yellowpages.hu/). Előnyük, hogy könnyen átláthatóak. Hátrányuk, hogy általában kevés adattal rendelkeznek, felületesek és nem aktuálisak, lejárt adatokat tartalmaznak.
A kereső használhatóságát egyáltalán nem határozza meg a kulcsszóra feladott találatok száma. Lehet, hogy a kereső egyetlen kulcsszóra azonos webhelyek különböző oldalait többször is megjeleníti. Ezzel statisztikailag meggyőzővé válik, de használhatóság szempontjából alulmarad. A webhelyen belüli struktúra már lehetővé kell tegye számunkra, hogy a kapcsolódó témák között tallózhassunk. Ez utóbbi nem a kereső dolga. Számíthatunk rá, hogy ha túl nagy az eredménylista, a szelekció igen időigényes művelete ránk marad. Használjunk tehát olyan keresőket, amelyek szám szerint kevesebb, de jobban válogatott és strukturáltabb eredménylistát kínálnak egy-egy témával kapcsolatban.
Offline keresők
A fenti keresési módszerek mellett lehetőség van arra is, hogy látszólag ne a weben keresztül keressünk, hanem a saját gépünkön futtassunk egy saját keresoprogramot kliensként. Ez természetesen csak a látszat. Ezek a programok is a nagy keresőkhöz csatlakoznak, de nem jelenítik meg számunkra a kereső nyitólapját és a keresés szempontjából fölösleges szolgáltatásválasztékot (például a Yahoo! árverését vagy CD-boltját). Előnyük, hogy a nyitólap kikerülése és a helyi gépen történő futtatás lehetősége miatt nagyon gyorsak, valamint egy időben több keresőt képesek használni, így vándorlás nélkül kerülhet szemünk elé több kereső találati listája. Ezek a listák elmenthetőek, és bármikor később is végignézhetoek. Ezeknek a programoknak a két piacvezetoje a Copernic Pro (http://www.copernic.com), valamint a WebFerret (http://www.ferretsoft.com/netferret/). Nagy mennyiségű adat feldolgozásánál mindenképpen hatékony eszköz a keresés megvalósítására.
Az információ hitelessége
A keresőkkel megtalált informácó feldolgozása óriási feladat, nem kevésbé az adatok igazságtartalmának és hitelességének eldöntése. Ezt a két utóbbit természetesen nem végzik el helyettünk a keresők, de további segítséget nyújtanak a hitelesség megállapításában. Nézzünk két példát. Keressünk rá a Google keresőn Martin Luther King nevére. A találati listában az első domain a http://www.martinlutherking.org/. Nézzük meg a weboldalt, de előtte / közben / utána látogassunk el a domain regisztrátor whois adatbázisába is, és nézzük meg ki a domain fenntartója: http://www.networksolutions.com/cgi-bin/whois/whois?STRING=martinlutherking.org. Azt láthatjuk, hogy aki fizet a névért, nem más, mint Breeding Vincent, a vincent.breeding@STORMFRONT.ORG email címről, a webhely technikai fenntartója szintén a STORMFRONT.ORG (Viharfront) névhez kötődik. Ezután térjünk vissza a Google-hoz, és most használjuk kulcsszóként a Billing Contact e-mail címét: “vincent.breeding@STORMFRONT.ORG”. Az első találat a White Nationalist News Agency, ami Luther Kinggel kapcsolatban elsőre gyanús lehet, (http://nna.stormfront.org/), főleg, ha magát a StormFront.org webhelyét vizsgáljuk meg a http://www.stormfront.org/ címen (White Pride Worldwide). Könnyen belátható, hogy Luther King webhelyének tartalma és domain neve egy “Fehér Büszkeség” nevű (újfasiszta?) szervezethez kapcsolódik, így ennek hitelessége teljes egészében kétségbevonható, főleg, ha az áruházukat is megnézzük a “storefront” menüpont alatt. Ha tovább informálódunk, megtudhatjuk azt is, hogy Luther King ma élő családja az amerikai törvények miatt nem tudta elperelni a domain nevet az azt fenntartó fehérjogi szervezettől (halott embertől nem lehet semmit visszaperelni, a domain név pedig nem öröklődik).
De nézzünk egy másik példát, ezúttal az üzleti életből. Ha webes kalandozásaink során a http://www.aspartrading.com/fr.htm, vagy ehhez hasonló külsőre meggyőző; webhelyet találunk, keressünk független forrásokat is, használva a cég nevét vagy az üzemeltető e-mail címét keresos kulcsszóként (elsőre feltűnhet, hogy a domain név nyitóoldalán csak egy “Under construction” feliratot találunk, de ez még nem jelent semmit). Ha tovább tájékozódunk könnyen megtalálhatjuk többek között a http://www.internetclinic.org/news/3-040900/scam.htm és http://www.tavmunkainfo.hu/aspartrading.htm oldalakat, valamint érdemes belenézni az internetclinic.org erről szóló fórumába és vendégkönyvébe, ahonnan minden lényeges dolog kiderül.
A fenti két példából inkább a módszerek érdekesek, mint ezek eredményei, hiszen nem minden webes üzleti ajánlat vagy szervezeti tartalom átverés. A módszer lényegében abból áll, hogy a domainregisztrátornál megtudhatjuk a fenntartók nevét és e-mail címét, majd ennek ismeretében keressünk ezekhez az adatokhoz kapcsolódó webhelyeket illetve hozzászólásokat, cikkeket, elemzéseket.
A hitelesség vizsgálatánál nagy segítségünkre van az is, ha a szöveget képesek vagyunk értelemszerűen elemezni. Ekkor csak azt kell eldöntenünk, mekkora a mellébeszélés és a konkrétumok aránya. További óriási segítség a hitelesség kérdésében, ha az adott webhely lehetővé teszi, hogy független fogyasztói vélemények jelenjenek meg. Ilyen például a közismert amazon.com, de említhetünk kevésbé ismert példát is, például a http://www.effectsdatabase.com/, ahol minden termék esetében lehetőség nyílik vásárlói vélemények publikálására. További lehetőség, ha csatlakozunk az adott kérdést tömörítő közösséghez, és ott gyakorlatilag személyesen érdeklődünk az adott témával / céggel / személlyel / termékkel kapcsolatban. Ilyen közösségeket a http://www.deja.com címen, és például a Yahoo! közösségi szolgáltatásai között nagy számban találhatunk kereshető vagy katalogizált tartalommal.
Sokkal nehezebb konkrét számadatok hitelességéről meggyőződni, hiszen ezek publikálását vagy megállapítását az esetek nagy részénél lehetetlen független forrásból megoldani. Ebben az esetben vagy kötelezően megadandó, például cégbírósági adatokkal esetleg éves jelentésekkel dolgozhatunk, vagy logikusan végig kell gondolnunk a publikált forgalmi adatok hitelességét akkor, ha például befektetőként szeretnénk egy internetes vállalkozásban megjelenni, vagy befektetők számára gyűjtünk adatokat. Itt első körben azt érdemes megvizsgálni, hogy a megrendelt áru értéke az internetes vállalkozáshoz fut-e be és ezzel valóban ennek a vállalkozásnak növeli a bevételi oldalát, vagy egy ettől független, esetleg offline működő áruházlánchoz, amellyel párhuzamosan a web-bolt is hozzáadja forgalmához az áru értékét, bár annak árát az sosem látja (ezzel a módszerrel egyetlen áru értékesítése két cégnél kerül elszámolásra a forgalmi adatok esetében).
Látható, hogy a hitelesség kérdésének megállapítására viszonylag egyszerű; és publikus internetes módszerek vannak. Kényes kérdésekben azonban nem elégedhetünk meg ennyivel. A kutatást személyes tapasztalatok begyűjtésével kell folytatnunk.
A hitelesség kérdése azért merül fel nagyon erőteljesen az Internetes tájékozódás során, mert a neten publikált információ első körben személytelen, amit a fenti két negatív példa is jól demonstrál: gyakorlatilag mindenki azt publikál, amit akar, ha kell névtelenül vagy álnéven. Éppen ennek a személytelenségnek az enyhítésére hasznosak azok az oldalak, amelyek látszólag bensőségesebb, esetleg a száraz tényeknél személyesebb információkkal, érdekességekkel szolgálnak. Azok a vállalkozások, amelyek webhelyükön jól eltalálják az üzlet és a személyesség közötti arányt, nagyobb bizalmat élvezhetnek a kutatók és látogatók oldalán, ezért ezeket érdemes átgondoltan megtervezni: (http://www.jacksonguitars.com/CustomShopPages/CustTourP1.html, http://www.gibson.com/products/strings/pickups/howmade.shtml, http://media.sv3.com:7076/ramgen/gibson/gibson.rm).
További egyszerű szempont, hogy míg szervezeti és magáncélokra elfogadható az ingyenes (ezért névtelennek tekinthető) e-mail cím vagy az ingyenes tárhelyszolgáltató, ugyanezt az üzleti életben tekinthetjük kizáró oknak, amelyekkel nem érdemes tovább foglalkoznunk. Ugyanez igaz, ha a webhelyen lehetetlen személyes vagy virtuális kapcsolattartásra alkalmas elérési címet vagy telefonszámot találni, az időmegtakarítás reményében tehát először érdemes e két utóbbi feltételt megvizsgálni.
Vannak webhelyek, amelyek hitelességét külső hatóság, úgynevezett Certificate Authority szavatolja. Az ilyen honlapokra kattintva a látogató meg is bizonyosodhat a hatóság kilétéről, és arról, hogy a webhely tulajdonosa azonos az azon feltüntetettel. Leginkább bankok esetében találkozhatunk ilyennel. Néhány ismertebb CA-szervezet: VeriSign Inc., Thawte, Baltimore, Entrust.
Adatok gyűjtése és felhasználása
A hitelesség vizsgálatánál már személyes, igaz publikus adatokkal dolgoztunk, hiszen tulajdonneveket és e-mail címeket használtunk a keresés esetében kulcsszóként. Az adatok gyűjtésére több módszer is alkalmas, legkézenfekvőbbek azok a szoftverek, amelyek komplett weboldalakat keresnek és mentenek le esetleg témák szerint, vagy ettől függetlenül és eközben e-mail címeket gyűjtenek az oldalak tartalmi része alapján. Ilyen program például a WebSnake.
Bár a publikus adatok begyűjtése és elemzése nyilván nem illegális tevékenység, ezek felhasználása már főleg etikai, és kis részben jogi korlátokba ütközhet. A spam fogalmát mindenki másként értelmezi toleranciaszintjének és céljának függvényében, az adatgyűjtés módja is sokféle lehet. Mivel a begyűjtött e-mail címek reklámcélú felhasználása jelentős ellenérzést válthat ki a címzettekből, ezért megállapíthatjuk, hogy a spam hatékonysága rendkívül alacsony (elemzők szerint 1:1.000.000-hoz), de ezzel párhuzamosan a többségben esetleg negatív képet alakít ki a reklámozóról. Számos spamszűrő megoldás vagy spam-ellenes szervezet létezik a weben, sajnos az egyik leghatékonyabb, az ORBS, internetszolgáltatójának csődje miatt jelenleg nem üzemel. http://www.cauce.org/ http://www.spamhaus.org/ http://www.chooseyourmail.com/.
Az Internet, ha megszorításokkal, de lehet az információbróker forrása. Ehhez a keresés kifinomult technikáit és speciális keresőket alkalmaz. Az internetes források hitelességének vizsgálata sem maradhat el., ami történhet regisztrátorok internetes megkeresésével vagy telefonos úton, illetve térítéses adatbázisok adataihoz való hasonlítással.