lweb.jpg (4227 bytes)

World Wide Web (www) böngészési ismeretek

Keresés az interneten

A keresésről
A keresőgépek működése
Keresőgépek
Keresési technikák

A World Wide Web 1990-es születése még nem, de a Netscape (Mosaic) 1993-as terjesztése már világszerte ismertté és használhatóvá tette az addig csak kutatóintézetekben és egyetemeken használt internetet. A publikálás lehetősége először különleges privilégium volt, szükség volt hozzá különböző jogosultságokra a szervereken, valamint weblap szerkesztési ismeretekre, amit akkoriban még elsősorban programozási feladatnak tekintettek. A világhálón lévő weboldalakra ekkor még mint használható és pontos referenciákra tekintettek. Az oldalak indexelése, nyilvántartása akkor vált hatalmas feladattá, amikor egyre többen szereztek jogosultságot a publikálásra és amikor az első grafikus felületű weblap-szerkesztő programok megjelentek. Innentől kezdve az interneten megjelenő weboldalak száma háromhavonta duplázódott. Egyes becslések szerint jelenleg másfél milliárd weblap található az interneten, és számuk naponta kétmillióval növekedik.

A hatalmas felkerülő információmennyiség egyszerre lett a világ tudományos, történelmi és szórakoztatóipari (és még sok minden egyéb) tárháza, és egy kusza, kiismerhetetlen, használhatatlan szöveges (és napjainkban multimédiás) adathalmaz. A World Wide Web referenciaként való használatát lehetetlenné teszi megbízhat atlansága, az olvasott szöveg valódiságának és pontosságának ellenőrzése nemritkán hosszadalmas feladat. A weben való kutakodást jelentős mértékben hátráltatják azok az egyébként jó szándékú publikálók, akik gigantikus mennyiségű szöveganyagukkal minimális sá (láthatatlanná) teszik a kereső számára fontossággal bíró valódi információkat. A keresőgépek fejlesztése és optimális használatának betanítása megkerülhetetlen feladattá vált, ugyanígy a megbízható tematikus referencia-adatbázisok összeállítása. A hasz nos információk keresésénél az elsődleges feladat nem az információ előkerülésének biztosítása lett, hanem a haszontalan információk szűrése.

A keresésről

Alapvetően kétféle keresési módszerrel próbálkozhat a felhasználó, katalógus-rendszerű kereséssel és szókereséssel:

Katalógus-rendszerű keresés esetén linkek (hivatkozások, shortcuts) segítségével juthat el a felhasználó a keresett témájú weboldalakhoz, mégpedig úgy, hogy egyre szűkíti a fogalmakat, amíg el nem jut a megfelelő helyre. Először a legáltalánosabb témafelbontással találkozik (sport, szórakozás, hírek, kultúra...), ahonnan kiválaszthatja az őt érdeklő téma-csoportot (pl. kultúra). A linkre kattintva a következő oldalon már csak a kiválasztott téma alcsoportjait találja (film, színház, zene, irodalom...). A link-vándorlás végén már valós weboldalakhoz vezetnek linkek, vagy vegyesen szerepelnek a valós weboldalak és a további al-témakörök linkjei. A legjobb katalógus-rendszerű kereső szolgáltatást a Yahoo nyújtja, a magyar weboldalak között pedig a HuDir.

Szókeresés esetén egy rubrikába kell beírni azokat a szavakat, amiket tartalmazhat egy olyan weboldal, mint amire kíváncsi a felhasználó. Lehet egyetlen szót is megadni a keresésnél, de minél pontosabban határozza meg a keresési feltételeket, annál pontosabb és kevesebb eredményt kap. Fontos a keresési eredmények számának csökkentése, mivel a legtöbb keresés eredményeképpen sok ezer, adott esetben akár több százezer linket is ajánlhat a keresőgép. A keresést a rubrika melletti startgombbal lehe t elindítani a szóbeírás után. Ennek a gombnak többféle neve is lehet: Search, Go Get It, Submit, Seek. Egyszerűbb a keresést elindítani, ha a beírás után a felhasználó entert üt.

A legnagyobb és leglátogatottabb keresőgépek egyaránt felkínálják a katalógus-rendszerű és a szókereséses lehetőségeket.

A keresőgépek működése

A keresőgépek az adatbázisaikban tárolt információkat (elsősorban a weboldalak címeit, kulcsszavait, leírásait – a továbbiakban: kulcsszavak) indexelik és egy keresés elindításakor ezeket az indexelt állományokat nézik végig. Téves tehát az az elképzelés, hogy egy keresés elindításakor a keresőgép „átnézi” az egész világhálót, és ha valamelyik oldalon találkozik a megadott kulcsszavakkal, azokat kiadja eredményként. A keresőgép csak sajá t helyi adatbázisában keres. Ezért is fordulhat elő igen gyakran, hogy bár a keresőgép kiadja eredményként, a hivatkozott weboldal a valóságban már nem létezik. A keresőgép többféle programot (robotot) működtet egyszerre. A legnagyobb keresőkhöz naponta tö bb tízezer regisztráció (oldal-felvételi kérelem) érkezik. A regisztrálandó oldalak meglétét egy program ellenőrzi, és elkezdi az oldal adatainak letöltését saját szerverére. A különböző keresőgépek különböző típusú adatokat töltenek le. Általában mindanny ian letöltik az oldal címét, valamint az úgynevezett meta-tagekben lévő információkkal (kulcsszavak, leírás, besorolás,…). Ugyancsak letöltik az oldal szövegét, vagy legalábbis annak nagy részét. Egyes keresőgépeken egy másik program is működik, ez megadot t időközönként végighalad a regisztrált weboldalakon, ellenőrzi meglétét, és az oldalakon lévő további hivatkozásokat összeveti a saját adatbázisával. Ha olyan weboldalra talál hivatkozást, amelyik még nincs regisztrálva, azt is regisztrálja.

A katalógusok rendezése általában emberi feladat maradt. A weboldal regisztrálója ajánlhatja oldalát valamelyik kategóriába, azonban ennek az ajánlásnak ellenőrzését emberek végzik. Erre azért is nagy szükség van, mert ha automatikusan felkerülne minden ajánlott oldal egy-egy megadott kategóriába, akkor azok a weblap készítők, akik oldalukat hirdetni szeretnék, a lehető legtöbb (a weboldal témájához nem is tartozó) kategóriába is betetetnék oldalukat, megtévesztve a kereső felhasználókat. Ezen kívül valószínűleg minden kategóriát ellepnének a szexhirdetéseket tartalmazó oldalak linkjei. A webes katalógusok nagyságrendekkel kevesebb oldal adatait tartalmazzák, mint amennyit az indexelt oldalak, amikre szókereséssel lehet találni. Ezek a katalógusok azonban csak ellenőrzö tt, létező linkeket tartalmaznak. Általában a katalógusokban is lehet használni szókeresést használni, ezzel azonban csak az adatbázisban lévő oldalak tartalmát lehet áttekinteni. A Yahoo! egyik nagy előnye például, hogy egy al-alkategóriában alkalmazva a szókeresést, csak abban a kategóriában lévő oldalak között keres.

Keresőgépek

Az első keresőgép, a World Wide Web Wanderer 1993-tól 1995-ig működött. Mégsem erre emlékeznek elsősorban a „veterán” internet-használók, hanem a Yahoo!-ra, ami barátságos és praktikus kezelőfelületével a mai napig az egyik legnépszerűbb oldal maradt.

Yahoo!
www.yahoo.com

A Yahoo!-t 1994 áprilisában tervezte két amerikai elektromérnök. Kezdetben saját kedvenceiket helyezték fel útmutatásként a www-t böngészők részére, majd az információmennyiség növekedésével az adatbázist saját szoftvereikkel tették könnyen kezelhetővé. A Yahoo! mind a mai napig manuálisan bővül, ami azt jelenti, hogy egy új, elkészült weboldal regisztrálása után a Yahoo! emberei ellenőrzik és helyezik be a linket a megfelelő kategóriába. Ezen a feladaton a Yahoo! 1200 embere dolgozik világszerte. A Yahoo! egyedisége éppen ezen a félautomatizált regisztrálási rendszeren alapul, a weboldalak kategorizált keresésében verhetetlen. A Yahoo! is rendelkezik szókereséssel, ezt a keresést azonban továbbadja az AltaVistának.

A weboldalak számának hatványozott növekedése nehéz helyzetbe hozhatja a Yahoo!-t. Annyi alkalmazottat egy idő után nem tudnak majd munkába állítani, ahány új regisztrálási kérelem érkezik, a regisztrálások heteket, hónapokat fognak késni, vagy kénytelenek lesznek egyre jobban automatizálni a regisztrálási folyamatot. Például úgy, hogy egy kategóriába csak akkor fogadja el a jelentkezéseket a regisztráló program, ha az oldal tartalmaz bizonyos megadott k ifejezéseket. Ez a módszer azonban visszaélésekhez is vezethet. Egy másik lehetőség, hogy a Yahoo! egyfajta „elit” adatbázissá változik, amelyik csak a valóban jelentős és hasznos információval rendelkező oldalakat fogja regisztrálni – bár ez is jelentős e mberi munkát igényel, de a látható tartalom arra fogja ösztönözni a regisztrálni vágyókat, hogy kétszeresen gondolják végig cselekedetüket, hiszen egy hosszadalmas regisztrációs procedúra után oldaluk talán mégsem fog felkerülni a Yahoo!-ra. Valószínűleg e bbe az irányba tart a Yahoo!, regisztrációs procedúrájuk az összes keresőgéphez képest a legmacerásabb.

AltaVista
www.altavista.com

A CMGI tulajdonában lévő AltaVista a világ legnépszerűbb keresőoldala, havonta 45 millióan látogatják – ezzel a világon a tizedik leglátogatottabb oldal. Látogatottsága évente 25%-kal nő, kétszer annyival, mint a többi oldalé átlagosan. Az AltaVista nyilvános keresőjét 1995 decemberében indította el a Digital Equipment Corporation. 1999 januárjában a Compaq, majd augusztusban a C MGI vált az AltaVista többségi tulajdonosává. Az AltaVista fejlesztette ki Scootert, azt a programot, amelyik képes végignézni a világhálót és begyűjteni róla a szöveges információkat. Ők hoztak létre először dinamikus kategorizáló programot, amelynek alap ján nem emberek állítják össze a kategóriákat. Ugyancsak az AltaVistán jelent meg (1997) először a többnyelvű kereső, amely csak a megadott nyelven készült dokumentumok között keres, sőt az idegen nyelvű oldalakat angolra fordítja nyersfordításban. Az Alta Vistán lehetett először multimédiás dokumentumok (képek, hangok) után kutakodni.

Az AltaVista keresőrobotja legalább 28 naponta nézi végig a világhálót. Jelenleg 250 millió weboldalt tart nyilván indexelve adatbázisában (a valószínűleg létező oldalak 10-16%-át), ezzel az övé a legnagyobb adatbázis. Itt jegyezném meg, hogy az indexelt oldalak mennyisége még nem feltétlenül jelenti a leghatékonyabb keresést, a „legtöbb találat” nem azonos a „legjobb találatokkal”.

Az AltaVista keresőjét használja a LookSmart kereső és a Microsoft Network.

Infoseek (Go Network)
www.go.com

Az InfoSeek Corporation tulajdonában lévő Infoseek 1995 februárjában kezdte meg működését. Az első olyan kereső volt, amelyik szolgáltatásáért pénzt kért. Jelenleg a második legnagyobb adatbázissal rendelkező kereső. Specialitása, hogy egy keresés után nem csak a talált oldalakat jeleníti meg, hanem azokat a témaköröket is, amelyek a kereső-kulcsszavak alapján érdekesek lehetnek a kereső számára. 75 millió oldalt indexelt.

Az Infoseek-et használja a Search.com, a WebTV és a CNN.com is keresésre.

WebCrawler
www.webcrawler.com

1994 áprilisában készítette el a WebCrawler első változatát a University of Washington egy diákja. Kezdetben a Dealernet és a Starwave nevű kisebb cégek szponzorálták. 1995-re olyan népszerű lett az oldal, hogy látogatottsága miatt a kis teljesítményű gépek nem bírták a működést. 1995 márciusában a WebCrawlert megvette az America Online (AOL). A WebCrawler volt az első olyan webkereső, amelyik a teljes webes szöveg-adatbá zist indexelte, tehát a világháló minden szövegében lehetett rajta keresni. A Lycos, az InfoSeek, és az OpenText mind a WebCrawler alapműködését vette mintául. 1996 novemberében az Excite vette meg a keresőt az AOL-tól.

Excite
www.excite.com

Az Architext Software tulajdonában lévő Excite kereső 1995-ben indult be. Különlegessége az „Intelligent Concept Extraction”, amely kereséskor szinonimaszótárként működik. Ha például az „öreg polgár”-ra keresünk, megtalálhatja azt az oldalt is, amelyik a „vén ember”-t tartalmazza (természetesen csak angolul keresve). Az Excite indexelt adatbázisa jelenleg 150 millió weboldalt tartalmaz. 1999 januárjában az Excite egyesült az @Home Networkkel. Az Excite tulajdonában van a WebCrawler, a City.net és a Magellan kereső is. Az Excite keresőjét használja az AOL Netfind keresője és a Netscape Netcentere is.

Lycos
www.lycos.com

A Carnegie Mellon University-n fejlesztették, jelenleg a Lycos Inc. tulajdonában van. A Lycos naponta ellenőrzi adatbázisát. A Lycos-t használják a Tripod, az Angelfire, a MailCity és a WhoWhere keresők. A CNET szerint a nagy keresők közül a Lycos a legpontatlanabb.

Keresési technikák

A pontos és gyors kereséshez elengedhetetlen keresési technikák ismerete. Bizonyos keresési trükköket minden keresőgép ismer, mások csak a keresőoldalak fejlettebb keresési lehetőségei (advanced search) között szerepelnek, megint mások csak bizonyos keresőgépeken működnek. Ez utóbbiért van az, hogy kereséstől függően bizonyos esetekben más és más keresőgépeket praktikus használni.

Logikai operátorok

Vannak kereső-szerverek, ahol több logikai kifejezés is használható, ha azokat a kulcsszavak közé írjuk:

or (|) – a találatokban a kulcsszavak közül csak egyiknek kell szerepelnie.

and (&) – a találatokban a kulcsszavak mindegyikének kell szerepelnie.

not (&!)– az ezután szereplő szó nem szerepelhet a talált weboldalon. Ha például Babilonról szeretne információt gyűjteni a felhasználó, sokat nehezít a dolgon, hogy elsősorban a Babylon 5 nevű televíziós sorozat fog eredményként szerepelni. Praktikus dolog ilyenkor kizárni a keresésből az 5, a five és a fünf szavakat.

near (~, -) – a megadott kulcsszavak közel helyezkednek el egymáshoz a weboldalon. Néha azt is meg lehet adni, hogy például 2 szónál nem lehet több közöttük (NEAR3)

Ha a kulcsszavak közt nincsen logikai operátor, akkor általában az „and” érvényesül alaphelyzetben.

Joker karakterek (*)

A kulcsszó után írva a csillagot a szó bővítményi is a találatok között lesznek.

Idézőjelek

Azokat a kifejezéseket, amiket pontosa n ugyanúgy szeretnénk megtalálni, mint ahogy leírtuk, idézőjelek közé kell tenni – különben a kifejezésben lévő szavakat külön-külön találja meg a szövegben a keresőgép. Példa (csak kitalált címekkel):

helytelenül
Keresés: Budapesti Közgazdaságtudományi Egyetem

Találatok:

budapest, http://www.budapest.hu/
kozgazdasag, http://www.vilaggazdasag.hu/
egyetem, http://www.akg.hu/links/1felso.html
A talált oldalakon esetleg mindhárom szó szerepel, csak éppen nem egymás mellett.

helyesen
Keresés: "Budapesti Közgazdaságtudományi Egyetem"

Találat:
budapesti kozgazdasagtudomanyi egyetem, http://www.bke.hu/

Szavak kizárása és kötelezése (+/-)

Ha közvetlenül a kulcsszó elé teszünk + jelet, azzal garantáljuk, hogy a talált oldalon az a szó feltétlenül szerepelni fog. (Értelemszerűen ennek akkor van értelme, ha több kulcsszót használunk, de ezek közül egy párat inkább csak a keresés pontosításáért adtunk meg – ezek elé azért nem teszünk + jelet, mert ezzel kizárnánk azokat az oldalakat, ahol ezek a szavak nem szerepelnek.)

Ha a szó előtt – jel szerepel, az olyan oldalak nem jelennek meg, ahol ez a szó nincs benne a szövegben.

Keresés a dokumentum speciális részében

Ennek ismertetéséhez az AltaVista speciális lehetőségeit sorolnám fel, mivel ezzel a keresővel a dokumentum sok különböző részén lehet keresni. Természetesen más keresők is rendelkezhetnek ezek közül valamelyikkel.

  • weboldal címe (title:vietnam ) – A weboldalak címei között keres. Előnye a keresésnek, hogy tényleg csak azokat az oldalakat kapjuk, ahol a keresett kulcsszó lényeges része az oldalnak.
  • weboldal url címe (url:vietnam ) – A weboldalak URL címei között keres. Előnye hasonló az előzőhöz.
  • domain (domain:cz) – Csak a megadott domain-en keres. Így tudunk keresni például csak a cseh lapokon. Példa: Tokióról keresünk angol nyelvű információt, de a kapott találatok jelentős része japánul van. Ki tudjuk zárni a keresésből a Japánban lévő szervereket, ha ezt írjuk be: [tokyo -domain:jp]
  • host (host:emc.elte.hu) – Csak a megadott host-gépen keres. Akkor is praktiku s lehet, ha a találatok átböngészését nehezíti, hogy még a harmadik találati lapon is ugyanazon a hoston lévő számunkra érdektelen weboldalakat találjuk. Ezt a hostot kizárhatjuk a keresésből, így tovább tudunk jutni.
  • link (link:dog.jpg) – Azokat az oldala kat találja, ahol van egy hiperhivatkozás (link) az általunk megadott szóra. Például ha link:jpg -t írunk be, az oldalon biztosan lesz hivatkozás egy betölthető képre. A [link:dog12.jpg] keresés több olyan oldalhoz fog elvezetni, amelyen kutyák képeit gyűj tötték össze, és legalább 12 kép szerepel a gyűjteményben.

Multimédiás elemek keresése

Egyes keresőkön képek, hangok, mozgóképek kereshetőek. Ilyen például az AltaVista, vagy a Lycos.

netlogo.jpg (1407 bytes)

Tan-oldalak a Word Wide Web böngészéséhez
10 leckéből és 2 feladatlapból álló segédanyag

Keresés a Word Wide Web-en
A magyar és külföldi keresőmotorok sajátosságai