LIPSZ
Főoldal Hírek Mik a nyílt forráskódú keresőmotorok újdonságai?
2010 | 08 | 01
LIPSZ Menü
Események, rendezvények
Tudásbázis
Mik a nyílt forráskódú keresőmotorok újdonságai? PDF Print E-mail
2007. Szeptember 13, Csütörtök - 07:59
A létező keresőmotor termékek néhány kritikusa szerint egyre növekvő szükség van a tulajdonosi kereső vállalatok és a szponzorált információval, illetve a reklámokból származó bevételekkel kapcsolatos üzletek alternatíváira. Néhányan új kereső motorokat és a tulajdonosi keresőplatformok által létrehozott rangsorolás hatásainak alternatíváit keresik. A Yahoo, a Google és az MSN vezető szerepben vannak a nyílt forráskódú alternatívákkal szemben. Ezek a keresőóriások maguk is versenyeznek azért, hogy ők váljanak a felhasználók alapértelmezett keresőoldalaivá.

A felhasználók hol találhatják meg az elterjedt keresőmotorok nyílt forráskódú alternatíváit? Úgy tűnik, hogy a választás korlátozott. Néhány szilárd nyílt forráskódú projekt további lehetőségeket nyújt a vállalati IT döntéshozóknak, azonban a Wikipedia alapítójának új szolgáltatása talán hamarosan megváltoztatja a keresőmotorok terepét.

Mind a kereső motoroknak mind a kereső motort létrehozó vállalatoknak nagy kihívást jelent, hogy lehetővé tegyék a felhasználók számára, hogy a legkevesebb kulcsszó finomítással találják meg a keresett információt. Az információ online és a helyi meghajtókon való keresése a munkafolyam szerves része.

Nagy innovációs lehetőségeket rejt magában a nyílt forráskódú projektek számára az, hogy szükséges egy olyan nyílt forráskódú keresőmotor létrehozása, ami katalogizálási és adatvisszanyerési képességgel rendelkezik azokra az adatokra vonatkozóan, melyeket a felhasználók hálózatában tárolnak, valamint képes az interneten is információ keresésére. Azonban manapság még csak néhány nyílt forráskódú keresőmotor alternatíva létezik.

“A különbség aközött, hogy Google-t vagy Yahoo-t használunk keresésre abban rejlik, hogy a tűzfalunkon belül vagy privát módon keresünk. Vásárolhatunk tulajdonosi terméket intranetes keresésre, ugyanakkor csak kevés nyílt forráskódú keresőmotort használnak,” mondta David Christian, a Mindbridge műszaki igazgatója. A Mindbridge egy üzleti folyamatok kiszolgáltatásával fogalalkozó (BPO) vállalat.

 

A nyugtalanság egyre nő

A létező kereső motor termékek néhány kritikusa szerint egyre növekvő szükség van a tulajdonosi kereső vállalatok és a szponzorált információval, illetve a reklámokból származó bevételekkel kapcsolatos üzletek alternatíváira. Néhányan új kereső motorokat és a tulajdonosi keresőplatformok által létrehozott rangsorolás hatásainak alternatíváit keresik.

Jó példát szolgáltat az új keresőmotor lehetőségek iránti növekvő felhasználói igényre Matt Burkhardt, az Impari Systems műszaki igazgatójának esete. Az Impari Systems egy startup vállalat, ami nyílt forráskódú szoftverek iskolákban történő elterjesztésén dolgozik.

Burkhardt nem elégedett a Google hírszolgáltatás (news feed) információterjesztési képességeivel. Két sajtónyilatkozatot is kiadott, melyek a megjelenés után hamarosan eltűntek. Sőt, ami még ennél is rosszabb, hogy a jegyzeteit két éves információval helyettesítették.

Az ilyen tapasztalatok meggyőzték Burkhardtot, hogy az internetes keresés nem megfelelő minőségű, és reméli, hogy nemsokára valami pozitív változás történik.

A létező nyílt forráskódú technológiák a vertikális piacon érhetők nyomon, azonban nekünk valami általánosabb megoldásra van szükségünk,” mondta.

 

Eltérő irányok

Az olyan keresők, mint a Google, a Yahoo és az MSN különböznek eljárásaikban és keresési algoritmusaikban. A keresőmotorok technológiája a legtöbb esetben titkos a platformjaik tulajdonosi volta miatt.

A felhasználók néha túlzott mértékben részesítenek egy keresőmotort előnyben egy másikkal szemben, és támaszkodnak arra a kedvenc keresőplatformra a tartalom keresésekor. Az egyik vezető keresőtermék alternatíva Christian szerint az Apache Lucene.

A legtöbb nyílt forráskódú keresés egy nagyobb projektbe ágyazott komponenst foglal magában, jegyezte meg Christian. Ehhez hasonlóan a legtöbb nyílt forráskódú projekt, mely teljes szöveges keresést használ, Lucene alapokra épül.

Ezek az alternatív keresőmotor projektek desktop és szerveroldali technológiákat is magukban foglalnak, önmagukban vagy kombinálva.

 

A Lucene modellje

Az Apache Lucene egy Java nyelven írt nyílt forráskódú teljes szöveges kereső motor könyvtár, ami kompatibilis a több platformos kereséssel és szabadon letölthető.

A Lucene júniusi frissítés olyan új jellemzőket foglal magában, mint például a lekérdező mechanizmusokhoz kapcsolódó hasznosságiérték-súlyozás. Ez az új verzió képes arra, hogy megnövelje a kereső kifejezés fontossági értékét a megtalált kifejezés helyétől függő súlyozás alapján.

A Lucence most már időfüggő (point-in-time) keresésre is képes az NFS (hálózati fájlrendszer) struktúrákban, és új API-val (alkalmazás programozási felület) is rendelkezik az előre értékelt mezők számára.

 

Egy kiindulási pont

A Lucene platform használata az új nyílt forráskódú keresési termékek alapjaként több lehetőséget is magában foglal, és képes arra, hogy jelenlegi technológiát integráljon.

“A programozók szempontjából az Apache Lucene robusztus API-val és .net illetve Java kompatibilitással rendelkezik, és számos kereső platform alapját képezi,” mondta Christian.

 

Milyen problémákat rejtenek magukban a nyílt forráskódú kereső motorok?

A potenciális felhasználók számára mind az internetes mind az intranetes használatra kifejlesztett új keresőmotor stratégiák is okozhatnak problémákat.

Az alternatív keresőtermékek használatának egy problémája, hogy nem biztos, hogy a komponensek minden adatkonténerrel kommunikálnak. Egy másik probléma, hogy a legtöbb felhasználó nem tudja megfelelően kezelni a metaadatokat (ezek olyan mechanizmusok, amik a különböző dokumentum-típusok szerkezetének meghatározását segítik).

“Több indexet kell végigkeresni, de az eredményeket egységes módon kell visszaadni. Azt látjuk, hogy néhány vállalat még csak most kezdi ezt felfedezni. Olyan keresőmotorra van szükségünk, ami mindent egységesíteni tud,” mondta Christian.

 

Egy új megközelítés

A nyílt forráskódú alternatívák talán legígéretesebbjét ezév végén teszi elérhetővé a wiki.com, ami nemrég fejezte be a Grub Web keresőeszköz megvásárlását a LookSmarttól.

A Grubot, mely eddig tulajdonosi keresőmotor volt, a Wikia elnöke és a Wikipedia alapítója nyílt forráskódúvá fogja tenni.

A Grub egy webes kereső, ami a world wide web indexét hozza létre azáltal, hogy az önkéntes számítógépek feldolgozó kapacitását használja fel, például a SETI@home projektét, ami földönkívüli élet nyomait kutatja. Ez lehetővé teszi majd a Wikia elnökének, hogy az új keresőtermék fejlesztését ne teljesen az alapoktól kezdje, és ne kelljen a saját számítógépes hálózatát létrehoznia a web folyamatos átböngészéséhez a tartalom katalógusának felépítésére és karbantartására.

“Azt tervezzük, hogy minden, a kereséshez szükséges szoftvert nyílt licencek alatt hozunk létre, és minden tartalmat szabadon elérhetővé kívánunk tenni. Manapság erre még nincs példa,” mondta Wales.

 

Wikia keresés

Wales terve az új, nyílt forráskódon alapuló keresőmotorok létrehozására a korábbi nyílt forráskódú kezdeményezések – például az olyan projektek, mint a Lucence – kiterjesztését eredményezi. Wales célja az, hogy egy nyílt, transzparens keresőeszközt hozzon létre, mely eljárásmódja és keresési algoritmusa nem titkos.

“Számos nyílt forráskódú projekt létezett, melyek jó kiindulási alapként szolgáltak, és újabb darabbal járultak hozzá a teljes képhez, mi ezt próbáljuk összerakni,” mondta.

Wales azt tervezi, hogy a keresőtermék nyers változatát valamilyen formában megjelenteti. A weboldalhoz hirdetés-alapú modellt fog alkalmazni, de a többi üzleti modellről még nem döntött.

Ez az írás az alábbi cikk alapján készült: http://www.linuxinsider.com/story/IfkMTz8zwtllv9/Whats-New-in-Open-Source-Search.xhtml