Back to Question Center
0

Semalt Islamabad Expert - Čo potrebujete vedieť o webovom crawleri

1 answers:

Prehľadávač vyhľadávača je automatizovaná aplikácia, skript alebo program, ktorý prechádza cez World Wide Web naprogramovaným spôsobom tak, aby poskytoval aktualizované informácie pre konkrétny vyhľadávač. Premýšľali ste niekedy, prečo pri každom zadaní rovnakých kľúčových slov na Bing alebo Google získate rôzne súbory výsledkov? Je to preto, že sa webové stránky nahrávajú každú minútu. A ako sa nahrávajú, webové prehľadávače prechádzajú cez nové webové stránky - corbatas dibujos.

Michael Brown, vedúci expert z Semalt, hovorí, že webové prehľadávače, tiež známe ako automatické indexátory a webové pavúky, pracujú na rôznych algoritmoch pre rôzne vyhľadávače. Proces indexového prehľadávania webu začína identifikáciou nových adries URL, ktoré je potrebné navštíviť buď preto, že boli práve nahrané, alebo preto, že niektoré z ich webových stránok majú nový obsah. Tieto identifikované adresy URL sú známe ako semená v termíne vyhľadávacieho nástroja.

Tieto webové adresy sú nakoniec navštívené a opätovne navštívené v závislosti od toho, ako často sa do nich odovzdávajú nový obsah a pravidlá vedúce pavúky. Počas návštevy sú všetky odkazy na každej z webových stránok identifikované a pridané do zoznamu. V tomto bode je dôležité jasne uviesť, že rôzne vyhľadávacie nástroje používajú rôzne algoritmy a pravidlá. To je dôvod, prečo budú výsledky Google a výsledky Bing pre rovnaké kľúčové slová odlišné, aj keď bude veľa podobností.

Webové prehľadávače robia obrovské úlohy udržiavajúci vyhľadávače aktuálne. V skutočnosti je ich práca veľmi zložitá z troch dôvodov.

1. Objem webových stránok na internete v každom čase. Viete, že na webe je niekoľko miliónov webových stránok a viac sa začína každý deň. Čím väčší je objem webových stránok na internete, tým je ťažšie, aby boli prehľadávače prehľadné.

2. Rýchlosť spustenia webových stránok. Máte nejaký nápad, koľko nových webových stránok sa začína každý deň?

3. Frekvencia, ktorou sa obsah mení aj na existujúcich webových stránkach a pridávanie dynamických stránok.

Jedná sa o tri otázky, ktoré sťažujú webovým pavúkom, aby boli aktuálne. Namiesto prehliadania webových stránok na základe prvej príležitosti, ktorá je prvýkrát podaná, mnoho webových pavúkov uprednostňuje webové stránky a hypertextové odkazy. Stanovenie priorít je založené iba na 4 všeobecných pravidlách prehľadávača vyhľadávačov.

1. Politika výberu sa používa pri výbere stránok, ktoré sa najprv stiahli na indexové prehľadávanie.

2. Typ pravidiel opätovnej návštevy sa používa na určenie, kedy a ako často sa webové stránky prehodnocujú na prípadné zmeny.

3. Pravidlá paralelizácie sa používajú na koordináciu toho, ako sa šíria pásy na rýchle pokrytie všetkých semien.

4. Pravidlá zdvorilosti sa používajú na určenie spôsobu prehľadávania adries URL, aby sa predišlo preťaženiu webových stránok.

Pre rýchle a presné pokrytie semien musia byť prehľadávače vybavené skvelou technikou prehliadania, ktorá umožňuje uprednostňovanie a zužovanie webových stránok a musí mať tiež vysoko optimalizovanú architektúru. Tieto dva spôsoby uľahčia prehliadanie a sťahovanie stoviek miliónov webových stránok za niekoľko týždňov.

V ideálnej situácii je každá webová stránka vytiahnutá z World Wide Web a preberaná cez multi-threaded downloader, po ktorej sú webové stránky alebo adresy URL zaradené do frontu predtým, ako ich prenesie cez určený plánovač pre prioritu. Prioritné adresy URL sa znova zadávajú prostredníctvom súborov s viacerými podprocesmi, takže ich metadáta a text sa uložia na správne prehľadávanie.

V súčasnosti existuje niekoľko pavúkov vyhľadávačov alebo crawlerov. Google, ktorý používa Google, je prehľadávač Google. Bez webových pavúkov stránky s výsledkami vyhľadávača buď vrátia nulové výsledky, alebo zastaraný obsah, pretože nové webové stránky sa nikdy neuvádzajú. V skutočnosti neexistuje nič online ako výskum.

November 29, 2017