„Semalt Review“: internetinis grandymas įdomumui ir pelnui

Galite įbrėžti svetainę nereikia API. Nors svetainių savininkai agresyviai nustoja nuskaityti daiktus, jiems mažiau rūpi API ir jie labiau pabrėžia svetaines. Faktai, kad daugelis svetainių nepakankamai apsaugo nuo automatinės prieigos, sukuria veiksmų laisvę grandikliams. Keli paprasti sprendimai padės surinkti reikalingus duomenis.

Pradėkite nuo grandymo

Įbrėžimams reikia suprasti reikalingų duomenų struktūrą ir prieinamumą. Tai pradedama gavus jūsų duomenis. Raskite URL, kuris grąžina jums reikalingą informaciją. Naršykite svetainėje ir patikrinkite, kaip keičiasi URL, kai naršote skirtingose skiltyse.

Arba svetainėje ieškokite kelių terminų ir patikrinkite, kaip keičiasi URL, atsižvelgiant į jūsų paieškos terminą. Turėtumėte pamatyti GET parametrą, pvz., Q =, kuris keičiasi, kai ieškote naujo termino. Išsaugokite GET parametrus, reikalingus duomenims įkelti, ir pašalinkite kitus.

Kaip elgtis su atsigavimu

Puslapiai neleidžia pasiekti visų reikiamų duomenų vienu metu. Kai spustelėsite 2 puslapį, URL pridedamas parametras ofsetas =. Tai yra elementų skaičius puslapyje arba puslapio numeris. Padidinkite šį skaičių kiekviename savo duomenų puslapyje.

Svetainėse, naudojančiose AJAX, „Firebug“ arba „Inspector“ tinklelyje pažymėkite tinklo skirtuką. Patikrinkite XHR užklausas, nustatykite ir sutelkite dėmesį į tuos, kurie kaupia jūsų duomenis.

Gaukite duomenis iš puslapio žymėjimo

Tai pasiekiama naudojant CSS kabliukus. Dešiniuoju pelės mygtuku spustelėkite tam tikrą duomenų dalį. Patraukite „Firebug“ arba „Inspector“ ir padidinkite DOM medį, kad gautumėte patį <div>, kuris apvynioja vieną elementą. Kai turėsite tinkamą mazgą iš DOM medžio, peržiūrėkite puslapio šaltinį, kad įsitikintumėte, jog jūsų elementai yra prieinami neapdorotame HTML.

Norėdami sėkmingai surinkti svetainę, jums reikia HTML analizės bibliotekos, kuri skaitoma HTML ir paverčia ją objektu, kurį galite pakartoti, kol gausite tai, ko jums reikia. Jei jūsų HTTP bibliotekoje reikia nustatyti kelis slapukus ar antraštes, naršykite svetainę savo interneto naršyklėje ir gaukite antraštes, kurias siunčia jūsų naršyklė. Įrašykite juos į žodyną ir nusiųskite savo prašymą.

Kai jums reikia prisijungimo, kad būtų galima įbrėžti

Jei turite susikurti abonementą ir prisijungti, kad gautumėte norimus duomenis, turite turėti gerą HTTP biblioteką, kad galėtumėte tvarkyti prisijungimus. Prisijungimas prie grandiklio leidžia patekti į trečiųjų šalių svetaines.

Jei jūsų žiniatinklio paslaugos tarifų apribojimas priklauso nuo IP adreso, nustatykite kodą, kuris žiniatinklio paslaugą pasiekia kliento „Javascript“. Tada persiųskite rezultatus į savo serverį iš kiekvieno kliento. Rezultatai pasirodys iš daugybės vietų, ir nė vienas neviršys jų normos.

Prastai suformuotas žymėjimas

Kai kuriuos antkainius gali būti sunku patvirtinti. Tokiais atvejais įsigilinkite į HTML analizatorių, kad būtų nustatyti tolerancijos klaidoms nustatymai. Arba traukite visą HTML dokumentą kaip ilgą eilutę ir padalinkite eilutes.

Nors galite tinkle surinkti įvairius duomenis tinkle, kai kurios svetainės naudoja programinę įrangą, kad sustabdytų įbrėžimus, o kitos uždraudžia interneto žinutes. Tokios svetainės gali jus paduoti į teismą ir net jus įkalinti už jų duomenų rinkimą. Taigi būkite protingi naudodamiesi visomis žiniatinklio žinutėmis ir darykite tai saugiai.