Semalt Review. Վեբ գրություններ `զվարճանքի և շահույթի համար

Կարող եք կայքի գրություններ անել ՝ առանց API- ի անհրաժեշտության: Չնայած կայքի սեփականատերերը ագրեսիվ են գրությունը դադարեցնելու համար, նրանք ավելի քիչ են մտածում API- ների մասին և փոխարենը ավելի շատ շեշտադրում են կայքերի վրա: Այն փաստերը, որ շատ կայքեր պատշաճ կերպով չեն պաշտպանում ավտոմատ մուտքից, ստեղծում են քերիչներ: Որոշ պարզ ելքեր կօգնեն ձեզ հավաքել ձեզ անհրաժեշտ տվյալները:

Սկսել գրությունը քսել

Գրանցումը պահանջում է հասկանալ ձեզ անհրաժեշտ տվյալների կառուցվածքը և դրա հասանելիությունը: Սա սկսվում է ձեր տվյալները բռնելով: Գտեք URL- ն, որը վերադարձնում է ձեզ անհրաժեշտ տեղեկատվությունը: Զննեք կայքի միջոցով և ստուգեք, թե ինչպես են URL- ները փոխվում, երբ նայում եք տարբեր բաժինների:

Այլընտրանքորեն, մի քանի տերմին փնտրեք կայքում և ստուգեք, թե ինչպես են URL- ները փոխվում ձեր որոնման տերմինի հիման վրա: Դուք պետք է տեսնեք GET պարամետր, ինչպիսին է q =, որը փոխվում է, երբ նոր տերմին եք որոնում: Պահպանեք ձեր տվյալների բեռնման համար անհրաժեշտ GET պարամետրերը և հեռացրեք մյուսները:

Ինչպե՞ս զբաղվել տաղավարով

Pagination- ն ձեզ թույլ է տալիս միանգամից մուտք գործել ձեզ անհրաժեշտ բոլոր տվյալները: 2-րդ էջը սեղմելիս URL- ին ավելացվում է օֆսեթ = պարամետր: Սա կամ էջի կամ էջի համարի տարրերի քանակն է: Բարձրացրեք այս համարը ձեր տվյալների յուրաքանչյուր էջում:

AJAX օգտագործող կայքերի համար վերցրեք ցանցային էջանիշը Firebug- ում կամ տեսուչում: Ստուգեք XHR հարցումները, նույնականացրեք և կենտրոնացեք ձեր տվյալների վրա մղվողների վրա:

Ստացեք տվյալներ Էջի նշագրումից

Դա ձեռք է բերվում CSS կեռներով օգտագործելով: Աջ սեղմեք ձեր տվյալների որոշակի բաժին: Քաշեք Firebug- ը կամ տեսուչը և խոշորացրեք DOM ծառի միջով, որպեսզի ստանաք առավելագույն <div> - ը, որը փաթաթում է մեկ կետ: DOM ծառից ճիշտ հանգույց ունենալուն պես դիտեք էջի աղբյուրը `ձեր տարրերը հասանելի դարձնելու համար հում HTML- ով:

Գրությունը հաջողությամբ գրությունը տեղադրելու համար ձեզ հարկավոր է HTML վերլուծող գրադարան, որը կարդում է HTML- ն և այն վերածում այն մի առարկայի, որը կարող եք կրկնել, մինչև հասնեք ձեր ուզածը: Եթե ձեր HTTP գրադարանը պահանջում է, որ որոշ բլիթներ կամ վերնագրեր տեղադրեք, թերթեք կայքը ձեր վեբ զննարկիչում և ստացեք վերնագրերը ձեր զննարկչի կողմից ուղարկվածից: Դրեք դրանք բառարանի մեջ և փոխանցեք ձեր խնդրանքով:

Երբ ձեզ հարկավոր է մուտք գործել ջարդելու համար

Եթե դուք ուզում եք ստեղծել հաշիվ և մուտք գործել ձեր ուզած տվյալները ստանալու համար, մուտքերը կարգավորելու համար հարկավոր է ունենալ լավ HTTP գրադարան: Scraper- ի մուտքը ձեզ բացահայտում է երրորդ կողմի կայքեր:

Եթե ձեր վեբ ծառայության տոկոսադրույքի սահմանը կախված է IP հասցեից, սահմանեք ծածկագիր, որը վեբ ծառայությանը հարվածում է հաճախորդի կողմից Javascript- ին: Այնուհետև արդյունքները փոխանցեք ձեր սերվերին յուրաքանչյուր հաճախորդից: Արդյունքները, ըստ երևույթին, ծագել են այդքան շատ տեղերից, և դրանցից ոչ մեկը չի գերազանցի դրանց արագության սահմանը:

Աղքատ ձևավորված գծանշում

Որոշ նշումներ դժվար է վավերացնել: Նման դեպքերում փորեք ձեր HTML վերլուծիչը ՝ սխալների հանդուրժողականության պարամետրերի համար: Այլընտրանքորեն, վերաբերվեք ամբողջ HTML փաստաթղթին որպես երկար լար և կատարեք լարային պառակտում:

Թեև ցանցում կարող եք զետեղել բոլոր տեսակի տվյալներ, որոշ կայքեր ծրագրակազմ են օգտագործում ՝ գրությունը դադարեցնելու համար, իսկ մյուսները արգելում են ոստայնի գրությունը : Նման կայքերը կարող են դատի տալ ձեզ և նույնիսկ ձեզ բանտարկել են նրանց տվյալները հավաքելու համար: Այսպիսով, եղեք խելացի ձեր վեբ բոլոր գրագրություններում և կատարեք դա անվտանգ: