“Chrome” üçin skraperi giňeltmek boýunça “Semalt” gollanmasy

Islendik bir işiň dowam etmegi we netijede ösmegi üçin bäsdeşlerinden we dürli töwekgelçiliklerden öňe geçmeli. Analitik maglumatlara esaslanyp karar bermek, bu problemalary ýatdan çykarmagyň ygtybarly usulydyr. Şeýle maglumatlary maglumatlary gyrmak arkaly alyp bolýar. “Chrome” üçin aňsat gyryjy giňeltme girýär: bu diňe bir maglumat ýygnamak prosesini aňsatlaşdyrman, eýsem çylşyrymly sazlamalar bolmazdan ýolda döwmäge mümkinçilik berer.

Scraper-i nädip ulanmaly

    1. Ilki bilen etmeli işiňiz, giňeltmäni gurmak, şonuň üçin hrom web dükanyna geçiň, "gyryjy" gözläň we "Chrome" -a basyň.

    2. Maglumatlary gyrmak isleýän web sahypaňyza geçiň, gyzyklandyrýan ýazgyny belläp belläň. Oňa sag basyň we açylan menýudan "şuňa meňzeş gyrgy" saýlaň.

    3. Şeýle etmek bilen, aýratyn gyryjy konsol penjiresi açylar. Bu ýerde, gyrylan maglumatlaryň sanawyny görersiňiz.

    4. Mazmuny ýatda saklamak üçin "Google resminamalaryna ýazdyr" -a basyň, bu maglumatlary awtomatiki usulda Google elektron tablisasyna eksport eder.

Giňeldilen galyndylar

Has köp maglumatlary gyrmagy meýilleşdirýän bolsaňyz, ösen çemeleşmäni ulanyp bilersiňiz. Üns beriň, HTML hakda birneme bilýän bolsaňyz, gural bilen işlemek has aňsat bolar. Wagt seriýasy maglumatlaryna esaslanýan arhiwli çeşmeden maglumatlary aýyrmak islediňiz öýdýän. Şeýle ýagdaýda, ýokarda görkezilen usuly synap görseňiz, hapalanan maglumatlary alarsyňyz.

Bu meseläni çözmek üçin, XPath diýlip atlandyrylýan HTML we XML talap dilini ulanyp bilersiňiz. Näme edýär? XPath her saýlawda bar bolan dürli elementler baradaky maglumatlary ykrar edýär. Aşakda nädip gitmelidigi barada gollanma:

1. Scraper konsolyna geçiň, ýokarky çep tarapda "XPath" düwmesine üns bermeli, üstüne basyň we başlangyç tablisany ýygnamaga dowam ediň.

2. Dogry element üçin XPath ýazmaly. Informationhli maglumatlary öz içine alýan häzirki XPath "// div [3] / div [3] / div [2] / div" ýaly formatda görkeziler. <div> elementleri HTML resminamasynda kompýuter tarapyndan ykrar ediler.

3. Ykrar edilen maglumatlary aýyrmak üçin Scraper sütünlerini ulanmaly. Munuň üçin elýeterli maglumatlaryň dürli görnüşlerini gözlemeli. Gaplaýan maglumatlara baglylykda atlaryňyz bolup biler. Bu atlar maglumatlaryň her toplumynyň gapdalynda bar. Olara bellik, bu ýagdaýda <b> belligi goşulýar.

4. Barlag elementini ulanyp, XPath-a <b> belligini goşuň. Indi bu birinji sütüni atlaryň sanawynda görkezilişi ýaly "sözbaşy sütüni" diýip belläp bilersiňiz. Size zerur bolan her sütün üçin dürli XPaths döretmäge dowam ediň.

5. Gap-gaçlara basyň we giňeltme maglumatlary awtomatiki usulda ýygnaýar we bellän dürli sütünleriňize tertipleşdirer.