Søk i nettsamfunnet

Søkefiltre


 Søkefiltre

Innhold merket 'news'

Fant 1 resultat


Resultater

  1. Har de siste årene bygget opp en slags "news aggregator bot", denne har de to siste månedene blitt kraftig videreutviklet og jobber nå på en mye mer systematisk måte for å hente inn nyheter.

    Hva bør user agent strengen inneholde?

    Når jeg ser på andre bot-er sine strenger, varierer det veldig:
    http://www.useragentstring.com/pages/Crawlerlist/



    Noen har lenker til hele nettsteder, noen med lenker til info om bot-en, andre med e-mail adresse, og noen kun med OS og språk...

    Hovedsaklig, dette gjør bot-en(e) mine foreløpig dette:
    Bot 1: RSS/Atom Feed aggregatorSkanner utelukkende XML feeder.
    Bot 2: Webpage indexerSkanner META data.
    Aktiverte kl 01:00 i natt "Bot 2", etter en lengre test-periode, noe som ga "Bot 1" over 3 ganger så mye å gjøre.Kan med andre ord si at jeg akkurat har speedet opp tempoet fra ca 20.000, til nå over 80.000 forespørsler per døgn.

    Alt foreløpig fra 1 og samme IP, dog planer om å endre på dette i fremtiden.
    Nettsider som skannes, er hovedsaklig skandinavisk-språklig.
    Hvert eneste nettsted blir på forhånd manuelt visuelt inspisert, før de legges til i listene som bot-ene bruker.

    Lurer også på pros/cons da jeg ikke ønsker å bli blokkert fra "google/bing"-only nettsteder.
    Om f.eks. VG blokkerer meg, får det hovedsaklig kun konsekvenser for VG og nettsiden min sine besøkende, da de ikke lenger får lese VG sine nyheter, men derimot får lese alle VG sine konkurrenter sine nyheter. Alle parters interesser bør derfor være å ikke blokkere eller å bli blokkert.

    User agenten jeg bruker pr idag på "Bot 1", er ganske anonym, dog kanskje litt for gammel, da versjonsnummerne bør oppdateres.

    User-Agent: Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36 Oppsummering:
    Bør jeg beholde en anonym user agent? eller bør jeg lage en ny?Hva bør den evt. inneholde? (hva som er vanlig varierer)Hvordan unngå å bli blokkert?Er det andre ting jeg bør tenke på? wiki, henvendelser, robots.txt, etc?