In het eerste deel van deze reeks heb ik je uitgelegd wat referral spam eigenlijk is, en dat er drie soorten zijn. In dit artikel lees je hoe je de eerste soort, Ghost referrals, uit je statistieken kunt verwijderen.
1. Ghost referrals verwijderen
Voor deze soort spam kun je specifieke filters aanmaken om elke spam-bron afzonderlijk te verwijderen, maar een methode die minder moeite kost is het maken van een filter dat gebaseerd is op valide hostnamen. Deze spam referrers nemen namelijk een willekeurige tracking-ID, zonder te weten bij welke site die hoort. Vervolgens versturen ze een ‘verwijzing’ door een hostnaam te gebruiken die niet van jou is.
Je kunt een insluitfilter aanmaken dat alleen registraties weergeeft die van je valide webhosts komt en je hoeft je geen zorgen meer te maken over darodar.com / econom.co / ilovevitaly.co / en wat er nog meer komt.
[content_band inner_container=”true” no_margin=”true” border=”all” padding_top=”10px” padding_bottom=”10px” bg_color=”#eee” bg_image=”” parallax=”true” bg_video=”” bg_video_poster=””]
Huh, het zijn verwijzingen (referrals) dus waarom filter je op hostnaam?
Al je analyticsrapportages worden beïnvloed door ‘spam’verkeer, daarom zijn ze zo irritant. Als het plaatsen van een verwijzing nou het enige was wat ze deden, dan zouden we ze gewoon kunnen negeren. Maar ze hebben invloed op het bouncepercentage van je website, het aantal paginabezichtigingen, het totaal aantal sessies en gebruikers, de gemiddelde tijd die iemand op je website doorbrengt…. op alles dus.
Je moet dus het bezoek uit je data zien te schrappen. Het viel me op dat de ‘ghost referral’ bezoeken gebruik maken van een hostnaam die afwijkt van al mijn gewone verkeer. Omdat er de afgelopen maand zoveel varianten zijn geweest, leek het mij gemakkelijker om een filter aan te maken dat het goede verkeer juist toelaat en al het overige uitsluit. Of er nou bezoekersverkeer van referral X of Y wordt verwijderd is niet relevant voor het filter. Het is geen ‘goed’ verkeer, dus wordt het genegeerd.
Deze ‘ghost referrals’ kunnen net zo makkelijk nepzoekverkeer genereren met zoektermen die je ertoe uitnodigen om hun website te bezoeken…. (maar hey, dat hebben ze niet van mij, en ik hoef deze lui niet aan goede ideeën te helpen). Onthou: ‘goed’ verkeer komt van hits van je eigen servers (hostnamen). De rest kan worden verwijderd.
[/content_band]
Ga bij het implementeren van deze oplossing voorzicht te werk, anders sluit je valide verkeer uit! Je moet alle valide hostnamen identificeren die de tracking ID van je website gebruiken. Dit kunnen dus ook andere websites zijn die een onderdeel zijn van je trackingsysteem, waaronder je eigen domein, Paypal, je webwinkel shopping cart, en alle gereserveerde domeinen (voor het geval je besluit om die te gaan gebruiken).
Maak om te beginnen een rapportage over meerdere jaren waarbij je de hostnamen aangeeft (Bezoekers>technologie>netwerk>hostnaam) en ga ze allemaal langs en bepaal of ze valide zijn of invalide spam.
Ik noteer alles dat er valide uitziet (ik heb meerdere domeinen en subdomeinen met een betaalserver, en ik track verkeer van Youtube en de Shopify app) of mogelijk valide (zoals bijvoorbeeld translate.googleusercontent.com). Ik onderzoek ook de overige domeinnamen om mezelf er van te verzekeren of ik werkelijk mijn Google tracking ID in hun systeem heb geplaatst om redenen die ik me niet meer kan herinneren.
Vervolgens maak je onder beheer een filter aan met een patroon* die alle valide domeinen afvangt. Daarna: TESTEN, TESTEN, TESTEN! Als je zeker weet dat alles naar behoren werkt, voer het filter dan definitief in.
[content_band inner_container=”true” no_margin=”true” border=”all” padding_top=”10px” padding_bottom=”10px” bg_color=”#eee” bg_image=”” parallax=”true” bg_video=”” bg_video_poster=””]
*Het filterpatroon (eenvoudige uitleg)
Veell mensen hebben moeite met het samenstellen van een filterpatroon omdat het om een Regex (regular expression, of reguliere expressie) gaat. Laten we het daarom in dit geval simpel houden: Maak een lijst van je valide websites en je domein, gescheiden door een verticale lijn, zoals hier:
www\.analyticsedge\.com|help\.analyticsedge\.com|analyticsedge\.com
Dat is de reguliere expressie die je in het patroonveld invoert.
Het is van groot belang dat je dit filter bijwerkt, elke keer dat je je Google tracking code toevoegt aan een nieuwe webservice. Daarnaast dien je elke maand met een ongefilterd rapport te controleren dat je geen valide verkeer uitsluit.
[/content_band]
De ghost referrals staan nog wel de geschiedenis van Google analytics. Om ze daar uit te sluiten, dien je gebruik te maken van segmenten. Lees meer over het maken van segmenten in dit artikel (Engels).
Waarom blijven sommige mensen toch zeggen dat het filteren op basis van een .htacces file werkt?
Omdat er wordt aangegeven dat je 2 tot 3 dagen moet wachten voor het filter om te werken. Het spam-verkeer wijzigt echter ook in de tussentijd, dus de indruk wordt dan ten onrechte gewekt dat een filter via .htaccess werkt.
Het volgende artikel gaat over het filteren van de tweede vorm van spam referral: de ‘enge’ crawlers zoals Semalt.
[content_band inner_container=”true” no_margin=”true” border=”all” padding_top=”10px” padding_bottom=”10px” bg_color=”#eee” bg_image=”” parallax=”true” bg_video=”” bg_video_poster=””]
In deze blogserie hoe verwijder je referral spam uit Google Analytics? zijn de volgende artikelen verschenen:
2. Ghost referrals verwijderen uit Google Analytics
3. ‘Enge’ crawlers zoals Semalt verwijderen uit Google Analytics
4. Bots en spiders die zich wel gedragen
5. Waarom bestaat spam referral en hoe doen ze het?
Deze serie artikelen is een vertaling van een blogpost van Mike Sullivan van Analytics Edge.
[/content_band]
[share title=”Interessant? Delen mag!” facebook=”true” twitter=”true” google_plus=”true” linkedin=”true” email=”true”]