Den växande populariteten för generativ artificiell intelligens (AI) har skjutit i höjden efterfrågan på innehåll för att träna modeller. En av metoderna som används för att göra detta kallas webbskrapningdetta är, den automatiska utvinningen av information från webbplatser med hjälp av robotar. Enligt uppgifter från företaget Cloudflare, under det senaste året, bots av AI nådde nästan 40 % av de mest besökta webbsidorna som använder deras tjänster (av en miljon). Och endast 3 % av dessa vidtog åtgärder för att blockera dem.
Men även om vissa företag tydligt identifierar sina bots, inte alla är transparenta om det. Således bots av AI De har carte blanche för att extrahera innehåll från webbplatser utan tillstånd, lämnar egenföretagares och småföretagares sidor i en utsatt situation, förlorar en del av trafiken de tidigare haft på sina portaler och skapar dessutom tekniska problem.
Ett av de största problemen för webbplatsägare är att plattformarna som skapar dessa robotar, som ChatGPT, Gemini (Google) och Copilot (Microsoft) De nedvärderar dess innehåll. Dessa assistenter De använder själva innehållet för att generera sina svar, vilket minskar behovet för användare att komma åt originalkällorna. “Det vill säga, istället för att besöka en portal för att få information, kan användare helt enkelt be Google eller Bing att generera en sammanfattning av den information de behöver. Detta väcker ett första stort problem: förlust av webbtrafik”Javier Navarro Sánchez, teknisk chef för InnovAI Solutions, förklarade för denna tidning.
De bots av AI stjäl besök och devalverar innehållet på företagswebbsidor
Cloudflare har också identifierat bots av webbskrapning mer aktiv, som Bytespider. Drivs av ByteDance, moderbolaget till TikTok, används för att samla in träningsdata för sina språkmodeller, inklusive dess ChatGPT-konkurrent, Doubao. För sin del, Amazonbot och ClaudeBot används för att indexera innehåll för Alexa och träna chatbot Claude, respektive, och det är de också bland de mest aktiva när det gäller antalet förfrågningar.
Men det kanske största problemet av alla är att, trots att dessa finns bots, De flesta småföretag med en webbplats är inte medvetna om sin aktivitet och vilken inverkan de har.
I början av Internet var det enda sättet att söka efter data och samla in information att göra det manuellt genom att surfa på webbsidor. Denna metod var, förutom att den var mödosam, benägen att göra fel. I takt med att internet växte växte automatiseringen också, och därmed den första bots av webbskrapningvilket förenklade denna uppgift. Med tekniska framsteg har dessa robotar utvecklats till sofistikerade verktyg, drivna av AI.
Huvudfunktionen hos dessa system är att tillåta företag att samla in och analysera stora datamängder effektivt, vara avgörande för uppgifter som marknadsanalys och forskning. Faktum är att vi inte skulle ha Google utan dem. Dessutom förbättrar det tidigare nämnda dramatiskt effektiviteten vid konvertering av ostrukturerad data till användbara format; det vill säga omvandla rådata till användbar information för annan användning.
Men för frilansare och småföretag representerar denna utveckling också ett antal betydande risker. ”Vi har redan nämnt två, påverkan på webbtrafiken, vilket leder till färre besök; och devalveringen av innehållet där ägarna av sidorna ”De har lagt ner sina ansträngningar på att skapa, vilket också påverkar deras rykte och auktoritet online”, rekapitulerade Javier Navarro Sánchez. Till vilket denna expert tillägger följande:
- Resursförbrukning. Varje gång en sida öppnas förbrukas värdbandbredd. De bots AI, genom att i stor utsträckning genomsöka en webbplats, kan tömma dessa resurser, vilket kan leda till långsammare laddningstider för legitima besökare och ökade driftskostnader för dess ägare.
- Juridiska och etiska problem. Att samla in data utan vederbörligt samtycke kan göra intrång i immateriella rättigheter och bryta mot webbplatsernas användarvillkor. Dessutom finns det allvarliga etiska överväganden när skrapning involverar personuppgifter.
Hur kan småföretag blockera bots av AI på dina webbsidor?
För egenföretagare och småföretagare som inte vill bots av AI för att använda ditt webbinnehåll, det vanligaste sättet att prova detta är genom filen ’robots.txt’. Det är en enkel textfil, som ligger på samma server som en sida, som låter dig ange vilka delar av en portal som kan genomsökas av användare. bots.
Detta kan erbjuda en första försvarslinje, men det är inte idiotsäkert av flera skäl. För det första, det är nödvändigt att identifiera och namnge var och en bot som du vill blockera. Och med spridningen av bots av AI på marknaden, detta Det blir en nästan omöjlig uppgift att hantera. ”Förutom, inte alla är kända; Google själv är till exempel väldigt förtegen om träningsdatan man använder”, enligt experten.
För det andra är instruktionerna som kan läggas till i filen ’robots.txt’ inte obligatoriska. Även om många bots, som Common Crawl och ChatGPT, respekterar deras riktlinjer, det finns många andra som inte gör det. ”Faktiskt, Ett ytterligare problem är att vissa bots De är skapade för att försöka efterlikna riktiga webbläsare – något känt som spoofing–, så de skulle också hoppa över upptäckt, säger Javier Navarro Sánchez.
Det finns dock andra metoder tillgängliga, till exempel:
- Använder filen ’.htaccess’. De bots De kan blockeras med den här filen på liknande sätt som ’robots.txt’, men i det här fallet är åtkomst förbjuden, baserat på rubrikerna, det vill säga hur den identifieras. Men som med den, är den bara effektiv om du vet det exakta namnet på den bot.
- Web Application Firewall (WAF). Installera en brandvägg låter dig filtrera webbportaltrafik och kan konfigureras för att blockera förfrågningar om botsspecifika IP-adresser eller baserat på ditt beteende när du surfar på webbplatsen.
- Användning av captchas. Att lägga till de välkända autentiseringsutmaningarna när man kommer åt en sida kan avskräcka användare. bots automatiserad. Även om det kan skada legitima användare.
- Lösenordsskydd. Ett steg längre skulle vara att kräva användarregistrering för att komma åt en webbplats. Uppenbarligen är detta inte möjligt eller lämpligt för alla sidor, och kanske inte ens är en idiotsäker lösning, beroende på hur det implementeras.
Det kan tyckas vara en förlorad kamp, men det är också ett område som utvecklas snabbt. Faktiskt, Cloudflare själv erbjuder ett verktyg för att utföra denna blockering av bots automatiskt för dina kunder, även med gratiskonton.