
Resumo
- O tráfego automatizado de robôs no Wikimedia Commons, responsável pela Wikipedia, aumentou 50% desde janeiro de 2024, o que causou um custo operacional lento e mais alto.
- A Wikimedia Foundation visa exigir autenticação para reduzir o tráfego automatizado em 20% e 30% de largura de banda.
- Empresas como o CloudFlare desenvolvem estratégias para bloquear bots, incluindo a criação de “Labyrs of AI”.
A Wikimedia Foundation, responsável pela Wikipedia e outros projetos de colaboração, revelou que o uso da banda da Wikimedia Commons aumentou por 50% desde janeiro de 2024. Os principais líderes disso são robôs que baixam fotos e vídeos para treinar sistemas de inteligência artificial.
Outros números demonstram a grande quantidade de sucessos automatizados. A fundação estabelece que os robôs fizeram 65% do tráfego intensivo de dados, mas apenas 35% do acesso às páginas vêm dessas ferramentas.
Qual é o problema dos robôs para acessar a Wikipedia?
O acesso maciço a robôs à coleção da Wikimedia Commons causou leitores lentos da Wikipedia e custos mais altos para a organização.
A Declaração da Fundação Wikimedia oferece um exemplo: em dezembro de 2024, quando o ex -presidente dos Estados Unidos, Jimmy Carter, morreu, alguns usuários concordaram com um vídeo de um e meio, com um debate entre Carter e o ex -presidente Ronald Reagan.
Em condições normais, isso não seria um problema, pois é possível alterar as conexões. Mesmo assim, a enciclopédia on -line sofreu lentamente, pois seus sistemas estão sendo constantemente usados pelos robôs e é difícil gerenciar esse uso.
Além de danificar a experiência, os raspadores de conteúdo também aumentam os custos da operação. A organização explica que os leitores humanos tendem a visitar algumas páginas com frequência, dependendo das evidências.
Essas páginas mais populares são armazenadas em cache, enquanto o conteúdo de baixo acesso é armazenado em data centers. Os bots, no entanto, acessam todo o conteúdo da mesma forma e as solicitações encaminhadas, os centros de data usam uma quantidade maior de recursos.
A Fundação Responsável da Wikipedia está estudando maneiras sustentáveis para desenvolvedores e robôs acessarem o conteúdo de suas plataformas.
Para isso, a organização deseja aumentar a identificação do tráfego automatizado, que requer autenticação e autorização para acessar um grande volume de dados. O objetivo é reduzir o tráfego de robôs em 20% de volume de aplicativos e 30% de largura de banda.
Como a Wikimedia Foundation faz questão de dizer em sua declaração: “Nosso conteúdo é gratuito, mas nossa infraestrutura não é”.
A Wikipedia não é a única que tem dificuldades com esse problema. Os desenvolvedores relatam que usaram robôs para treinar estão “mentindo” para acessar o conteúdo. Entre as táticas, eles estão usando IP residencial e alteram o agente.
Para lidar com o problema, a CloudFlare, uma empresa especializada em serviços de Internet, criou um “labirinto de IA”. Quando um robô não respeita as diretrizes, a ferramenta entra em ação e, ironicamente, a usa para gerar conteúdo falso. Portanto, o bot perde tempo e recursos, incapaz de alcançar um conteúdo verdadeiro.
Com informações da Wikimedia, TechCrunch e Engadget Foundation