Mineração de dados – Verificando o Status HTTP dos links do meu site

Automação com Selenium e HTTP Status:

Verificar Links de uma Página

O Google Adsense recomenda a inclusão de links externos e internos. Criar links é simples, mas precisamos verificar periodicamente se eles estão ativos.

Além disso, automatizar tarefas repetitivas otimiza processos e economiza tempo. O código apresentado acessa páginas da web, coleta links e verifica seus status HTTP. Dessa forma, ele identifica links quebrados e valida a saúde de um site de maneira eficiente.

Primeiramente, usamos o Selenium, para acessar as páginas e extrai os links disponíveis, configuramos o Selenium no modo headless, permitindo sua execução em segundo plano.

Em seguida, a função check_link_status avalia o status de cada link com a biblioteca requests. Por meio de uma requisição HTTP do tipo HEAD, ela retorna códigos como 200 (OK) ou 404 (Não Encontrado). Quando ocorre um erro, a função trata a exceção e registra o problema para análise posterior.

Depois de coletar e verificar os links, o código gera um arquivo HTML que exibe os links, seus status e uma imagem representativa do serviço HTTP Cats. Por exemplo, um link com status 200 mostra a imagem correspondente de um gato para esse código.

Além de ser modular, o código permite ajustes e extensões com facilidade. Por isso, você pode adaptá-lo para rastrear várias páginas ou incluir novos indicadores de qualidade dos links. Essa abordagem reduz erros humanos e melhora significativamente a eficiência da análise.

Por fim, automatizar esse processo é essencial em projetos de grande escala. Em vez de realizar uma tarefa tediosa manualmente, ferramentas como Selenium e requests tornam a verificação de links rápida e prática. Assim, desenvolvedores e administradores de sites podem focar em tarefas mais estratégicas.

Adicione as URLs desejadas na lista pages no código abaixo e execute o script. O arquivo links_status.html gerado apresentará os resultados de maneira clara e visual.

Deixe um comentário