Mineração de dados – Verificando o Status HTTP dos links do meu site

Link

Automação com Selenium e HTTP Status:

Verificar Links de uma Página

O Google Adsense recomenda a inclusão de links externos e internos. Criar links é simples, mas precisamos verificar periodicamente se eles estão ativos.

Além disso, automatizar tarefas repetitivas otimiza processos e economiza tempo. O código apresentado acessa páginas da web, coleta links e verifica seus status HTTP. Dessa forma, ele identifica links quebrados e valida a saúde de um site de maneira eficiente.

Primeiramente, usamos o Selenium, para acessar as páginas e extrai os links disponíveis, configuramos o Selenium no modo headless, permitindo sua execução em segundo plano.

Em seguida, a função check_link_status avalia o status de cada link com a biblioteca requests. Por meio de uma requisição HTTP do tipo HEAD, ela retorna códigos como 200 (OK) ou 404 (Não Encontrado). Quando ocorre um erro, a função trata a exceção e registra o problema para análise posterior.

Depois de coletar e verificar os links, o código gera um arquivo HTML que exibe os links, seus status e uma imagem representativa do serviço HTTP Cats. Por exemplo, um link com status 200 mostra a imagem correspondente de um gato para esse código.

Além de ser modular, o código permite ajustes e extensões com facilidade. Por isso, você pode adaptá-lo para rastrear várias páginas ou incluir novos indicadores de qualidade dos links. Essa abordagem reduz erros humanos e melhora significativamente a eficiência da análise.

Por fim, automatizar esse processo é essencial em projetos de grande escala. Em vez de realizar uma tarefa tediosa manualmente, ferramentas como Selenium e requests tornam a verificação de links rápida e prática. Assim, desenvolvedores e administradores de sites podem focar em tarefas mais estratégicas.

Adicione as URLs desejadas na lista pages no código abaixo e execute o script. O arquivo links_status.html gerado apresentará os resultados de maneira clara e visual.

Mineração de Dados

Mineração

Com a mineração de dados, podemos buscar informações que estejam públicas na web, seja em html, arquivos em diversas extensões ou api.
No exemplo abaixo, destacamos a principal notícia de um jornal fictício.

Atenção:

Ao realizar mineração de dados, nunca acesse um site muitas vezes em um curto período ou em horário de pico, isso poderá ter implicações legais e você será bloqueado.

Use seu bom senso e finalidades legítimas como pesquisas ciêntíficas, estudo, etc.

Observação:

A URL apresentada no exemplo é fictícia.

Cada página tem um arquivo HTML que você deve interpretar de forma personalizada.

Se quiser consultar uma página, estude sua estrutura, recomendo que comece com print(bs.body) e use o navegador para inspecionar a página. Compreendendo sua estrutura, você conseguirá extrair as informações desejadas.

Além disso, salve os dados coletados em um arquivo ou banco de dados para futuras análises.

Exemplos de aplicações:

Consultar Diários Oficiais seja em HML ou PDF para obter informações de licitações.

Leitura de dados em API´s para micro serviços.

Descobrir o preço de mercado atual de uma mercadoria ou serviço em uma região.

Fazer levantamentos de dados científicos para uma pesquisa.

Saber quais os melhores filmes e series do momento.

Obter informações sobre o que o público tem procurado mais em sites de busca.

A mineração de dados veio para ficar e a informação é o ouro do momento !

Análise de dados

A análise de dados é o próximo passo após a obtenção dos dados brutos.

Tendo em vista que a mineração de dados pode vir de diversas fontes de dados, seja da web, de imagens, vídeo, áudio e de arquivos em outras extensões, precisamos ter um método específico para tratamento dos dados a fim de transformar dados de um BigData em informação relevante e segura.