Com a mineração de dados, podemos buscar informações que estejam públicas na web, seja em html, arquivos em diversas extensões ou api.
No exemplo abaixo, destacamos a principal notícia de um jornal fictício.
1 2 3 4 5 6 7 8 9 10 11 12 13 |
from urllib.error import HTTPError from urllib.error import URLError from bs4 import BeautifulSoup try: html = urlopen("https://www.um_jornal.com/") except HTTPError as e: print(e) except URLError as e: print('O servidor não foi encontrado!') else: bs = BeautifulSoup(html.read(), 'html.parser') print(bs.body.h3.a.getText()) |
Atenção:
Ao realizar mineração de dados, nunca acesse um site muitas vezes em um curto período ou em horário de pico, isso poderá ter implicações legais e você será bloqueado.
Use seu bom senso e finalidades legítimas como pesquisas ciêntíficas, estudo, etc.
Observação:
A URL apresentada no exemplo é fictícia.
Cada página tem um arquivo HTML que você deve interpretar de forma personalizada.
Se quiser consultar uma página, estude sua estrutura, recomendo que comece com print(bs.body)
e use o navegador para inspecionar a página. Compreendendo sua estrutura, você conseguirá extrair as informações desejadas.
Além disso, salve os dados coletados em um arquivo ou banco de dados para futuras análises.
Exemplos de aplicações:
Consultar Diários Oficiais seja em HML ou PDF para obter informações de licitações.
Leitura de dados em API´s para micro serviços.
Descobrir o preço de mercado atual de uma mercadoria ou serviço em uma região.
Fazer levantamentos de dados científicos para uma pesquisa.
Saber quais os melhores filmes e series do momento.
Obter informações sobre o que o público tem procurado mais em sites de busca.
A mineração de dados veio para ficar e a informação é o ouro do momento !
Análise de dados
A análise de dados é o próximo passo após a obtenção dos dados brutos.
Tendo em vista que a mineração de dados pode vir de diversas fontes de dados, seja da web, de imagens, vídeo, áudio e de arquivos em outras extensões, precisamos ter um método específico para tratamento dos dados a fim de transformar dados de um BigData em informação relevante e segura.