Com a mineração de dados, podemos buscar informações em páginas da web (html), arquivos em csv, pdf ou api.
No exemplo abaixo, destacamos a principal notícia de um jornal no dia da publicação deste post.
1 2 3 4 5 6 7 8 9 10 11 12 13 |
from urllib.error import HTTPError from urllib.error import URLError from bs4 import BeautifulSoup try: html = urlopen("https://www.um_jornal.com/") except HTTPError as e: print(e) except URLError as e: print('O servidor não foi encontrado!') else: bs = BeautifulSoup(html.read(), 'html.parser') print(bs.body.h3.a.getText()) |
Atenção:
Ao realizar mineração de dados, evite acessar um site muitas vezes em um curto período. Consultas excessivas podem sobrecarregar os servidores e levar ao bloqueio do seu acesso.
Observação:
Alterei a URL do jornal no código para preservá-lo.
Cada página tem um arquivo HTML que você deve interpretar de forma personalizada. Se quiser consultar uma página, estude sua estrutura e ajuste o código, especialmente a linha: print(bs.body.h3.a.getText()).
Recomendo começar com print(bs.body)
e usar o navegador para inspecionar a página. Compreendendo sua estrutura, você conseguirá extrair as informações desejadas.
Além disso, salve os dados coletados em um arquivo ou banco de dados para futuras análises.
Exemplos de aplicações:
Consultar Diários Oficiais seja em HML ou PDF para obter informações de licitações.
Leitura de dados em API´s para micro serviços.
Descobrir o preço de mercado atual de uma mercadoria ou serviço em uma região em sites de concorrrentes.
Fazer levantamentos de dados ciêntíficos para uma pesquisa.
Saber quais os melhores filmes e series do momento.
Obter informações sobre o que o público tem procurado mais em sites de busca, para emplacar no Google AdSense.
A mineração de dados veio para ficar e a informação é o ouro do momento !