veja um exemplo simples de uma mineração de dados

Com a mineração de dados, podemos buscar informações que estejam públicas na web, seja em html, arquivos em diversas extensões ou api.
No exemplo abaixo, destacamos a principal notícia de um jornal fictício.

from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup

try:
    html = urlopen("https://www.um_jornal.com/")
except HTTPError as e:
    print(e)
except URLError as e:
    print('O servidor não foi encontrado!')
else:
    bs = BeautifulSoup(html.read(), 'html.parser')
    print(bs.body.h3.a.getText())

from urllib.error import HTTPError

from urllib.error import URLError

from bs4 import BeautifulSoup

try:

html = urlopen("https://www.um_jornal.com/")

except HTTPError as e:

print(e)

except URLError as e:

print('O servidor não foi encontrado!')

else:

bs = BeautifulSoup(html.read(), 'html.parser')

print(bs.body.h3.a.getText())

Atenção:

Ao realizar mineração de dados, nunca acesse um site muitas vezes em um curto período ou em horário de pico, isso poderá ter implicações legais e você será bloqueado.

Use seu bom senso e finalidades legítimas como pesquisas ciêntíficas, estudo, etc.

Observação:

A URL apresentada no exemplo é fictícia.

Cada página tem um arquivo HTML que você deve interpretar de forma personalizada.

Se quiser consultar uma página, estude sua estrutura, recomendo que comece com print(bs.body) e use o navegador para inspecionar a página. Compreendendo sua estrutura, você conseguirá extrair as informações desejadas.

Além disso, salve os dados coletados em um arquivo ou banco de dados para futuras análises.

Exemplos de aplicações:

Consultar Diários Oficiais seja em HML ou PDF para obter informações de licitações.

Leitura de dados em API´s para micro serviços.

Descobrir o preço de mercado atual de uma mercadoria ou serviço em uma região.

Fazer levantamentos de dados científicos para uma pesquisa.

Saber quais os melhores filmes e series do momento.

Obter informações sobre o que o público tem procurado mais em sites de busca.

A mineração de dados veio para ficar e a informação é o ouro do momento !

Análise de dados

A análise de dados é o próximo passo após a obtenção dos dados brutos.

Tendo em vista que a mineração de dados pode vir de diversas fontes de dados, seja da web, de imagens, vídeo, áudio e de arquivos em outras extensões, precisamos ter um método específico para tratamento dos dados a fim de transformar dados de um BigData em informação relevante e segura.

Referências:

Documentação Beautiful Soup

Livros sobre web scraping da Amazon

Interno:

Área de Convivência

Mineração de Dados

Atenção:

Observação:

Exemplos de aplicações:

Análise de dados

Deixe um comentário Cancelar resposta