Raspando a web com Java: parte 1
Web Scraping
Web scraping é uma técnica para busca e extração de dados de sites na Web para fins de análises ou operações automatizadas. Essa extração pode ser feita utilizando várias bibliotecas e linguagens de programação. Esses dados podem ser salvos em bancos de dados ou arquivos e depois processados para gerar informações úteis para um determinado objetivo, por exemplo: análise estatística, machine learning e criação de mecanismos de busca.
Repositório
Usarei o repositório romualdoandre/java-web-scraping para guardar o código fonte.
Dependências
- Eclipse IDE
- Maven (gerenciamento de dependências)
- Apache Commons CSV (manipulação de arquivo CSV)
- HtmlUnit (acesso aos dados dos sites)
Objetivo
Recuperar dados fundamentalistas de empresas do índice Ibovespa disponíveis no site Fundamentus e salvar em um arquivo CSV para posterior processamento e análise com o Orange Canvas.
Até a próxima parte.