Parser HTML
Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Introdução
Prérequisitos
Case para uso de um parser HTML
Começando a brincar Coleta de dados do IBGE
O que é um parser?
Iniciando a coleta
Primeiros passos Navegando nos links
Entendendo o que foi feito e usado
Urllib2
BeautifulSoap
Manipulando pagina HTML e pegando o resultado
Gravando dados em um arquivo CSV
Coleta e parser sistema Itaú Unibanco
Preparando para a coleta
Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Introdução De acordo com uma necessidade que eu tive, eu precisei estudar métodos para realizar uma consulta em uma pagina HTML e retornar valores contidos nela de forma automática para inserção em um banco de dados, preencher formulários online e até mesmo realizar trabalhos de web spider1 coletando conteúdos relacionados nas páginas. Nessas pesquisas e estudos eu acabei achando métodos para as linguagens JAVA, PERL, PYTHON e PHP.
Com elas eu consegui desenvolver e trabalhar as paginas HTML, eu vou mostrar aqui códigos de exemplos em Python para coletar conteúdos. Todos os exemplos descritos nesse paper são cases reais de uso, todos foram usados em alguma parte dos meus projetos.
Pré-requisitos Acredito que você que esteja lendo, já tenha um conhecimento de lógica de programação e já programa em alguma linguagem, caso contrário esse conteúdo pode ser um pouco confuso para você.
Todo o conteúdo foi feito utilizando o sistema operacional Debian 7, então utilizarei apenas o
Linux e não o Windows.
É preciso também um conhecimento básico em Python.
Case para uso de um parser HTML Como disse, vou basear esse paper em cases reais de uso, assim acho que o entendimento fica mais simplificado. Digamos que você precise saber alguns dados dos municípios do
Brasil para elaborar estratégias para