Parser HTML

5169 palavras 21 páginas
Parser HTML <Titulo Provisório>

Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Introdução
Pré­requisitos
Case para uso de um parser HTML
Começando a brincar ­ Coleta de dados do IBGE
O que é um parser?
Iniciando a coleta
Primeiros passos ­ Navegando nos links
Entendendo o que foi feito e usado
Urllib2
BeautifulSoap
Manipulando pagina HTML e pegando o resultado
Gravando dados em um arquivo CSV
Coleta e parser sistema Itaú Unibanco
Preparando para a coleta

Danilo Vaz
São Paulo, 05/01/2015 http://unknownsec.wordpress.com Introdução De acordo com uma necessidade que eu tive, eu precisei estudar métodos para realizar uma consulta em uma pagina HTML e retornar valores contidos nela de forma automática para inserção em um banco de dados, preencher formulários online e até mesmo realizar trabalhos de web spider1 coletando conteúdos relacionados nas páginas. Nessas pesquisas e estudos eu acabei achando métodos para as linguagens JAVA, PERL, PYTHON e PHP.
Com elas eu consegui desenvolver e trabalhar as paginas HTML, eu vou mostrar aqui códigos de exemplos em Python para coletar conteúdos. Todos os exemplos descritos nesse paper são cases reais de uso, todos foram usados em alguma parte dos meus projetos.

Pré-requisitos Acredito que você que esteja lendo, já tenha um conhecimento de lógica de programação e já programa em alguma linguagem, caso contrário esse conteúdo pode ser um pouco confuso para você.
Todo o conteúdo foi feito utilizando o sistema operacional Debian 7, então utilizarei apenas o
Linux e não o Windows.
É preciso também um conhecimento básico em Python.

Case para uso de um parser HTML Como disse, vou basear esse paper em cases reais de uso, assim acho que o entendimento fica mais simplificado. Digamos que você precise saber alguns dados dos municípios do
Brasil para elaborar estratégias para

Relacionados

  • Xml praticas
    3045 palavras | 13 páginas
  • Atps linguagem para organização e transferência de dados para web
    3496 palavras | 14 páginas
  • Comunicação xml com java
    4034 palavras | 17 páginas
  • JavaCC Tutorial
    639 palavras | 3 páginas
  • menina do vale
    4000 palavras | 16 páginas
  • Compiladores
    946 palavras | 4 páginas
  • trabalho compiladores luciane unirp
    865 palavras | 4 páginas
  • Linguagem de Marcação de Dados
    2240 palavras | 9 páginas
  • Trabalho sobre w3c
    6701 palavras | 27 páginas
  • CAPA PROJE O PHP
    1735 palavras | 7 páginas