BIBLIOTECA 113 RT 304
Universidade Federal de São Carlos - UFSCar
Universidade Estadual Paulista - UNESP
Sumarização Automática de Textos
Científicos: Estudo de Caso com o
Sistema GistSumm
Pedro Paulo Balage Filho
Thiago Alexandre Salgueiro Pardo
Maria das Graças Volpe Nunes
NILC-TR-07-11
Agosto, 2007
Série de Relatórios do Núcleo Interinstitucional de Lingüística Computacional
NILC - ICMC-USP, Caixa Postal 668, 13560-970 São Carlos, SP, Brasil
Resumo
Apresenta-se, neste relatório, a descrição das atividades realizadas no âmbito de iniciação científica em relação ao estudo e aprimoramento do sistema GistSumm – GIST SUMMarizer, um sumarizador automático de textos. Tais atividades consistiram de um estudo e adaptações promovidas no sistema, visando seu aprimoramento, avaliação das melhorias propostas e análise dos resultados, além de uma participação experimental no CLEF 2006 - Cross-Language
Evaluation Forum – que é uma competição internacional de sistemas de perguntas e respostas. A principal adaptação promovida no sistema é o tratamento da estrutura textual durante a sumarização promovendo sumários de melhor qualidade, o que pôde ser comprovado através de avaliações subjetivas e automáticas do sistema aplicado a textos científicos.
2
ÍNDICE
1. INTRODUÇÃO ........................................................................................................................ 4
2. A SUMARIZAÇÃO NO GISTSUMM .................................................................................... 5
3. AVALIAÇÃO DO MÉTODO DE SUMARIZAÇÃO DO GISTSUMM ................................ 6
3.1.
TEXTOS ESTRUTURADOS .............................................................................................................................. 7
4. APRIMORAMENTO DO GISTSUMM .................................................................................. 9
4.1.
4.2.
TRATAMENTO DA ESTRUTURA TEXTUAL