Spam
LEIC - Projecto Final de Curso
António Serra, 2005
Agenda l O
Problema e Objectivos l Classificador de textos
– Classificador de SPAM
l Integração
com cliente de E-Mail l Resultados obtidos l Conclusões l Trabalho futuro
2
O Problema e Objectivos l Classificação automática de textos quanto a:
– – – –
Língua Autor Assunto E-Mail SPAM, Unsolicited Commercial Email
l
O SPAM é um caso particular da classificação de assunto Integração do classificador de SPAM com cliente de E-Mail (MSOutlook)
3
l
Introdução l As
soluções típicas de classificação de textos usam métodos
– Estatísticos (contagem de palavras, n-grama) – Probabilísticos (cadeia de Markov) – Neuronais (Redes MLP-MultiLayer Perceptron) – Bayesianos (Redes Bayesianas)
l Exigem
a definição de modelos a priori
– Estabelecimento de valores iniciais para os
parâmetros – Ajuste dos valores dos parâmetros
4
Abordagem à Classificação
A característica de classificação é a dimensão da representação com compressão l Estima-se a divergência de Kullback-Leibler entre textos l Utilização do método de compressão baseado no algoritmo da janela deslizante de Lempel e Ziv (LZ77) l Compressão do texto a classificar usando diferentes dicionários l Não exige a definição de modelos a priori l 5
Divergência de Kullback-Leibler l DKL(p||q)=∑ p(x)log x p(x) q(x)
l Medida
de semelhança utilizada l Tem as seguintes propriedades:
– É sempre positiva ou nula – É nula sse p(x)=q(x)
LA
DKL LB
6
Algoritmo Lempel e Ziv 1977 l Proposto
em 1977 l Método da sliding window
Look-Ahead Buffer
Dicionário data processing, the encountered strings of
LAB data display various
“data d”↔ (44, 5, ‘d’) rocessing, the encountered strings of data d isplay various structu
7
Aplicação à Classificação l l
Ai são textos conhecidos (as referências)