Medida de Certeza na Categorização de Texto
Neste capítulo, apresentamos três métodos de poda de ranking de categorias comumente usados na literatura de RI [Yang01, Lee02, Fan07]: (i) RCut, baseada na posição das categorias no ranking; (ii) PCut, baseada na popularidade das categorias no conjunto de treinamento; (iii) SCut, baseada no grau de crença com que o sistema atribui as categorias aos documentos; e (iv) uma variante de RCut - RTCut [Yang01]. Além disso, propomos novas variantes para PCut e SCut – PCut* e SCut*, respectivamente – para tratar problemas existentes nestas abordagens.
3.1 Estratégia RCut
A estratégia de poda RCut [Yang01], baseada na posição das categorias no ranking (ranking based), para cada documento de teste dj, ordena as categorias por grau de crença e atribui as t categorias a partir do topo do ranking para dj. O valor do parâmetro t (um número inteiro entre 1 e ) pode ser especificado pelo usuário ou automaticamente ajustado para otimizar o desempenho “global” do categorizador em um conjunto de calibração (o valor de t é automaticamente ajustado ao variá-lo até que o desempenho global do categorizador seja otimizado para o conjunto de validação). RCut com t = 1 é comumente usada pela comunidade de aprendizado de máquina em problemas uni-rótulo, nos quais um documento tem uma única categoria [Joachims98].
A Tabela 3 1 apresenta um exemplo de poda de ranking de categorias utilizando a estratégia RCut. Na Tabela 3 1, a coluna “Posição” indica a posição das categorias no ranking retornado pelo categorizador VG-RAM WNN-COR para um dado documento de teste di; a coluna “Categorias preditas a di” mostra os identificadores das categorias no ranking retornado pelo categorizador para di; a coluna “Graus de crença para di” mostra os graus de crença com que o categorizador atribuiu as categorias a di; e a coluna “Categorias pertinentes a di” mostra a lista de categorias de fato pertinentes a di. As colunas 5, 6, e 7 são análogas às colunas 2,