PROGRAMA R
Ponto 1
Para colocar os dados disponibilizados na plataforma e-learning num data frame do R.
c5.mushrooms
Ponto 2:
Este conjunto de dados inclui as descrições de amostras correspondentes a 23 espécies de cogumelos da familia Agaricus e Lepiota. Cada espécie é identificada como comestível, venenosa, ou de comestibilidade desconhecida e, portanto, não é recomendada.
Nos dados fornecidos pelo UCI Repository são identificadas as variáveis, dizendo o que corresponde cada letra de cada coluna, enquanto que no e-learning só nos são dadas as 1ªas letras.
Por exemplo, no UCI Repository aparece:
1. cap-forma sino = b, cônico = c, convexo = x, flat = f, knobbed = k, afundado = s
Ponto 4:
Como nos deparamos com um problema de classificação. A decisão é categórica, isto é, escolhemos uma de um conjunto finito de hipóteses.
Não conhecemos o modelo de decisão, então estamos a prever qual a decisão do decisor que toma as decisões passadas.
Um modelo de decisão é construído através da análise dos dados (data mining). Este consegue, com uma certa percentagem de erro, classificar um novo caso. Ou seja, determina o valor do atributo CLASS em função dos outros atributos (cap_shape,cap_surface,cap_color,bruises,odor,gill_attachment,gill_spacing,gill_size,gill_color,stalk_shape,stalk_root,stalk_surface_above_ring,stalk_surface_below_ring,stalk_color_above_ring,stalk_color_below_ring,veil_type,veil_color,ring_number,ring_type,spore_print_color,population,habitat).
Assim, para obter uma ávore de decisão com os dados de um data frame:
> library(rpart)
> arvore arvore n= 8124 node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 8124 4596 n (0.049 0.024 0.27 0.049 0.0044 0.43 0.032 0.071 0.071) 2) CLASS=p 3916 1756 f (0 0.049 0.55 0 0.0092 0.031 0.065 0.15 0.15) 4) spore_print_color=h 1584 0 f (0 0 1 0 0 0 0 0 0) * 5) spore_print_color=k,n,r,w 2332 1756 f (0 0.082 0.25 0 0.015 0.051 0.11 0.25