Percepção visual
O reconhecimento percetual dos objetos é descrito como um processo no qual a entrada da imagem é segmentada em regiões de concavidade profunda e arrumada em simples componentes geométricos como blocos, cilindros, cones. Biederman propõe que todos os objetos podem ser reduzidos, na sua estrutura mais básica, a uma composição de formas primitivas tridimensionais as quais designou por geons. Como estes geons são simples e invariantes quanto à sua orientação (parecem sempre iguais em qualquer ângulo de visualização), são de fácil discriminação, resistem bem à poluição visual, os objetos podem ser facilmente reconhecidos em qualquer posição e mesmo quando estão parcialmente degradados ou ocultos. Para ser possível o reconhecimento de um objecto, segmentamo-lo em componentes mais simples (como cones, cilindros, blocos) sendo que esta segmentação não depende da familiaridade com o objeto.
Analogia entre discurso e perceção visual
O número de categorias em que podemos classificar objetos parece ser igual ao número de palavras que podem ser facilmente identificadas quando as ouvimos. O processo usado na perceção da fala é um processo mediado pela identificação de fonemas: o elemento sonoro capaz de estabelecer uma distinção de significado entre as palavras. Nós temos um sistema aproximadamente semelhante ao da fala que é responsável pelas nossas capacidades de reconhecimento de objetos. No entanto, no domínio visual, os elementos primitivos não seriam fonemas, mas sim um número modesto simples de componentes geométricos, geralmente, extremamente arredondados e volumétricos. Porém, há uma restrição no domínio da fala, visto que esta tem que ser sequencial (da esquerda para direita). Já no domínio visual, é permitido uma capacidade muito maior de representação.
Categorização inicial de objectos isolados
Ao nível da categorização inicial de objetos isolados, esta classificação frequentemente é realizada num nível básico,