C-ORal Brasil
Os corpora orais e o c-oral-brasil
Heliana Mello
1. Introdução
A Linguística de Corpus,1 como área disciplinar que explora corpora computadorizados, embora ainda tímida, tem gradativamente crescido no
Brasil nas duas últimas décadas. Apesar de a tradição de estudos linguísticos baseada em dados reais da língua em uso ser muito mais antiga no país, por exemplo, nos estudos da Sociolinguística Variacionista (cf. Braga, 1977;
Scherre, 1978),2 e de muitos pesquisadores se referirem a seus bancos de dados não computadorizados como corpora, a compilação e disponibilização de corpora eletrônicos, sejam escritos ou orais, de fato existe no país há pouco tempo, certamente não o tempo suficiente para conferir aos linguistas brasileiros um número suficiente de recursos para que se possam efetivamente desenvolver estudos nos patamares daqueles que já vêm sendo desenvolvidos, principalmente na Inglaterra e nos países escandinavos, nos últimos 40 anos.3 Nesses países, por exemplo, já há mais de três décadas vêm sendo publicados dicionários e gramáticas inteiramente produzidos a partir de grandes corpora de referência.
1
Para um histórico completo da área, metodologias, assim como os seus subcampos de estudo, vejam-se Lüdeling; Kytö (2008, 2009) e referências seminais lá mencionadas.
Cf. Hundt (2008), para uma discussão sobre as diferenças entre bancos de dados e corpora.
2
Cf. “Histórico da Linguística de Corpus” (Berber Sardinha, 2004).
3
31
Desnecessário seria discutirmos as enormes vantagens oferecidas pelos corpora eletrônicos em relação às compilações de dados não eletrônicas que povoam os estudos linguísticos. O acesso público a dados linguísticos altamente sistematizados e computadorizados, assim como às ferramentas computacionais e estatísticas disponíveis para o seu tratamento, tornam hipóteses sobre a língua passíveis de testagem efetiva e redefinição, com altos níveis de representatividade e