YOLO
Para tentar medir as palavras mais frequentes utilizarei livros em formato electrónico em inglês.
A questão que se coloca é: Será que os livros escolhidos são os mais representativos no que se refere à linguagem correntemente utilizada?
De qualquer forma, para termos uma ideia das palavras mais utilizadas utilizarei os dez livros mais descarregados nos últimos 30 dias (11/7 a 11/8 de 2010) do site www.gutenberg.org
The Kama Sutra of Vatsyayana by Vatsyayana (25729)
The Adventures of Sherlock Holmes by Sir Arthur Conan Doyle (18491)
Pride and Prejudice by Jane Austen (14551)
How to Analyze People on Sight by Elsie Lincoln Benedict and Ralph Paine Benedict (12694)
The Art of War by Sunzi 6th cent. B.C. (11743)
The Notebooks of Leonardo Da Vinci — Complete by Leonardo da Vinci (11664)
Calculus Made Easy by Silvanus Phillips Thompson (11566)
Alice's Adventures in Wonderland by Lewis Carroll (11366)
Ulysses by James Joyce (11119)
Adventures of Huckleberry Finn by Mark Twain (9788)
History of Egypt, Chaldæa, Syria, Babylonia, and Assyria, Volume 9 (of 12) by G. Maspero (9541)
Substitui o livro 7 pelo 11, porque é um livro de matemática, o qual apresenta bastantes fórmulas e está no formato pdf.
Aplicação que permite calcular as palavras mais frequentes
A utilização básica deste programa pode ser explicada em três passos : 1º seleccionar os ficheiros a analisar, 2º clicar em SPLIT e esperar que essa operação esteja concluída, 3º clicar no botão inferior esquerdo "CHECK THE MOST COMMON ... WORD" e desta forma obtemos o nº de palavras mais frequentes pretendidas.
Na tabela (abaixo) estão representadas as 250 palavras mais frequentes em inglês