19 dezembro 2006

Site mostra as palavras mais usadas da língua portuguesa

Por Carlos Kauffmann
em Folha de S. Paulo
6 dezembro 2006

O Corpus do Português, site aberto no início de novembro, oferece um meio inédito de esquadrinhar a língua portuguesa. Ele funciona como um "quem é quem" do idioma mostrando a popularidade de palavras ou de frases buscadas entre milhares de textos.

Esse grande arquivo forma o corpus da língua, que representa as diversas variedades lingüísticas do português. O corpus reúne mais de 50 mil textos, de diversas fontes (entre elas, a Folha), somando 45 milhões de palavras.

Há quatro registros principais: jornalístico, acadêmico, falado e de ficção. O site permite fazer comparações de várias naturezas, como ver a freqüência de palavras e de frases análogas nos diferentes registros, constatar diferenças de uso da língua entre o português europeu e o brasileiro e verificar a evolução do idioma, do século 14 ao século 20. Oferece ainda o recurso da visualização do entorno textual da palavra ou da frase buscada.

JANELAS

A página principal é dividida em janelas. Na da esquerda, ficam vários campos para busca, que podem ser de palavras, de frases ou de categorias gramaticais, como verbos, substantivos e adjetivos. A resposta da busca é apresentada à direita, com a respectiva contagem de freqüência. Clicando nos resultados, aparecem abaixo os trechos onde ocorrem a palavra ou a expressão buscada.

O site foi desenvolvido por dois pesquisadores norte-americanos, Mark Davies, da Universidade Brigham Young (Utah, EUA), e Michael Ferreira, da Universidade de Georgetown (Distrito de Columbia, EUA). O acesso é livre e gratuito. Depois de algumas consultas, é solicitado um registro simples (nome e e-mail). A utilidade dessa ferramenta de busca do idioma é múltipla: para os estudantes, é uma chance de ver a língua exemplificada pelo uso real; para os lingüistas, renova a descrição da linguagem e possibilita a criação de melhores dicionários e gramáticas; para os escritores, cria alternativas estilísticas inovadoras e amplia os horizontes da criação literária.

Outras iniciativas que visam englobar o corpus da língua portuguesa: Projeto Linguateca e Banco de Português.