13º Congresso Brasileiro de Língua Portuguesa do IP/PUC-SP

O CORPUS BRASILEIRO
Tony Berber Sardinha (PUCSP); José Lopes Moreira Filho (SEE-SP) não participará; Eliane Alambert (COGEAE) não participará

O objetivo deste trabalho é apresentar o Corpus Brasileiro, um corpus eletrônico contendo um bilhão de palavras, financiado pela FAPESP e mantido na PUCSP no endereço http://corpusbrasileiro.pucsp.br. Na Linguística de Corpus, um corpus é entendido como uma coletânea específica de textos (falados e escritos) armazenada em computador. Sua extensão é a maior entre os corpora de português existentes no mundo e a segunda maior entre os de qualquer idioma. Com mais de uma dezena de subcorpora, cada um voltado a um gênero e/ou registro da língua, o corpus busca representar a amplitude e variação da língua portuguesa falada e escrita usada atualmente no país. Na apresentação, demonstraremos como os usuários podem fazer buscas no corpus. Pretendemos realçar a relevância do desenvolvimento de recursos públicos e gratuitos aos usuários na pesquisa da língua portuguesa e também a necessidade de que tais recursos sejam acessíveis a uma ampla gama de usuários. Buscamos atingir tal meta tornando o sistema de buscas do corpus o mais simples e poderoso possível, para que tanto pesquisadores de linguística ou língua portuguesa, professores e alunos do ensino médio possam utilizá-lo, além de profissionais de áreas afins. Do ponto de vista técnico, o desenvolvimento do corpus teve de superar obstáculos a fim de viabilizar buscas rápidas em tamanha quantidade de dados. Criamos soluções de armazenamento de dados que permitem buscas eficientes (de poucos segundos) no corpus inteiro. O corpus foi inteiramente etiquetado com classes morfossintáticas (por exemplo substantivo, verbo, adjetivo, etc.), que podem ser usadas nas buscas.