Linguística de Corpus, Léxico-Estatística Textual e Processamento de Linguagem Natural: perspectiva para estudos de vocabulário em produções textuais

Autores

  • Aline Evers UFRGS
  • Maria José Bocorny Finatto UFRGS

DOI:

https://doi.org/10.14393/Lex2-v1n2a2016-3

Palavras-chave:

Linguística de Corpus, Léxico-estatística textual, Português como língua adicional

Resumo

Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras - um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.

Downloads

Não há dados estatísticos.

Referências

BERBER SARDINHA, T. Linguística de Corpus: histórico e problemática. DELTA, São Paulo, v. 16, n. 2, p. 323-367, 2000. http://dx.doi.org/10.1590/s0102-44502000000200005

BERBER SARDINHA, T. Linguística de corpus. São Paulo: Manole, 2004.

BIBER, D. Variation Across Speech and Writing. Cambridge: Cambridge University Press, 1988. http://dx.doi.org/10.1017/CBO9780511621024

BIDERMAN, M. T. C. Léxico e Vocabulário Fundamental. Alfa, São Paulo, v. 40, p. 27-46, 1996.

BIDERMAN, M. T. C. Teoria Linguística: Linguística Quantitativa e Computacional. Rio de Janeiro: Livros Técnicos e Científicos, 1978.

BIDERMAN, M. T. C. Estatística linguística. Alfa, São Paulo, v. 11, p. 117-128, 1967.

CROSSLEY, S.; MCNAMARA, D. Predicting second language writing proficiency: the roles of cohesion and linguistic sophistication. Journal of Research in Reading, v. 35, n. 2, p. 115-135, 2012. http://dx.doi.org/10.1111/j.1467-9817.2010.01449.x

DAMAZO, L. O. A modalização na produção de textos em português como língua estrangeira. 2012. 220 f. Dissertação (Mestrado em Letras)

EVERS, A. Processamento de língua natural e níveis de proficiência do português: um estudo de produções textuais do exame Celpe-Bras. 2013. 174 f. Dissertação (Mestrado em Letras)

EVERS, A.; ALLE, C. M. O.; MARCOLIN, P. Causalidade expressa via conectores em Química, Física e Pediatria: um estudo exploratório. In: XX Salão de Iniciação Científica da UFRGS, 2008, Porto Alegre. Caderno de Resumos do XX Salão de Iniciação Científica da UFRGS, XVII Feira de Iniciação Científica e III Salão UFRGS Jovem. Porto Alegre: UFRGS, 2008.

FERRIS, D. Treatment of error in second language student writing. Ann Arbour: University of Michigan Press, 2002.

FILLMORE, C. J.

FINATTO, M. J. B. Complexidade textual em artigos científicos: contribuições para o estudo do texto científico em português. Organon (UFRGS), 2011, p. 30-45.

FINATTO, M. J. B.; AZEREDO, S.; CREMONESE, L. O vocabulário na redação de vestibular: do enfoque estatístico às especificidades da enunciação. In: UFRGS/COPERSE. (Orgs.). A Redação no Vestibular: do leitor ao produtor do Texto. Porto Alegre: Editora da UFRGS, p. 95-108, 2008.

FINATTO, M. J. B.; EVERS, A.; ALLE, C. M. O. Do uso de expressões de causalidade como um elemento caracterizador do gênero textual artigo científico. In: V SIGET - Simpósio Internacional de Estudos de Gêneros Textuais, 2009, Caxias do Sul. Anais... SIGET. Caxias do Sul: Editora da UCS, 2009.

FINATTO, M. J. B.; EVERS, A.; ALLE, C. M.; ALENCAR, M. C. Das terminologias às construções recorrentes: um percurso de estudos sobre linguagens especializadas. Ikala Revista de Lenguaje y Cultura, Antioquia, v. 15, p. 223-258, 2010.

GOMES, M. S. A complexidade de tarefas de leitura e produção escrita no exame Celpe-Bras. 2009. 109 f. Dissertação (Mestrado em Letras)

GRIES, S. Th. Corpora in cognitive linguistics: Corpus-based approaches to syntax and lexis, 1

HALLIDAY, M. A. K; HASAN, R. Language, Context, and Text: Aspects of language in a social-semiotic perspective. Londres: Oxford Univeristy Press, 1989.

HOEY, M. Patterns of lexis in text. Londres: Oxford University Press, 1991.

HOFFMANN, L. Possibilidades de aplicação e aplicação atual de métodos estatísticos na pesquisa de linguagens especializadas. Tradução: Leonardo Zilio. Cadernos de Tradução, Porto Alegre, v. 20, p. 61-76, junho de 2007.

HULSTIJN, J. Linking L2 proficiency to L2 acquisition: opportunities and challenges of profiling research. 2010. Disponível em: http://eurosla.org/monographs/EM01/233-238Hulstijn.pdf. Acesso em: 12 out 2012.

JARVIS, S.; GRANT, L.; FERRIS, D. Exploring multiple profiles of highly rated learner compositions. Journal of Second Language Writing, v. 12, n. 4, p. 377-403, 2003. http://dx.doi.org/10.1016/j.jslw.2003.09.001

LEFFA, V. J. Fatores da compreensão na leitura. Projeto ELO, Ensino de línguas on-line: 1996. Disponível em: www.leffa.pro.br.

PASQUALINI, B. F. Leitura, tradução e medidas de complexidade textual em contos da literatura para leitores com nível de letramento básico. 2012. 159 f. Dissertação (Mestrado em Letras)

PERINI, M. A. Sobre língua, linguagem e Linguística: uma entrevista com Mário A. Perini. ReVEL, v. 8, n. 14, p. 1-12, 2010.

SCARTON, C.; ALMEIDA D. M.; ALUISIO, S. Coh-Metrix-Port. Projeto de Pesquisa. 2009. Disponível em: http://caravelas.icmc.usp.br:3000/. Acesso em: 13 ago. 2010.

SCHOFFEN, J. R. Gêneros do discurso e parâmetros de avaliação de proficiência em português como língua estrangeira no exame Celpe-Bras. 2009. 192 f. Tese (Doutorado em Letras)

SHERGUE, O. Dimensão de Variação no Discurso Médico-Acadêmico: o Artigo de Pesquisa e a Apresentação de Trabalhos Científicos em Congressos. 2003. Dissertação (Mestrado em Letras)

SIDI, W. Níveis de proficiência em leitura e escrita de falantes de espanhol no exame Celpe-Bras. 2002. Dissertação (Mestrado em Letras)

SINCLAIR, J. M. Corpus, concordance, collocation. Londres: Oxford University, 1991.

SOUZA, J. A. Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais. 2010. Dissertação (Mestrado em Letras)

VIEIRA, R.; STRUBE DE LIMA, V. Linguística Computacional: princípios e aplicações. In: IX Escola de Informática da SBC-Sul, 2001, Porto Alegre, Anais da IX Escola de Informática da SBC-Sul, p. 27-61, 2001.

YUQI, S. A produção de hedges por falantes brasileiros de português e aprendizes chineses de LA. 2011. Dissertação (Mestrado em Letras)

ZAVAGLIA, C. Análise da homonímia no português: tratamento semântico com vistas a procedimentos computacionais. 2002. Tese (Doutorado)

ZAVAGLIA, Claudia. Extração de informações de definições de um dicionário convencional para a elaboração de uma base de conhecimento lexical: estratégias e procedimentos linguísticos. In: LONGO, Betariz N. De O.; DIAS-DA-SILVA, Bento C. (orgs.) A construção de dicionários e de bases de conhecimento lexical. São Paulo: Cultura Acadêmica, 2006. p. 209-234.

ZUPPARDO, M. C. A linguagem da aviação: um estudo de manuais aeronáuticos baseado na Análise Multidimensional. ReVEL. v. 11, n. 21, 2013.

Downloads

Publicado

05-09-2016

Como Citar

EVERS, A.; FINATTO, M. J. B. Linguística de Corpus, Léxico-Estatística Textual e Processamento de Linguagem Natural: perspectiva para estudos de vocabulário em produções textuais. Revista GTLex, Uberlândia, v. 1, n. 2, p. 271–295, 2016. DOI: 10.14393/Lex2-v1n2a2016-3. Disponível em: https://seer.ufu.br/index.php/GTLex/article/view/34711. Acesso em: 26 dez. 2024.