Creating corpora for terminology studies

Authors

DOI:

https://doi.org/10.14393/Lex-v10a2025-8

Keywords:

Terminology, Corpora, Sketch Engine

Abstract

This article is an excerpt from the methodology used to build and prepare the corpora for a master’s study of terminological harmonization between the variants spoken in Brazil and Portugal as members of the Community of Portuguese Language Countries (CPLP) in terms used to enter higher education. The aim is to present the methodology developed using Corpus Linguistics and the software tool used to build the study's corpora, the Sketch Engine. At the end, the article discusses some of the results achieved, such as the use of different terms to name stages of education in the countries and the indication of erroneous terms by the software, which reinforces the indispensability of human work in filtering the data provided by the machine.



Downloads

Author Biography

  • Ana Luiza Noventa Dallapicula, UnB

    Mestre em Linguística - Universidade de Brasília (UnB) / Brasília. analuiza90.unb@gmail.com

References

BARROS, L. A. Curso Básico de Terminologia. São Paulo: Edusp, 2004.

BIBER, D.; CONRAD, S.; REPPEN, R. Corpus Linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998.

BRASIL. Decreto n° 11.156, de 29 de julho de 2022. Promulga o Acordo sobre a Mobilidade entre os Estados-Membros da Comunidade dos Países de Língua Portuguesa, firmado em Luanda, em 17 de julho de 2021. Diário Oficial da União: seção 1, Brasília – DF, ed. Extra – A, p. 10, 29 jul. 2022. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2019-2022/2022/decreto/d11156.htm. Acesso em: 13 de julho de 2025.

CAÑAS, A. J. et al. CmapTools: A Knowledge Modeling and Sharing Environment. In: Concept Maps: Theory, Methodology, Technology, Proceedings of the First International Conference on Concept Mapping. Spain: Editorial Universidad Pública de Navarra, 2004. Disponível em: https://cmap.ihmc.us. Acesso em: 13 de julho de 2025.

KILGARRIFF, A. et al. The sketch engine. Proceedings of the 11th EURALEX International Congress: 105-116, 2004. Disponível em: https://www.sketchengine.eu/wp-content/uploads/The_Sketch_Engine_2004.pdf. Acesso em: 13 de julho de 2025.

MAIA-PIRES, F. O. Brasília em termos: um estudo lexical do Plano Piloto. 2009. Dissertação (Mestrado em Linguística) - Instituto de Letras, Universidade de Brasília, Brasília, 2009. Disponível em: http://www.realp.unb.br/jspui/handle/10482/10999. Acesso em: 13 de julho de 2025.

McENERY, T. & HARDIE, A. Corpus linguistics: method, theory and practice. Cambridge: Cambridge University Press, 2012.

SARDINHA, T. B. Linguística de Corpus: histórico e problemática. D.E.L.T.A., v. 16, n. 2, São Paulo, 2000. DOI: https://doi.org/10.1590/S0102-44502000000200005. Acesso em: 13 de julho de 2025.

SHEPHERD, T. M. G. Panorama da Linguística de Corpus. In: SHEPHERD, T. M. G.; SARDINHA, T. B.; PINTO, M. V.. (orgs). Caminhos da Linguística de Corpus. Campinas: Mercado das Letras, 2012, p. 15-29.

SKETCH ENGINE. Learn how languages works, 2024. Disponível em: https://www.sketchengine.eu/. Acesso em: 13 de julho de 2025.

Published

2025-07-18

Issue

Section

Artigos

How to Cite

NOVENTA DALLAPICULA, Ana Luiza. Creating corpora for terminology studies. Revista GTLex, Uberlândia, v. 10, n. 1, p. e010008, 2025. DOI: 10.14393/Lex-v10a2025-8. Disponível em: https://seer.ufu.br/index.php/GTLex/article/view/76630. Acesso em: 8 oct. 2025.

Similar Articles

1-10 of 52

You may also start an advanced similarity search for this article.