Creating corpora for terminology studies
DOI:
https://doi.org/10.14393/Lex-v10a2025-8Keywords:
Terminology, Corpora, Sketch EngineAbstract
This article is an excerpt from the methodology used to build and prepare the corpora for a master’s study of terminological harmonization between the variants spoken in Brazil and Portugal as members of the Community of Portuguese Language Countries (CPLP) in terms used to enter higher education. The aim is to present the methodology developed using Corpus Linguistics and the software tool used to build the study's corpora, the Sketch Engine. At the end, the article discusses some of the results achieved, such as the use of different terms to name stages of education in the countries and the indication of erroneous terms by the software, which reinforces the indispensability of human work in filtering the data provided by the machine.
Downloads
References
BARROS, L. A. Curso Básico de Terminologia. São Paulo: Edusp, 2004.
BIBER, D.; CONRAD, S.; REPPEN, R. Corpus Linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998.
BRASIL. Decreto n° 11.156, de 29 de julho de 2022. Promulga o Acordo sobre a Mobilidade entre os Estados-Membros da Comunidade dos Países de Língua Portuguesa, firmado em Luanda, em 17 de julho de 2021. Diário Oficial da União: seção 1, Brasília – DF, ed. Extra – A, p. 10, 29 jul. 2022. Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2019-2022/2022/decreto/d11156.htm. Acesso em: 13 de julho de 2025.
CAÑAS, A. J. et al. CmapTools: A Knowledge Modeling and Sharing Environment. In: Concept Maps: Theory, Methodology, Technology, Proceedings of the First International Conference on Concept Mapping. Spain: Editorial Universidad Pública de Navarra, 2004. Disponível em: https://cmap.ihmc.us. Acesso em: 13 de julho de 2025.
KILGARRIFF, A. et al. The sketch engine. Proceedings of the 11th EURALEX International Congress: 105-116, 2004. Disponível em: https://www.sketchengine.eu/wp-content/uploads/The_Sketch_Engine_2004.pdf. Acesso em: 13 de julho de 2025.
MAIA-PIRES, F. O. Brasília em termos: um estudo lexical do Plano Piloto. 2009. Dissertação (Mestrado em Linguística) - Instituto de Letras, Universidade de Brasília, Brasília, 2009. Disponível em: http://www.realp.unb.br/jspui/handle/10482/10999. Acesso em: 13 de julho de 2025.
McENERY, T. & HARDIE, A. Corpus linguistics: method, theory and practice. Cambridge: Cambridge University Press, 2012.
SARDINHA, T. B. Linguística de Corpus: histórico e problemática. D.E.L.T.A., v. 16, n. 2, São Paulo, 2000. DOI: https://doi.org/10.1590/S0102-44502000000200005. Acesso em: 13 de julho de 2025.
SHEPHERD, T. M. G. Panorama da Linguística de Corpus. In: SHEPHERD, T. M. G.; SARDINHA, T. B.; PINTO, M. V.. (orgs). Caminhos da Linguística de Corpus. Campinas: Mercado das Letras, 2012, p. 15-29.
SKETCH ENGINE. Learn how languages works, 2024. Disponível em: https://www.sketchengine.eu/. Acesso em: 13 de julho de 2025.
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Ana Luiza Noventa Dallapicula

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
CC BY-NC-ND 4.0: Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Creative Commons Attribution License que permitindo o compartilhamento do trabalho com reconhecimento da autoria do trabalho e publicação inicial nesta revista.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.