The construction of a lexicographic database in XML from dialectal data

the Natural Language Processing (NLP)

Authors

DOI:

https://doi.org/10.14393/DL52-v16n4a2022-11

Keywords:

Dialectal Lexicography, Computational Linguistics, XML database, NLP

Abstract

This paper is situed at the interface between Lexicography (PORTO DAPENA, 2002; HARTMANN, 2016), Dialectology (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) and Computational Linguistics (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). The objective is to discuss the proposal of building a database in XML (Extensible Markup Language), exploring the results obtained with NLP (Natural Language Processing). The XML file is also based on parameters of Dialectal Lexicography (ESQUERRA, 1997; NAVARRO CARRASCO, 1993) and is being fed with dialectal data from the project Atlas Linguístico do Brasil (ALiB) documented in the country's Northern region. Therefore, the jEdit software was used as a text editor and, to manage the database, the BaseX program. The linguistic information extraction was performed in the BaseX, from a sample of data and with the X-Query expressions support. Thus, the following data manipulations were performed: i) location of a specific lexical unit; ii) visualization of any microstructure data filtered by variables gender, age, education and location; iii) selection of information from one of the 14 semantic areas in which the questions of the ALiB semantic-lexical questionnaire were organized. In summary, it is understands that the construction of a XML database provides agility in concerning the information extraction and data compatibility to implement interfaces with another applications, for example, the development of a lexicographic product to be published in online support.

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

Author Biographies

Jorge Luiz Nunes dos Santos Junior, UFMS/CPTL

Doutorando do Programa de Pós-Graduação em Letras da Universidade Federal de Mato Grosso do Sul, campus de Três Lagoas (UFMS/CPTL). Bolsista CAPES.

Aparecida Negri Isquerdo, UFMS

Doutora em Letras (Linguística e Língua Portuguesa) pela UNESP/Araraquara. Docente permanente na Pós-Graduação stricto sensu da UFMS – Estudos de Linguagens/FAALC e Letras/CPTL.

References

BIDERMAN, M. T. C. Teoria linguística: Teoria lexical e linguística computacional. 2ª ed. São Paulo: Martins Fontes, 2001.

CARDOSO, S. A. Geolinguística: tradição e modernidade. São Paulo: São Paulo, 2010.

CHAMBERS, J.; TRUDGILL, P. La dialectología. Madrid: Visor Libros, S. L., 1994. p. 35-61.

COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.

COSERIU, E. Lições de Linguística Geral; tradução do Prof. Evanildo Bechara. Rio de Janeiro: Ao Livro Técnico, 1980.

COSTA, D. de S. S. Vocabulário Dialetal do Centro-Oeste: interfaces entre a Lexicografia e a Dialetologia. 2018. 353 f. Tese (Doutorado em Estudos da Linguagem) – Universidade Estadual de Londrina, Londrina/PR, 2018.

CORREIA DE SOUZA, C. Vocabulário Dialetal da região Norte do Brasil: um estudo das capitais com base nos dados do Projeto ALiB. 2019. 134 f. Dissertação (Mestrado em Língua e Cultura) - Universidade Federal da Bahia, 2019.

EZQUERRA, M. A. Lexicografía dialectal. ELUA, Estudios de Lingüística, [S.l.] nº 11, p.79-109, (1996-1997). Disponível em: https://scholar.google.es/citations?user=mEEtglQAAAAJ&hl=es. Acessso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1996-1997.11.03

GRÜN, C. BaseX. Versão 9.4.3, [S.l.], 2020. Software de computador. Disponível em: https://basex.org/. Acesso em: 23 set. 2021.

HABERT, B. Portrait de linguiste(s) à l’instrument. Texto! [S.l.], vol. X, n°4, 2005. Disponível em: http://www.revue-texto.net/Corpus/Publications/Habert/Habert_Portrait.html. Acesso em: 14 dez. 2020.

HARTMANN, R. R. K. Estructural and typological perspectives. In: Teaching and Researching Lexicograph. New York: Routledge, 2016, p. 57-65. Disponível em: https://books.google.com.br/books?id=duzeCwAAQBAJ&pg=PA59&hl=pt-BR&source=gbs_selected_pages#v=onepage&q&f=false. Acesso em: 30 set. 2019.

HAUSSER, R. Fondations of Computacional Linguistics: Human-Computer Communication in Natural Language. 3. ed. Heidelberg: Springer, 2014. DOI https://doi.org/10.1007/978-3-642-41431-2

HIGUCHI, S.; FREITAS, C. Linguística computacional, humanidades digitais e os desafios na mineração de um dicionário histórico-biográfico. In: X Congresso Internacional da Abralin, Niterói, 2017. Anais. X Congresso Internacional da Abralin, 2017. Disponível em: https://bibliotecadigital.fgv.br/dspace/handle/10438/29142. Acesso em: 13 mar. 2022.

KURDI, M. Za. Natural Language Processing and Computacional Linguistics 1: Speech, Morphology and Syntax. London: ISTE, 2016. DOI https://doi.org/10.1002/9781119145554

MACHADO FILHO, A. V. L. Um ponto de interseção para a dialectologia e a lexicografia: a proposição de um dicionário dialetal brasileiro com base nos dados do ALiB. Estudos (UFBA), v. 41, p. 49-70, 2010.

NAVARRO CARRASCO, A. I. Geografía lingüística y diccionarios. ELUA, Estudios de Lingüística. [S.l.], nº 9, p. 73-96, 1993. Disponível em: http://rua.ua.es/dspace/handle/10045/6467. Acesso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1993.9.05

NEIVA, I. Vocabulário Dialetal Baiano. 2017. v. 1, 270 f. Tese (Doutorado em Língua e Cultura). Universidade Federal da Bahia, Salvador/BA, 2017.

NUNES, M. das G. V.; ALUÍSIO, S. M.; PARDO, T. A. S. Um panorama do Núcleo Interinstitucional de Linguística Computacional às vésperas de sua maioridade. Linguamática, v. 2, n. 2, p. 13-27, 29 mai. 2010. Disponível em: https://www.linguamatica.com/index.php/linguamatica/article/view/66/75> Acesso em: 13 mar. 2022.

PÉREZ HERNÁNDEZ, C.; MORENO ORTIZ, A. Lingüística computacional y lingüística de corpus. Potencialidades para la investigación textual. 2009. Disponível em: http://tecnolengua.uma.es/doc2/trea2009.pdf. Acesso em: 16 jan. 2021.

PESTOV, S. et al. jEdit. Versão 5.4.0. [S.I.], [2017?]. Software de computador. Disponível em: https://sourceforge.net/projects/jedit/files/jedit/5.4.0/. Acesso em: 06 set. 2020.

PORTO DAPENA, J.-Á. Manual de técnica lexicográfica. Madrid: ARCO/LIBROS, S.A., 2002.

SÁ, E. J. de. Variação lexical no falar amazonense: um estudo dialetal e metalexicográfico das denominações para riacho/córrego. Entrepalavras, [S.l.], v. 11, n. 10esp, p. 213-226, jun. 2021. ISSN 2237-6321. Disponível em: http://www.entrepalavras.ufc.br/revista/index.php/Revista/article/view/2088. Acesso em: 14 fev. 2022. DOI https://doi.org/10.22168/2237-6321-10esp2088

Published

2022-09-12

How to Cite

SANTOS JUNIOR, J. L. N. dos; ISQUERDO, A. N. The construction of a lexicographic database in XML from dialectal data: the Natural Language Processing (NLP). Domínios de Lingu@gem, Uberlândia, v. 16, n. 4, p. 1544–1570, 2022. DOI: 10.14393/DL52-v16n4a2022-11. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/63444. Acesso em: 21 nov. 2024.