The construction of a lexicographic database in XML from dialectal data
the Natural Language Processing (NLP)
DOI:
https://doi.org/10.14393/DL52-v16n4a2022-11Keywords:
Dialectal Lexicography, Computational Linguistics, XML database, NLPAbstract
This paper is situed at the interface between Lexicography (PORTO DAPENA, 2002; HARTMANN, 2016), Dialectology (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) and Computational Linguistics (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). The objective is to discuss the proposal of building a database in XML (Extensible Markup Language), exploring the results obtained with NLP (Natural Language Processing). The XML file is also based on parameters of Dialectal Lexicography (ESQUERRA, 1997; NAVARRO CARRASCO, 1993) and is being fed with dialectal data from the project Atlas Linguístico do Brasil (ALiB) documented in the country's Northern region. Therefore, the jEdit software was used as a text editor and, to manage the database, the BaseX program. The linguistic information extraction was performed in the BaseX, from a sample of data and with the X-Query expressions support. Thus, the following data manipulations were performed: i) location of a specific lexical unit; ii) visualization of any microstructure data filtered by variables gender, age, education and location; iii) selection of information from one of the 14 semantic areas in which the questions of the ALiB semantic-lexical questionnaire were organized. In summary, it is understands that the construction of a XML database provides agility in concerning the information extraction and data compatibility to implement interfaces with another applications, for example, the development of a lexicographic product to be published in online support.
Downloads
Metrics
References
BIDERMAN, M. T. C. Teoria linguística: Teoria lexical e linguística computacional. 2ª ed. São Paulo: Martins Fontes, 2001.
CARDOSO, S. A. Geolinguística: tradição e modernidade. São Paulo: São Paulo, 2010.
CHAMBERS, J.; TRUDGILL, P. La dialectología. Madrid: Visor Libros, S. L., 1994. p. 35-61.
COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.
COSERIU, E. Lições de Linguística Geral; tradução do Prof. Evanildo Bechara. Rio de Janeiro: Ao Livro Técnico, 1980.
COSTA, D. de S. S. Vocabulário Dialetal do Centro-Oeste: interfaces entre a Lexicografia e a Dialetologia. 2018. 353 f. Tese (Doutorado em Estudos da Linguagem) – Universidade Estadual de Londrina, Londrina/PR, 2018.
CORREIA DE SOUZA, C. Vocabulário Dialetal da região Norte do Brasil: um estudo das capitais com base nos dados do Projeto ALiB. 2019. 134 f. Dissertação (Mestrado em Língua e Cultura) - Universidade Federal da Bahia, 2019.
EZQUERRA, M. A. Lexicografía dialectal. ELUA, Estudios de Lingüística, [S.l.] nº 11, p.79-109, (1996-1997). Disponível em: https://scholar.google.es/citations?user=mEEtglQAAAAJ&hl=es. Acessso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1996-1997.11.03
GRÜN, C. BaseX. Versão 9.4.3, [S.l.], 2020. Software de computador. Disponível em: https://basex.org/. Acesso em: 23 set. 2021.
HABERT, B. Portrait de linguiste(s) à l’instrument. Texto! [S.l.], vol. X, n°4, 2005. Disponível em: http://www.revue-texto.net/Corpus/Publications/Habert/Habert_Portrait.html. Acesso em: 14 dez. 2020.
HARTMANN, R. R. K. Estructural and typological perspectives. In: Teaching and Researching Lexicograph. New York: Routledge, 2016, p. 57-65. Disponível em: https://books.google.com.br/books?id=duzeCwAAQBAJ&pg=PA59&hl=pt-BR&source=gbs_selected_pages#v=onepage&q&f=false. Acesso em: 30 set. 2019.
HAUSSER, R. Fondations of Computacional Linguistics: Human-Computer Communication in Natural Language. 3. ed. Heidelberg: Springer, 2014. DOI https://doi.org/10.1007/978-3-642-41431-2
HIGUCHI, S.; FREITAS, C. Linguística computacional, humanidades digitais e os desafios na mineração de um dicionário histórico-biográfico. In: X Congresso Internacional da Abralin, Niterói, 2017. Anais. X Congresso Internacional da Abralin, 2017. Disponível em: https://bibliotecadigital.fgv.br/dspace/handle/10438/29142. Acesso em: 13 mar. 2022.
KURDI, M. Za. Natural Language Processing and Computacional Linguistics 1: Speech, Morphology and Syntax. London: ISTE, 2016. DOI https://doi.org/10.1002/9781119145554
MACHADO FILHO, A. V. L. Um ponto de interseção para a dialectologia e a lexicografia: a proposição de um dicionário dialetal brasileiro com base nos dados do ALiB. Estudos (UFBA), v. 41, p. 49-70, 2010.
NAVARRO CARRASCO, A. I. Geografía lingüística y diccionarios. ELUA, Estudios de Lingüística. [S.l.], nº 9, p. 73-96, 1993. Disponível em: http://rua.ua.es/dspace/handle/10045/6467. Acesso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1993.9.05
NEIVA, I. Vocabulário Dialetal Baiano. 2017. v. 1, 270 f. Tese (Doutorado em Língua e Cultura). Universidade Federal da Bahia, Salvador/BA, 2017.
NUNES, M. das G. V.; ALUÍSIO, S. M.; PARDO, T. A. S. Um panorama do Núcleo Interinstitucional de Linguística Computacional às vésperas de sua maioridade. Linguamática, v. 2, n. 2, p. 13-27, 29 mai. 2010. Disponível em: https://www.linguamatica.com/index.php/linguamatica/article/view/66/75> Acesso em: 13 mar. 2022.
PÉREZ HERNÁNDEZ, C.; MORENO ORTIZ, A. Lingüística computacional y lingüística de corpus. Potencialidades para la investigación textual. 2009. Disponível em: http://tecnolengua.uma.es/doc2/trea2009.pdf. Acesso em: 16 jan. 2021.
PESTOV, S. et al. jEdit. Versão 5.4.0. [S.I.], [2017?]. Software de computador. Disponível em: https://sourceforge.net/projects/jedit/files/jedit/5.4.0/. Acesso em: 06 set. 2020.
PORTO DAPENA, J.-Á. Manual de técnica lexicográfica. Madrid: ARCO/LIBROS, S.A., 2002.
SÁ, E. J. de. Variação lexical no falar amazonense: um estudo dialetal e metalexicográfico das denominações para riacho/córrego. Entrepalavras, [S.l.], v. 11, n. 10esp, p. 213-226, jun. 2021. ISSN 2237-6321. Disponível em: http://www.entrepalavras.ufc.br/revista/index.php/Revista/article/view/2088. Acesso em: 14 fev. 2022. DOI https://doi.org/10.22168/2237-6321-10esp2088
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Authors who publish in this journal agree to the following terms:
Authors retain the copyright and waiver the journal the right of first publication, with the work simultaneously licensed under the Creative Commons Attribution License (CC BY-NC-ND 4.0), allowing the sharing of work with authorship recognition and preventing its commercial use.
Authors are authorized to take additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (publish in institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.