A construção de um banco de dados lexicográfico em XML a partir de dados dialetais
o Processamento Automático de Linguagem Natural (PLN)
DOI:
https://doi.org/10.14393/DL52-v16n4a2022-11Palavras-chave:
Lexicografia Dialetal, Linguística Computacional, Banco de dados em XML, PLNResumo
Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural). O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.
Downloads
Métricas
Referências
BIDERMAN, M. T. C. Teoria linguística: Teoria lexical e linguística computacional. 2ª ed. São Paulo: Martins Fontes, 2001.
CARDOSO, S. A. Geolinguística: tradição e modernidade. São Paulo: São Paulo, 2010.
CHAMBERS, J.; TRUDGILL, P. La dialectología. Madrid: Visor Libros, S. L., 1994. p. 35-61.
COMITÊ NACIONAL DO PROJETO ALIB. Atlas Lingüístico do Brasil: questionário 2001. Londrina: EDUEL, 2001.
COSERIU, E. Lições de Linguística Geral; tradução do Prof. Evanildo Bechara. Rio de Janeiro: Ao Livro Técnico, 1980.
COSTA, D. de S. S. Vocabulário Dialetal do Centro-Oeste: interfaces entre a Lexicografia e a Dialetologia. 2018. 353 f. Tese (Doutorado em Estudos da Linguagem) – Universidade Estadual de Londrina, Londrina/PR, 2018.
CORREIA DE SOUZA, C. Vocabulário Dialetal da região Norte do Brasil: um estudo das capitais com base nos dados do Projeto ALiB. 2019. 134 f. Dissertação (Mestrado em Língua e Cultura) - Universidade Federal da Bahia, 2019.
EZQUERRA, M. A. Lexicografía dialectal. ELUA, Estudios de Lingüística, [S.l.] nº 11, p.79-109, (1996-1997). Disponível em: https://scholar.google.es/citations?user=mEEtglQAAAAJ&hl=es. Acessso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1996-1997.11.03
GRÜN, C. BaseX. Versão 9.4.3, [S.l.], 2020. Software de computador. Disponível em: https://basex.org/. Acesso em: 23 set. 2021.
HABERT, B. Portrait de linguiste(s) à l’instrument. Texto! [S.l.], vol. X, n°4, 2005. Disponível em: http://www.revue-texto.net/Corpus/Publications/Habert/Habert_Portrait.html. Acesso em: 14 dez. 2020.
HARTMANN, R. R. K. Estructural and typological perspectives. In: Teaching and Researching Lexicograph. New York: Routledge, 2016, p. 57-65. Disponível em: https://books.google.com.br/books?id=duzeCwAAQBAJ&pg=PA59&hl=pt-BR&source=gbs_selected_pages#v=onepage&q&f=false. Acesso em: 30 set. 2019.
HAUSSER, R. Fondations of Computacional Linguistics: Human-Computer Communication in Natural Language. 3. ed. Heidelberg: Springer, 2014. DOI https://doi.org/10.1007/978-3-642-41431-2
HIGUCHI, S.; FREITAS, C. Linguística computacional, humanidades digitais e os desafios na mineração de um dicionário histórico-biográfico. In: X Congresso Internacional da Abralin, Niterói, 2017. Anais. X Congresso Internacional da Abralin, 2017. Disponível em: https://bibliotecadigital.fgv.br/dspace/handle/10438/29142. Acesso em: 13 mar. 2022.
KURDI, M. Za. Natural Language Processing and Computacional Linguistics 1: Speech, Morphology and Syntax. London: ISTE, 2016. DOI https://doi.org/10.1002/9781119145554
MACHADO FILHO, A. V. L. Um ponto de interseção para a dialectologia e a lexicografia: a proposição de um dicionário dialetal brasileiro com base nos dados do ALiB. Estudos (UFBA), v. 41, p. 49-70, 2010.
NAVARRO CARRASCO, A. I. Geografía lingüística y diccionarios. ELUA, Estudios de Lingüística. [S.l.], nº 9, p. 73-96, 1993. Disponível em: http://rua.ua.es/dspace/handle/10045/6467. Acesso em: 23 nov. 2020. DOI https://doi.org/10.14198/ELUA1993.9.05
NEIVA, I. Vocabulário Dialetal Baiano. 2017. v. 1, 270 f. Tese (Doutorado em Língua e Cultura). Universidade Federal da Bahia, Salvador/BA, 2017.
NUNES, M. das G. V.; ALUÍSIO, S. M.; PARDO, T. A. S. Um panorama do Núcleo Interinstitucional de Linguística Computacional às vésperas de sua maioridade. Linguamática, v. 2, n. 2, p. 13-27, 29 mai. 2010. Disponível em: https://www.linguamatica.com/index.php/linguamatica/article/view/66/75> Acesso em: 13 mar. 2022.
PÉREZ HERNÁNDEZ, C.; MORENO ORTIZ, A. Lingüística computacional y lingüística de corpus. Potencialidades para la investigación textual. 2009. Disponível em: http://tecnolengua.uma.es/doc2/trea2009.pdf. Acesso em: 16 jan. 2021.
PESTOV, S. et al. jEdit. Versão 5.4.0. [S.I.], [2017?]. Software de computador. Disponível em: https://sourceforge.net/projects/jedit/files/jedit/5.4.0/. Acesso em: 06 set. 2020.
PORTO DAPENA, J.-Á. Manual de técnica lexicográfica. Madrid: ARCO/LIBROS, S.A., 2002.
SÁ, E. J. de. Variação lexical no falar amazonense: um estudo dialetal e metalexicográfico das denominações para riacho/córrego. Entrepalavras, [S.l.], v. 11, n. 10esp, p. 213-226, jun. 2021. ISSN 2237-6321. Disponível em: http://www.entrepalavras.ufc.br/revista/index.php/Revista/article/view/2088. Acesso em: 14 fev. 2022. DOI https://doi.org/10.22168/2237-6321-10esp2088
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos da licença Creative Commons
CC BY-NC-ND 4.0: o artigo pode ser copiado e redistribuído em qualquer suporte ou formato; os créditos devem ser dados ao autor original e mudanças no texto devem ser indicadas; o artigo não pode ser usado para fins comerciais; caso o artigo seja remixado, transformado ou algo novo for criado a partir dele, o mesmo não pode ser distribuído.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.