Uma abordagem de Processamento de Linguagem Natural para Avaliação de Complexidade em literatura médica do século XVIII
DOI:
https://doi.org/10.14393/DLv17a2023-53Palavras-chave:
Complexidade textual, Português do século XVIII, Linguística histórica, Terminologia histórica, Humanidades digitaisResumo
Neste artigo, apresentamos um experimento que usa ferramentas de PLN para analisar o nível de complexidade de textos em português do século XVIII. Trata-se de um período de concretização de um novo mundo, que se iniciou com a Renascença, e de consolidação de muitas das ciências modernas. Nessa época, também começaram a surgir publicações científicas em línguas vernaculares, e não em latim, uma decorrência da vontade de tornar textos especializados mais acessíveis a pessoas de menor erudição. Nesse contexto, nosso objetivo é tentar identificar se, e como, esses ideais de acessibilidade foram atingidos. Para tal, nos apoiamos numa metodologia de PLN para detectar níveis de complexidade de uma obra médica desse período, comparando-a com outras duas obras de complexidade hipotética maior e menor. Usando a ferramenta NILC-Metrix, nosso objetivo é identificar um contínuo de complexidade nesses documentos.
Downloads
Métricas
Referências
ALUÍSIO, S., GASPERIN, C. Fostering digital inclusion and accessibility: the Porsimples project for simplification of Portuguese texts. In: Proceedings of the NAACL-HLT 2010 Young Investigators Workshop on Computational Approaches to Languages of the Americas, 2010. p. 46–53.
BANZA, A. P., GONÇALVES, M. F. Roteiro de história da língua portuguesa. Cátedra UNESCO, Universidade de Évora, 2018, p. 95. Available at: https://core.ac.uk/download/pdf/154812031.pdf. Accessed on: 22 Jun. 2023.
BARBOSA, A. V. Do conhecimento da doença à sua nomeação: uma viagem pelo tratado da conservação da saúde dos povos, de António Ribeiro Sanches. Panace@, v. 21(52), p. 37–48, 2020.
BERBER SARDINHA, T.; BARBARA, L. Freqüência e uso de estrangeirismos ingleses no português brasileiro: Um estudo baseado em corpus. Revista Brasileira de Linguística Aplicada, v. 5(1), p. 97–114, 2005. DOI https://doi.org/10.1590/S1984-63982005000100006
BIDERMAN, M. T. C., CARVALHO, C. S., PEDROSO, O. Meu primeiro livro de palavras: um dicionário ilustrado do português de A a Z. Ática, 2004.
CASELI, H. M., PEREIRA, T. F., SPECIA, L., PARDO, T. A., GASPERIN, C., ALUÍSIO, S. M. Building a brazilian portuguese parallel corpus of original and simplified texts. Advances in Computational Linguistics, Research in Computer Science, v. 41, p. 59–70, 2009.
CASTRO, I. Introdução à história do português. Edições Colibri, Lisboa, Portugal, 2006.
CUNHA, A. L. V. d. Coh-Metrix-Dementia: análise automática de distúrbios de linguagem nas demências utilizando Processamento de Línguas Naturais. 2015. Ph.D. thesis, Universidade de São Paulo, 2015.
DURY, P. ; PICTON, A. Terminologie et diachronie: vers une réconciliation théorique et méthodologique? Revue française de linguistique appliquée, v. 14(2), p. 31–41, 2009. DOI https://doi.org/10.3917/rfla.142.0031
FINATTO, M. J. B. Corpus-amostra português do século XVIII: textos antigos de medicina em atividades de ensino e pesquisa. Domínios de Lingu@gem, Uberlândia 12(1), 2018. DOI https://doi.org/10.14393/DL33-v12n1a2018-15
FINATTO, M. J. B. Medicina em português no século XVIII: desafios da terminologia diacrônica no cenário das humanidades digitais. Panace@, v. 21(52), p. 20–36, 2020.
FINATTO, M. J. B.; QUARESMA, P.; GONÇALVES, M.F. Portuguese corpora of the 18th century: old medicine texts for teaching and research. In: Proceedings of the Conference on Language Technologies and Digital Humanities. University of Ljubljana, 2018. p. 114–120.
FURTADO, J. F. Tropical empiricism: making medical knowledge in colonial Brazil. In: Science and empire in the Atlantic world. Routledge, 2008. p. 127–151. DOI https://doi.org/10.4324/9780203933848-8
GAZZOLA, M., LEAL, S. E., ALUISIO, S. M. Predição da complexidade textual de recursos educacionais abertos em português. In: Proceedings of the Symposium in Information and Human Language Technology - STIL. SBC, 2019.
GRAESSER, A. C.; MCNAMARA, D. S.; LOUWERSE, M. M.; CAI, Z. Coh-metrix: Analysis of text on cohesion and language. Behavior research methods, instruments, & computers, v. 36(2), p. 193–202, 2004. DOI https://doi.org/10.3758/BF03195564
LEAL, S. E.; DURAN, M. S.; SCARTON, C. E.; HARTMANN, N. S.; ALUÍSIO, S. M. NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese. arXiv preprint, arXiv:2201.03445, 2021.
LISBOA, J. L.; MIRANDA, T. C.; OLIVAL, F. As Gazetas Manuscritas da Biblioteca Pública de Évora. Colibri, CIDEHUS-UE, CHC-UNL, 2002. DOI https://doi.org/10.4000/books.cidehus.3083
LOBENSTEIN-REICHMANN, A. Luther’s Contribution as Bible Translator to the German Language. The Bible Translator, v. 73(3), p. 301-334, 2022. DOI https://doi.org/10.1177/20516770221140051
MARTINS, T. B.; GHIRALDELO, C. M.; NUNES, M. D. G. V.; OLIVEIRA JUNIOR, O. N. D. Readability formulas applied to textbooks in Brazilian Portuguese. 1996. Technical report, ICMSC-USP, 1996.
MOTTA, E. Índices de complexidade textual em sentenças dos juizados especiais cíveis do poder judiciário do estado do Rio Grande do Sul. Inventário, v. 1(21), p. 35–50, 2018.
MOTTA, E. Sentenças judiciais e acessibilidade textual e terminológica. Domínios de Lingu@gem, v. 15(3), p. 761–813, 2021. DOI https://doi.org/10.14393/DL47-v15n3a2021-6
PIOTROWSKI, M. Natural language processing for historical texts. Synthesis lectures on human language technologies, v. 5(2), p. 1–157, 2012. DOI https://doi.org/10.2200/S00436ED1V01Y201207HLT017
QUARESMA, P.; FINATTO, M. J. B. Information extraction from historical texts: a case study. In: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP). Co-located with the International Conference on the Computational Processing of Portuguese (PROPOR 2020). Évora, Portugal, 2020. p. 49–56. DOI https://doi.org/10.1007/978-3-030-41505-1
SANTOS, I.; OLIVAL, F.; SEQUEIRA, O. Excavating the data pit: the Portuguese Parish Memories (1758) as a gold standard. In: Proceedings of the Workshop on Digital Humanities and Natural Language Processing (DHandNLP). Co-located with the International Conference on the Computational Processing of Portuguese (PROPOR 2020). Évora, Portugal, 2020. p. 69–75.
SANTOS, L. B. D.; DURAN, M. S.; HARTMANN, N. S.; CANDIDO, A.; PAETZOLD, G. H.; ALUISIO, S. M. A lightweight regression method to infer psycholinguistic properties for brazilian portuguese. In: International conference on text, speech, and dialogue. Springer, 2017. p. 281–289. DOI https://doi.org/10.1007/978-3-319-64206-2_32
SANTOS, R.; PEDRO, G.; LEAL, S.; VALE, O.; PARDO, T.; BONTCHEVA, K.; SCARTON, C. Measuring the impact of readability features in fake news detection. In: Proceedings of the 12th language resources and evaluation conference, 2020. p. 1404–1413.
SEMEDO, J.C. Observaçoens medicas doutrinaes de cem casos gravissimos, que em serviço da patria, & das nações estranhas escreve em lingua Portugueza, & Latina Joam Curvo Semmedo. Officina de Antonio Pedrozo Galram, Lisboa, Portugal, 1707.
SOUSA, M. C. P. d. O Corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. Filologia e linguística portuguesa, v. 16(esp.), p. 53–93, 2014. DOI https://doi.org/10.11606/issn.2176-9419.v16ispep53-93
VERDELHO, T. Terminologias na língua portuguesa: perspectiva diacrónica. 1998. Available at: http://clp.dlc.ua.pt/Publicacoes/Terminologias_lingua_portuguesa.pdf. Accessed on: 22 Jun. 2023.
WAGNER FILHO, J. A.; WILKENS, R.; IDIART, M.; VILLAVICENCIO, A. The brWaC corpus: a new open resource for Brazilian Portuguese. In: Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018). 2018.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2023 Leonardo Zilio, Maria José Bocorny Finatto, Renata Vieira, Paulo Quaresma
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos da licença Creative Commons
CC BY-NC-ND 4.0: o artigo pode ser copiado e redistribuído em qualquer suporte ou formato; os créditos devem ser dados ao autor original e mudanças no texto devem ser indicadas; o artigo não pode ser usado para fins comerciais; caso o artigo seja remixado, transformado ou algo novo for criado a partir dele, o mesmo não pode ser distribuído.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.