Reflexões metodológicas sobre datasets e linguística de corpus
uma análise preliminar de dados legislativos
DOI:
https://doi.org/10.14393/DL52-v16n4a2022-12Palavras-chave:
Processamento de texto, Dataset de normas jurídicas, Análise diacrônica, Linguagem e direitoResumo
Ferramentas e métodos computacionais são, cada vez mais, importantes aliados para a realização de pesquisas no âmbito das humanidades. Em particular, o uso dessas ferramentas é relevante para a análise linguística diacrônica. Neste estudo, é apresentada uma discussão sobre o uso de corpora e datasets na linguística, destacando algumas potencialidades e limitações desses recursos. Para ilustrar as possibilidades de uso de um dataset para pesquisa linguística, apresenta-se, também, uma análise preliminar da Base de Normas Jurídicas Brasileiras.
Downloads
Métricas
Referências
AQUINO, R.; DOUGLAS, W. Manual de português e redação jurídica. 6. ed. Niterói: Impetus, 2017.
BAKER, P. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press, 2010.
BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.
BERBER SARDINHA, T. A abordagem metodológica da análise multidimensional. Gragoatá, v. 15, n. 29, p. 107-125, 2010. DOI https://doi.org/10.22409/gragoata.v15i29.
BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. DOI https://doi.org/10.1017/CBO9780511621024
BIBER, D. Methodological issues regarding corpus-based analyses of linguistic variation. Literary and Linguistic Computing, v. 5, n. 4, p. 257-269, 1990. DOI https://doi.org/10.1093/llc/5.4.257
BIBER, D. On the complexity of discourse complexity: A multidimensional analysis. Discourse Processes, v. 15, n. 2, p. 133-163, 1992. DOI https://doi.org/10.1080/
BIBER, D. Representativeness in Corpus Design. Literary and Linguistic Computing, v. 8, n. 4, p. 243-257, 1993. DOI https://doi.org/10.1093/llc/8.4.243
BIBER, D; CONRAD, S. Register, genre, and style. Cambridge: CUP, 2009. DOI https://doi.org/10.1017/CBO9780511814358
BIBER, D.; REPPEN, R.; SCHNUR, E.; GHANEM, R. On the (non)utility of Juilland's D to measure lexical dispersion in large corpora. International Journal of Corpus Linguistics, v. 21, n. 4, p. 439-464, 2016. DOI https://doi.org/10.1075/ijcl.21.4.01bib
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O'Reilly, 2009.
BITTAR, E. C. B. Linguagem jurídica. 4. ed. São Paulo: Saraiva, 2009.
CARVALHO, L. Os dicionários jurídicos bilíngües e o tradutor - dois binômios em Direito Contratual. TradTerm, v. 12, p. 309-347, 2006. DOI https://doi.org/10.11606/
issn.2317-9511.tradterm.2006.46903
CORDEIRO, J. M. Anos de chumbo ou anos de ouro? A memória social sobre o governo Médici. Estudos Históricos, v. 22, n. 43, p. 85-104, 2009. DOI https://doi.org/
1590/S0103-21862009000100005
CUNHA, E.; MAGNO, G.; CAETANO, J.; TEIXEIRA, D.; ALMEIDA, V. Fake news as we feel it: perception and conceptualization of the term "fake news" in the media. In: STAAB, S.; KOLTSOVA, O.; IGNATOV, D. I. (ed.). Social informatics [Lecture Notes in Computer Science, n. 11185]. Cham: Springer, 2018. p. 151-166. DOI https://doi.org/10.1007/978-3-030-01129-1_10
CUNHA, E. L. T. P.; WICHMANN, S. An algorithm to identify periods of establishment and obsolescence of linguistic items in a diachronic corpus. Corpora, Edinburgh, v. 16, n. 2, p. 205-236, 2021. DOI https://doi.org/10.3366/cor.2021.0218
DAMIÃO, R. T.; HENRIQUES, A. Curso de português jurídico. 14. ed. São Paulo: Atlas, 2020.
DIMITRIADIS, A.; MUSGRAVE, S. Designing linguistic databases: a primer for linguists. In: EVERAERT, M.; MUSGRAVE, S.; DIMITRIADIS, A. (ed.). The use of databases in cross-linguistic studies. Berlin/New York: Mouton de Gruyter, 2009. p. 13-75.
DINIZ, M. H. Dicionário jurídico. São Paulo: Saraiva, 1998.
EGBERT, J.; BURCH, B.; BIBER, D. Lexical dispersion and corpus design. International Journal of Corpus Linguistics, v. 25, n. 1, p. 89-115, 2020. DOI https://doi.org/10.1075/ijcl.18010.egb
EGBERT, J.; LARSSON, T.; BIBER, D. Doing Linguistics with a Corpus. Methodological Considerations for the Everyday User. Cambridge: Cambridge University Press, 2020. DOI https://doi.org/10.1017/9781108888790
FERRARI, L. A; MARQUES, C. G. F. O corpus LEX-BR-Ius, seção legislativa das leis federais brasileiras: arquitetura e primeiras análises. Em preparação.
GRAY, J. Towards a Genealogy of Open Data. In: GENERAL CONFERENCE OF THE EUROPEAN CONSORTIUM FOR POLITICAL RESEARCH. Glasgow, 2014. DOI https://dx.doi.org/10.2139/ssrn.2605828
GUIMARÃES, D. T. Dicionário técnico jurídico. São Paulo: Rideel, 2013.
HARDIE, A. CQPweb — combining power, flexibility and usability in a corpus analysis tool. International Journal of Corpus Linguistics, v. 17, n. 3, p. 380-409, 2012. DOI https://doi.org/10.1075/ijcl.17.3.04har
HEAPS, H. S. Information retrieval: computational and theoretical aspects. New York: Academic Press, 1978.
HERDAN, G. Quantitative linguistics. London: Butterworth, 1964.
IVO, G. O direito e a inevitabilidade do cerco da linguagem. In: CARVALHO, P. de B.; CARVALHO, A. T. de (org.). Constructivismo lógico-semântico. 2. ed. revista v. 1. São Paulo: Noeses, 2020. p. 65-91.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; ROCHA, J. C.; FINATTO, M. J. B. Dicionário de Direito Ambiental. Porto Alegre: Editora da Universidade, 1998.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B.; REUILLARD, P. C. R. Glossário de Gestão Ambiental. São Paulo: Disal Editora, 2006.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B. Dicionário de Direito Ambiental. 2. ed. Rio de Janeiro: Lexikon, 2008.
LABOV, W. The social stratification of English in New York City. Washington: Center for Applied Linguistics, 1966.
LABOV, W. Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press, 1972a.
LABOV, W. Some principles of linguistic methodology. Language in Society, v. 1, n. 1, p. 97-120, 1972b. Disponível em: https://www.jstor.org/stable/4166672. Acesso em: 12 nov. 2021. DOI https://doi.org/10.1017/S0047404500006576
MACIEL, A. M. B. Para o reconhecimento da especificidade do termo jurídico. 2001. 291 f. Tese. (Doutorado em Estudos da Linguagem) – Programa de Pós-Graduação em Letras. Universidade Federal do Rio Grande do Sul, 2001.
MARTIM, H.; LIMA, J. A. O.; ARAUJO, L. C. Base de Normas Jurídicas Brasileiras: uma iniciativa de Open Government Data. Perspectivas em Ciência da Informação, v. 23, n. 4, p. 133, 2018. DOI https://doi.org/10.1590/1981-5344/3567
MELLO, H. Methodological issues for spontaneous speech corpora compilation: the case of C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). Spoken Corpora and Linguistic Studies. Amsterdam: John Benjamins, 2014. v. 1, p. 27-68. DOI https://doi.org/10.1075/scl.61.01mel
PETRI, M. J. C. Manual de linguagem jurídica. 3. ed. São Paulo: Saraiva, 2017.
RAMOS, J. J. S. C. Ocorrência e interpretação dos verbos modais 'dever' e 'poder' em contexto jurídico: contributos para uma análise juslinguística. 207 f. Tese (Doutorado) – Filozofická Fackultá, Univerzita Karlova, Praha, Rep. Tcheca, 2017 apud SVOBODOVÁ (2017).
RASO, T. O corpus C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012. p. 55-90.
RENEAR, A. H.; SACCHI, S.; WICKETT, K. M. Definitions of dataset in the scientific and technical literature. Proceedings of the American Society for Information Science and Technology, v. 47, n. 1, 2010. DOI https://doi.org/10.1002/meet.14504701240
RESENDE, S. V.; MAVERICK, R. Planejamento, compilação e organização de corpora. In: Anais do EBRALC 2015 & ELC 2015 [Blucher Social Science Proceedings, n. 3, v. 2]. São Paulo: Blucher, 2016. p. 27-35. DOI https://doi.org/10.5151/sosci-viiieblc-xiii-elc-06_artigo_03
SANTOS, F. Patronagem e Poder de Agenda na Política Brasileira. Dados: Revista de Ciências Sociais, v. 40, n. 3, 1997. DOI https://doi.org/10.1590/S0011-52581997000
SANTOS, W. Dicionário jurídico brasileiro. Belo Horizonte: Del Rey, 2001.
SEARLE, J. R. Speech Acts. An Essay in the Philosophy of Language. Cambridge: Cambridge University Press, 1969. DOI https://doi.org/10.1017/CBO9781139173438
SVOBODOVÁ, I. Modalidade não epistêmica na linguagem jurídica: um estudo contrastivo. Caligrama, Belo Horizonte, v. 22, n. 2, p. 103-133, 2017. DOI http://dx.doi.org/10.17851/2238-3824.22.2.103-133
TEIXEIRA, W. R.; LIMA, J. A. O.; ARAUJO, L. C.; VIERO, D. M.; SANTANA, F. F.; HERINGER, F. R. A.; MARTIM, H.; VIEIRA FILHO, J. J. Exemplo de extração de definições em textos articulados de normas jurídicas com o apoio do processamento de linguagem natural. Cadernos de Informação Jurídica, v. 6, n. 1, p. 49-64, 2019. Disponível em: http://hdl.handle.net/20.500.11959/brapci/119039. Acesso em: 20 dez. 2021.
WARAT, L. A. O direito e sua linguagem. Porto Alegre: Sergio Antonio Fabris Editor, 1995.
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2022 Lúcia de Almeida Ferrari, Evandro Landulfo Teixeira Paradela Cunha
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos da licença Creative Commons
CC BY-NC-ND 4.0: o artigo pode ser copiado e redistribuído em qualquer suporte ou formato; os créditos devem ser dados ao autor original e mudanças no texto devem ser indicadas; o artigo não pode ser usado para fins comerciais; caso o artigo seja remixado, transformado ou algo novo for criado a partir dele, o mesmo não pode ser distribuído.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.