Reflexões metodológicas sobre datasets e linguística de corpus

uma análise preliminar de dados legislativos

Autores

DOI:

https://doi.org/10.14393/DL52-v16n4a2022-12

Palavras-chave:

Processamento de texto, Dataset de normas jurídicas, Análise diacrônica, Linguagem e direito

Resumo

Ferramentas e métodos computacionais são, cada vez mais, importantes aliados para a realização de pesquisas no âmbito das humanidades. Em particular, o uso dessas ferramentas é relevante para a análise linguística diacrônica. Neste estudo, é apresentada uma discussão sobre o uso de corpora e datasets na linguística, destacando algumas potencialidades e limitações desses recursos. Para ilustrar as possibilidades de uso de um dataset para pesquisa linguística, apresenta-se, também, uma análise preliminar da Base de Normas Jurídicas Brasileiras.

Downloads

Biografia do Autor

  • Lúcia de Almeida Ferrari, Universidade Federal de Minas Gerais

    Doutora em Estudos Linguísticos pela Universidade Federal de Minas Gerais (UFMG). Professora na Faculdade de Letras da UFMG.

  • Evandro Landulfo Teixeira Paradela Cunha, Universidade Federal de Minas Gerais

    Doutor em Linguística pela Universiteit Leiden e em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG). Professor na Faculdade de Letras da UFMG.

Referências

AQUINO, R.; DOUGLAS, W. Manual de português e redação jurídica. 6. ed. Niterói: Impetus, 2017.

BAKER, P. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press, 2010.

BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

BERBER SARDINHA, T. A abordagem metodológica da análise multidimensional. Gragoatá, v. 15, n. 29, p. 107-125, 2010. DOI https://doi.org/10.22409/gragoata.v15i29.

BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. DOI https://doi.org/10.1017/CBO9780511621024

BIBER, D. Methodological issues regarding corpus-based analyses of linguistic variation. Literary and Linguistic Computing, v. 5, n. 4, p. 257-269, 1990. DOI https://doi.org/10.1093/llc/5.4.257

BIBER, D. On the complexity of discourse complexity: A multidimensional analysis. Discourse Processes, v. 15, n. 2, p. 133-163, 1992. DOI https://doi.org/10.1080/

BIBER, D. Representativeness in Corpus Design. Literary and Linguistic Computing, v. 8, n. 4, p. 243-257, 1993. DOI https://doi.org/10.1093/llc/8.4.243

BIBER, D; CONRAD, S. Register, genre, and style. Cambridge: CUP, 2009. DOI https://doi.org/10.1017/CBO9780511814358

BIBER, D.; REPPEN, R.; SCHNUR, E.; GHANEM, R. On the (non)utility of Juilland's D to measure lexical dispersion in large corpora. International Journal of Corpus Linguistics, v. 21, n. 4, p. 439-464, 2016. DOI https://doi.org/10.1075/ijcl.21.4.01bib

BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O'Reilly, 2009.

BITTAR, E. C. B. Linguagem jurídica. 4. ed. São Paulo: Saraiva, 2009.

CARVALHO, L. Os dicionários jurídicos bilíngües e o tradutor - dois binômios em Direito Contratual. TradTerm, v. 12, p. 309-347, 2006. DOI https://doi.org/10.11606/

issn.2317-9511.tradterm.2006.46903

CORDEIRO, J. M. Anos de chumbo ou anos de ouro? A memória social sobre o governo Médici. Estudos Históricos, v. 22, n. 43, p. 85-104, 2009. DOI https://doi.org/

1590/S0103-21862009000100005

CUNHA, E.; MAGNO, G.; CAETANO, J.; TEIXEIRA, D.; ALMEIDA, V. Fake news as we feel it: perception and conceptualization of the term "fake news" in the media. In: STAAB, S.; KOLTSOVA, O.; IGNATOV, D. I. (ed.). Social informatics [Lecture Notes in Computer Science, n. 11185]. Cham: Springer, 2018. p. 151-166. DOI https://doi.org/10.1007/978-3-030-01129-1_10

CUNHA, E. L. T. P.; WICHMANN, S. An algorithm to identify periods of establishment and obsolescence of linguistic items in a diachronic corpus. Corpora, Edinburgh, v. 16, n. 2, p. 205-236, 2021. DOI https://doi.org/10.3366/cor.2021.0218

DAMIÃO, R. T.; HENRIQUES, A. Curso de português jurídico. 14. ed. São Paulo: Atlas, 2020.

DIMITRIADIS, A.; MUSGRAVE, S. Designing linguistic databases: a primer for linguists. In: EVERAERT, M.; MUSGRAVE, S.; DIMITRIADIS, A. (ed.). The use of databases in cross-linguistic studies. Berlin/New York: Mouton de Gruyter, 2009. p. 13-75.

DINIZ, M. H. Dicionário jurídico. São Paulo: Saraiva, 1998.

EGBERT, J.; BURCH, B.; BIBER, D. Lexical dispersion and corpus design. International Journal of Corpus Linguistics, v. 25, n. 1, p. 89-115, 2020. DOI https://doi.org/10.1075/ijcl.18010.egb

EGBERT, J.; LARSSON, T.; BIBER, D. Doing Linguistics with a Corpus. Methodological Considerations for the Everyday User. Cambridge: Cambridge University Press, 2020. DOI https://doi.org/10.1017/9781108888790

FERRARI, L. A; MARQUES, C. G. F. O corpus LEX-BR-Ius, seção legislativa das leis federais brasileiras: arquitetura e primeiras análises. Em preparação.

GRAY, J. Towards a Genealogy of Open Data. In: GENERAL CONFERENCE OF THE EUROPEAN CONSORTIUM FOR POLITICAL RESEARCH. Glasgow, 2014. DOI https://dx.doi.org/10.2139/ssrn.2605828

GUIMARÃES, D. T. Dicionário técnico jurídico. São Paulo: Rideel, 2013.

HARDIE, A. CQPweb — combining power, flexibility and usability in a corpus analysis tool. International Journal of Corpus Linguistics, v. 17, n. 3, p. 380-409, 2012. DOI https://doi.org/10.1075/ijcl.17.3.04har

HEAPS, H. S. Information retrieval: computational and theoretical aspects. New York: Academic Press, 1978.

HERDAN, G. Quantitative linguistics. London: Butterworth, 1964.

IVO, G. O direito e a inevitabilidade do cerco da linguagem. In: CARVALHO, P. de B.; CARVALHO, A. T. de (org.). Constructivismo lógico-semântico. 2. ed. revista v. 1. São Paulo: Noeses, 2020. p. 65-91.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; ROCHA, J. C.; FINATTO, M. J. B. Dicionário de Direito Ambiental. Porto Alegre: Editora da Universidade, 1998.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B.; REUILLARD, P. C. R. Glossário de Gestão Ambiental. São Paulo: Disal Editora, 2006.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B. Dicionário de Direito Ambiental. 2. ed. Rio de Janeiro: Lexikon, 2008.

LABOV, W. The social stratification of English in New York City. Washington: Center for Applied Linguistics, 1966.

LABOV, W. Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press, 1972a.

LABOV, W. Some principles of linguistic methodology. Language in Society, v. 1, n. 1, p. 97-120, 1972b. Disponível em: https://www.jstor.org/stable/4166672. Acesso em: 12 nov. 2021. DOI https://doi.org/10.1017/S0047404500006576

MACIEL, A. M. B. Para o reconhecimento da especificidade do termo jurídico. 2001. 291 f. Tese. (Doutorado em Estudos da Linguagem) – Programa de Pós-Graduação em Letras. Universidade Federal do Rio Grande do Sul, 2001.

MARTIM, H.; LIMA, J. A. O.; ARAUJO, L. C. Base de Normas Jurídicas Brasileiras: uma iniciativa de Open Government Data. Perspectivas em Ciência da Informação, v. 23, n. 4, p. 133, 2018. DOI https://doi.org/10.1590/1981-5344/3567

MELLO, H. Methodological issues for spontaneous speech corpora compilation: the case of C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). Spoken Corpora and Linguistic Studies. Amsterdam: John Benjamins, 2014. v. 1, p. 27-68. DOI https://doi.org/10.1075/scl.61.01mel

PETRI, M. J. C. Manual de linguagem jurídica. 3. ed. São Paulo: Saraiva, 2017.

RAMOS, J. J. S. C. Ocorrência e interpretação dos verbos modais 'dever' e 'poder' em contexto jurídico: contributos para uma análise juslinguística. 207 f. Tese (Doutorado) – Filozofická Fackultá, Univerzita Karlova, Praha, Rep. Tcheca, 2017 apud SVOBODOVÁ (2017).

RASO, T. O corpus C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012. p. 55-90.

RENEAR, A. H.; SACCHI, S.; WICKETT, K. M. Definitions of dataset in the scientific and technical literature. Proceedings of the American Society for Information Science and Technology, v. 47, n. 1, 2010. DOI https://doi.org/10.1002/meet.14504701240

RESENDE, S. V.; MAVERICK, R. Planejamento, compilação e organização de corpora. In: Anais do EBRALC 2015 & ELC 2015 [Blucher Social Science Proceedings, n. 3, v. 2]. São Paulo: Blucher, 2016. p. 27-35. DOI https://doi.org/10.5151/sosci-viiieblc-xiii-elc-06_artigo_03

SANTOS, F. Patronagem e Poder de Agenda na Política Brasileira. Dados: Revista de Ciências Sociais, v. 40, n. 3, 1997. DOI https://doi.org/10.1590/S0011-52581997000

SANTOS, W. Dicionário jurídico brasileiro. Belo Horizonte: Del Rey, 2001.

SEARLE, J. R. Speech Acts. An Essay in the Philosophy of Language. Cambridge: Cambridge University Press, 1969. DOI https://doi.org/10.1017/CBO9781139173438

SVOBODOVÁ, I. Modalidade não epistêmica na linguagem jurídica: um estudo contrastivo. Caligrama, Belo Horizonte, v. 22, n. 2, p. 103-133, 2017. DOI http://dx.doi.org/10.17851/2238-3824.22.2.103-133

TEIXEIRA, W. R.; LIMA, J. A. O.; ARAUJO, L. C.; VIERO, D. M.; SANTANA, F. F.; HERINGER, F. R. A.; MARTIM, H.; VIEIRA FILHO, J. J. Exemplo de extração de definições em textos articulados de normas jurídicas com o apoio do processamento de linguagem natural. Cadernos de Informação Jurídica, v. 6, n. 1, p. 49-64, 2019. Disponível em: http://hdl.handle.net/20.500.11959/brapci/119039. Acesso em: 20 dez. 2021.

WARAT, L. A. O direito e sua linguagem. Porto Alegre: Sergio Antonio Fabris Editor, 1995.

Downloads

Publicado

12.09.2022

Como Citar

FERRARI, Lúcia de Almeida; CUNHA, Evandro Landulfo Teixeira Paradela. Reflexões metodológicas sobre datasets e linguística de corpus: uma análise preliminar de dados legislativos. Domínios de Lingu@gem, Uberlândia, v. 16, n. 4, p. 1571–1607, 2022. DOI: 10.14393/DL52-v16n4a2022-12. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146. Acesso em: 23 maio. 2025.