Methodological reflections on datasets and corpus linguistics

a preliminary analysis of legislative data

Authors

DOI:

https://doi.org/10.14393/DL52-v16n4a2022-12

Keywords:

Text processing, Legal norms dataset, Diachronic analysis, Language and law

Abstract

Computational tools and methods are increasingly important for conducting research in the humanities. In particular, these tools are relevant for diachronic linguistic analysis. In this study, we present a discussion about the use of corpora and datasets in linguistics, highlighting some strengths and limitations of these resources. To illustrate the possibilities of using a dataset for linguistic research, a preliminary study employing a dataset of Brazilian legal norms is also presented.

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

Author Biographies

Lúcia de Almeida Ferrari, Universidade Federal de Minas Gerais

Doutora em Estudos Linguísticos pela Universidade Federal de Minas Gerais (UFMG). Professora na Faculdade de Letras da UFMG.

Evandro Landulfo Teixeira Paradela Cunha, Universidade Federal de Minas Gerais

Doutor em Linguística pela Universiteit Leiden e em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG). Professor na Faculdade de Letras da UFMG.

References

AQUINO, R.; DOUGLAS, W. Manual de português e redação jurídica. 6. ed. Niterói: Impetus, 2017.

BAKER, P. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press, 2010.

BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

BERBER SARDINHA, T. A abordagem metodológica da análise multidimensional. Gragoatá, v. 15, n. 29, p. 107-125, 2010. DOI https://doi.org/10.22409/gragoata.v15i29.

BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. DOI https://doi.org/10.1017/CBO9780511621024

BIBER, D. Methodological issues regarding corpus-based analyses of linguistic variation. Literary and Linguistic Computing, v. 5, n. 4, p. 257-269, 1990. DOI https://doi.org/10.1093/llc/5.4.257

BIBER, D. On the complexity of discourse complexity: A multidimensional analysis. Discourse Processes, v. 15, n. 2, p. 133-163, 1992. DOI https://doi.org/10.1080/

BIBER, D. Representativeness in Corpus Design. Literary and Linguistic Computing, v. 8, n. 4, p. 243-257, 1993. DOI https://doi.org/10.1093/llc/8.4.243

BIBER, D; CONRAD, S. Register, genre, and style. Cambridge: CUP, 2009. DOI https://doi.org/10.1017/CBO9780511814358

BIBER, D.; REPPEN, R.; SCHNUR, E.; GHANEM, R. On the (non)utility of Juilland's D to measure lexical dispersion in large corpora. International Journal of Corpus Linguistics, v. 21, n. 4, p. 439-464, 2016. DOI https://doi.org/10.1075/ijcl.21.4.01bib

BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O'Reilly, 2009.

BITTAR, E. C. B. Linguagem jurídica. 4. ed. São Paulo: Saraiva, 2009.

CARVALHO, L. Os dicionários jurídicos bilíngües e o tradutor - dois binômios em Direito Contratual. TradTerm, v. 12, p. 309-347, 2006. DOI https://doi.org/10.11606/

issn.2317-9511.tradterm.2006.46903

CORDEIRO, J. M. Anos de chumbo ou anos de ouro? A memória social sobre o governo Médici. Estudos Históricos, v. 22, n. 43, p. 85-104, 2009. DOI https://doi.org/

1590/S0103-21862009000100005

CUNHA, E.; MAGNO, G.; CAETANO, J.; TEIXEIRA, D.; ALMEIDA, V. Fake news as we feel it: perception and conceptualization of the term "fake news" in the media. In: STAAB, S.; KOLTSOVA, O.; IGNATOV, D. I. (ed.). Social informatics [Lecture Notes in Computer Science, n. 11185]. Cham: Springer, 2018. p. 151-166. DOI https://doi.org/10.1007/978-3-030-01129-1_10

CUNHA, E. L. T. P.; WICHMANN, S. An algorithm to identify periods of establishment and obsolescence of linguistic items in a diachronic corpus. Corpora, Edinburgh, v. 16, n. 2, p. 205-236, 2021. DOI https://doi.org/10.3366/cor.2021.0218

DAMIÃO, R. T.; HENRIQUES, A. Curso de português jurídico. 14. ed. São Paulo: Atlas, 2020.

DIMITRIADIS, A.; MUSGRAVE, S. Designing linguistic databases: a primer for linguists. In: EVERAERT, M.; MUSGRAVE, S.; DIMITRIADIS, A. (ed.). The use of databases in cross-linguistic studies. Berlin/New York: Mouton de Gruyter, 2009. p. 13-75.

DINIZ, M. H. Dicionário jurídico. São Paulo: Saraiva, 1998.

EGBERT, J.; BURCH, B.; BIBER, D. Lexical dispersion and corpus design. International Journal of Corpus Linguistics, v. 25, n. 1, p. 89-115, 2020. DOI https://doi.org/10.1075/ijcl.18010.egb

EGBERT, J.; LARSSON, T.; BIBER, D. Doing Linguistics with a Corpus. Methodological Considerations for the Everyday User. Cambridge: Cambridge University Press, 2020. DOI https://doi.org/10.1017/9781108888790

FERRARI, L. A; MARQUES, C. G. F. O corpus LEX-BR-Ius, seção legislativa das leis federais brasileiras: arquitetura e primeiras análises. Em preparação.

GRAY, J. Towards a Genealogy of Open Data. In: GENERAL CONFERENCE OF THE EUROPEAN CONSORTIUM FOR POLITICAL RESEARCH. Glasgow, 2014. DOI https://dx.doi.org/10.2139/ssrn.2605828

GUIMARÃES, D. T. Dicionário técnico jurídico. São Paulo: Rideel, 2013.

HARDIE, A. CQPweb — combining power, flexibility and usability in a corpus analysis tool. International Journal of Corpus Linguistics, v. 17, n. 3, p. 380-409, 2012. DOI https://doi.org/10.1075/ijcl.17.3.04har

HEAPS, H. S. Information retrieval: computational and theoretical aspects. New York: Academic Press, 1978.

HERDAN, G. Quantitative linguistics. London: Butterworth, 1964.

IVO, G. O direito e a inevitabilidade do cerco da linguagem. In: CARVALHO, P. de B.; CARVALHO, A. T. de (org.). Constructivismo lógico-semântico. 2. ed. revista v. 1. São Paulo: Noeses, 2020. p. 65-91.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; ROCHA, J. C.; FINATTO, M. J. B. Dicionário de Direito Ambiental. Porto Alegre: Editora da Universidade, 1998.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B.; REUILLARD, P. C. R. Glossário de Gestão Ambiental. São Paulo: Disal Editora, 2006.

KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B. Dicionário de Direito Ambiental. 2. ed. Rio de Janeiro: Lexikon, 2008.

LABOV, W. The social stratification of English in New York City. Washington: Center for Applied Linguistics, 1966.

LABOV, W. Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press, 1972a.

LABOV, W. Some principles of linguistic methodology. Language in Society, v. 1, n. 1, p. 97-120, 1972b. Disponível em: https://www.jstor.org/stable/4166672. Acesso em: 12 nov. 2021. DOI https://doi.org/10.1017/S0047404500006576

MACIEL, A. M. B. Para o reconhecimento da especificidade do termo jurídico. 2001. 291 f. Tese. (Doutorado em Estudos da Linguagem) – Programa de Pós-Graduação em Letras. Universidade Federal do Rio Grande do Sul, 2001.

MARTIM, H.; LIMA, J. A. O.; ARAUJO, L. C. Base de Normas Jurídicas Brasileiras: uma iniciativa de Open Government Data. Perspectivas em Ciência da Informação, v. 23, n. 4, p. 133, 2018. DOI https://doi.org/10.1590/1981-5344/3567

MELLO, H. Methodological issues for spontaneous speech corpora compilation: the case of C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). Spoken Corpora and Linguistic Studies. Amsterdam: John Benjamins, 2014. v. 1, p. 27-68. DOI https://doi.org/10.1075/scl.61.01mel

PETRI, M. J. C. Manual de linguagem jurídica. 3. ed. São Paulo: Saraiva, 2017.

RAMOS, J. J. S. C. Ocorrência e interpretação dos verbos modais 'dever' e 'poder' em contexto jurídico: contributos para uma análise juslinguística. 207 f. Tese (Doutorado) – Filozofická Fackultá, Univerzita Karlova, Praha, Rep. Tcheca, 2017 apud SVOBODOVÁ (2017).

RASO, T. O corpus C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012. p. 55-90.

RENEAR, A. H.; SACCHI, S.; WICKETT, K. M. Definitions of dataset in the scientific and technical literature. Proceedings of the American Society for Information Science and Technology, v. 47, n. 1, 2010. DOI https://doi.org/10.1002/meet.14504701240

RESENDE, S. V.; MAVERICK, R. Planejamento, compilação e organização de corpora. In: Anais do EBRALC 2015 & ELC 2015 [Blucher Social Science Proceedings, n. 3, v. 2]. São Paulo: Blucher, 2016. p. 27-35. DOI https://doi.org/10.5151/sosci-viiieblc-xiii-elc-06_artigo_03

SANTOS, F. Patronagem e Poder de Agenda na Política Brasileira. Dados: Revista de Ciências Sociais, v. 40, n. 3, 1997. DOI https://doi.org/10.1590/S0011-52581997000

SANTOS, W. Dicionário jurídico brasileiro. Belo Horizonte: Del Rey, 2001.

SEARLE, J. R. Speech Acts. An Essay in the Philosophy of Language. Cambridge: Cambridge University Press, 1969. DOI https://doi.org/10.1017/CBO9781139173438

SVOBODOVÁ, I. Modalidade não epistêmica na linguagem jurídica: um estudo contrastivo. Caligrama, Belo Horizonte, v. 22, n. 2, p. 103-133, 2017. DOI http://dx.doi.org/10.17851/2238-3824.22.2.103-133

TEIXEIRA, W. R.; LIMA, J. A. O.; ARAUJO, L. C.; VIERO, D. M.; SANTANA, F. F.; HERINGER, F. R. A.; MARTIM, H.; VIEIRA FILHO, J. J. Exemplo de extração de definições em textos articulados de normas jurídicas com o apoio do processamento de linguagem natural. Cadernos de Informação Jurídica, v. 6, n. 1, p. 49-64, 2019. Disponível em: http://hdl.handle.net/20.500.11959/brapci/119039. Acesso em: 20 dez. 2021.

WARAT, L. A. O direito e sua linguagem. Porto Alegre: Sergio Antonio Fabris Editor, 1995.

Published

2022-09-12

How to Cite

FERRARI, L. de A.; CUNHA, E. L. T. P. Methodological reflections on datasets and corpus linguistics: a preliminary analysis of legislative data. Domínios de Lingu@gem, Uberlândia, v. 16, n. 4, p. 1571–1607, 2022. DOI: 10.14393/DL52-v16n4a2022-12. Disponível em: https://seer.ufu.br/index.php/dominiosdelinguagem/article/view/64146. Acesso em: 24 nov. 2024.