Methodological reflections on datasets and corpus linguistics
a preliminary analysis of legislative data
DOI:
https://doi.org/10.14393/DL52-v16n4a2022-12Keywords:
Text processing, Legal norms dataset, Diachronic analysis, Language and lawAbstract
Computational tools and methods are increasingly important for conducting research in the humanities. In particular, these tools are relevant for diachronic linguistic analysis. In this study, we present a discussion about the use of corpora and datasets in linguistics, highlighting some strengths and limitations of these resources. To illustrate the possibilities of using a dataset for linguistic research, a preliminary study employing a dataset of Brazilian legal norms is also presented.
Downloads
Metrics
References
AQUINO, R.; DOUGLAS, W. Manual de português e redação jurídica. 6. ed. Niterói: Impetus, 2017.
BAKER, P. Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press, 2010.
BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.
BERBER SARDINHA, T. A abordagem metodológica da análise multidimensional. Gragoatá, v. 15, n. 29, p. 107-125, 2010. DOI https://doi.org/10.22409/gragoata.v15i29.
BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. DOI https://doi.org/10.1017/CBO9780511621024
BIBER, D. Methodological issues regarding corpus-based analyses of linguistic variation. Literary and Linguistic Computing, v. 5, n. 4, p. 257-269, 1990. DOI https://doi.org/10.1093/llc/5.4.257
BIBER, D. On the complexity of discourse complexity: A multidimensional analysis. Discourse Processes, v. 15, n. 2, p. 133-163, 1992. DOI https://doi.org/10.1080/
BIBER, D. Representativeness in Corpus Design. Literary and Linguistic Computing, v. 8, n. 4, p. 243-257, 1993. DOI https://doi.org/10.1093/llc/8.4.243
BIBER, D; CONRAD, S. Register, genre, and style. Cambridge: CUP, 2009. DOI https://doi.org/10.1017/CBO9780511814358
BIBER, D.; REPPEN, R.; SCHNUR, E.; GHANEM, R. On the (non)utility of Juilland's D to measure lexical dispersion in large corpora. International Journal of Corpus Linguistics, v. 21, n. 4, p. 439-464, 2016. DOI https://doi.org/10.1075/ijcl.21.4.01bib
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O'Reilly, 2009.
BITTAR, E. C. B. Linguagem jurídica. 4. ed. São Paulo: Saraiva, 2009.
CARVALHO, L. Os dicionários jurídicos bilíngües e o tradutor - dois binômios em Direito Contratual. TradTerm, v. 12, p. 309-347, 2006. DOI https://doi.org/10.11606/
issn.2317-9511.tradterm.2006.46903
CORDEIRO, J. M. Anos de chumbo ou anos de ouro? A memória social sobre o governo Médici. Estudos Históricos, v. 22, n. 43, p. 85-104, 2009. DOI https://doi.org/
1590/S0103-21862009000100005
CUNHA, E.; MAGNO, G.; CAETANO, J.; TEIXEIRA, D.; ALMEIDA, V. Fake news as we feel it: perception and conceptualization of the term "fake news" in the media. In: STAAB, S.; KOLTSOVA, O.; IGNATOV, D. I. (ed.). Social informatics [Lecture Notes in Computer Science, n. 11185]. Cham: Springer, 2018. p. 151-166. DOI https://doi.org/10.1007/978-3-030-01129-1_10
CUNHA, E. L. T. P.; WICHMANN, S. An algorithm to identify periods of establishment and obsolescence of linguistic items in a diachronic corpus. Corpora, Edinburgh, v. 16, n. 2, p. 205-236, 2021. DOI https://doi.org/10.3366/cor.2021.0218
DAMIÃO, R. T.; HENRIQUES, A. Curso de português jurídico. 14. ed. São Paulo: Atlas, 2020.
DIMITRIADIS, A.; MUSGRAVE, S. Designing linguistic databases: a primer for linguists. In: EVERAERT, M.; MUSGRAVE, S.; DIMITRIADIS, A. (ed.). The use of databases in cross-linguistic studies. Berlin/New York: Mouton de Gruyter, 2009. p. 13-75.
DINIZ, M. H. Dicionário jurídico. São Paulo: Saraiva, 1998.
EGBERT, J.; BURCH, B.; BIBER, D. Lexical dispersion and corpus design. International Journal of Corpus Linguistics, v. 25, n. 1, p. 89-115, 2020. DOI https://doi.org/10.1075/ijcl.18010.egb
EGBERT, J.; LARSSON, T.; BIBER, D. Doing Linguistics with a Corpus. Methodological Considerations for the Everyday User. Cambridge: Cambridge University Press, 2020. DOI https://doi.org/10.1017/9781108888790
FERRARI, L. A; MARQUES, C. G. F. O corpus LEX-BR-Ius, seção legislativa das leis federais brasileiras: arquitetura e primeiras análises. Em preparação.
GRAY, J. Towards a Genealogy of Open Data. In: GENERAL CONFERENCE OF THE EUROPEAN CONSORTIUM FOR POLITICAL RESEARCH. Glasgow, 2014. DOI https://dx.doi.org/10.2139/ssrn.2605828
GUIMARÃES, D. T. Dicionário técnico jurídico. São Paulo: Rideel, 2013.
HARDIE, A. CQPweb — combining power, flexibility and usability in a corpus analysis tool. International Journal of Corpus Linguistics, v. 17, n. 3, p. 380-409, 2012. DOI https://doi.org/10.1075/ijcl.17.3.04har
HEAPS, H. S. Information retrieval: computational and theoretical aspects. New York: Academic Press, 1978.
HERDAN, G. Quantitative linguistics. London: Butterworth, 1964.
IVO, G. O direito e a inevitabilidade do cerco da linguagem. In: CARVALHO, P. de B.; CARVALHO, A. T. de (org.). Constructivismo lógico-semântico. 2. ed. revista v. 1. São Paulo: Noeses, 2020. p. 65-91.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; ROCHA, J. C.; FINATTO, M. J. B. Dicionário de Direito Ambiental. Porto Alegre: Editora da Universidade, 1998.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B.; REUILLARD, P. C. R. Glossário de Gestão Ambiental. São Paulo: Disal Editora, 2006.
KRIEGER, M. G.; MACIEL, A. M. B.; BEVILACQUA, C. R.; FINATTO, M. J. B. Dicionário de Direito Ambiental. 2. ed. Rio de Janeiro: Lexikon, 2008.
LABOV, W. The social stratification of English in New York City. Washington: Center for Applied Linguistics, 1966.
LABOV, W. Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press, 1972a.
LABOV, W. Some principles of linguistic methodology. Language in Society, v. 1, n. 1, p. 97-120, 1972b. Disponível em: https://www.jstor.org/stable/4166672. Acesso em: 12 nov. 2021. DOI https://doi.org/10.1017/S0047404500006576
MACIEL, A. M. B. Para o reconhecimento da especificidade do termo jurídico. 2001. 291 f. Tese. (Doutorado em Estudos da Linguagem) – Programa de Pós-Graduação em Letras. Universidade Federal do Rio Grande do Sul, 2001.
MARTIM, H.; LIMA, J. A. O.; ARAUJO, L. C. Base de Normas Jurídicas Brasileiras: uma iniciativa de Open Government Data. Perspectivas em Ciência da Informação, v. 23, n. 4, p. 133, 2018. DOI https://doi.org/10.1590/1981-5344/3567
MELLO, H. Methodological issues for spontaneous speech corpora compilation: the case of C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). Spoken Corpora and Linguistic Studies. Amsterdam: John Benjamins, 2014. v. 1, p. 27-68. DOI https://doi.org/10.1075/scl.61.01mel
PETRI, M. J. C. Manual de linguagem jurídica. 3. ed. São Paulo: Saraiva, 2017.
RAMOS, J. J. S. C. Ocorrência e interpretação dos verbos modais 'dever' e 'poder' em contexto jurídico: contributos para uma análise juslinguística. 207 f. Tese (Doutorado) – Filozofická Fackultá, Univerzita Karlova, Praha, Rep. Tcheca, 2017 apud SVOBODOVÁ (2017).
RASO, T. O corpus C-ORAL-BRASIL. In: RASO, T.; MELLO, H. (org.). C-ORAL-BRASIL I. Corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012. p. 55-90.
RENEAR, A. H.; SACCHI, S.; WICKETT, K. M. Definitions of dataset in the scientific and technical literature. Proceedings of the American Society for Information Science and Technology, v. 47, n. 1, 2010. DOI https://doi.org/10.1002/meet.14504701240
RESENDE, S. V.; MAVERICK, R. Planejamento, compilação e organização de corpora. In: Anais do EBRALC 2015 & ELC 2015 [Blucher Social Science Proceedings, n. 3, v. 2]. São Paulo: Blucher, 2016. p. 27-35. DOI https://doi.org/10.5151/sosci-viiieblc-xiii-elc-06_artigo_03
SANTOS, F. Patronagem e Poder de Agenda na Política Brasileira. Dados: Revista de Ciências Sociais, v. 40, n. 3, 1997. DOI https://doi.org/10.1590/S0011-52581997000
SANTOS, W. Dicionário jurídico brasileiro. Belo Horizonte: Del Rey, 2001.
SEARLE, J. R. Speech Acts. An Essay in the Philosophy of Language. Cambridge: Cambridge University Press, 1969. DOI https://doi.org/10.1017/CBO9781139173438
SVOBODOVÁ, I. Modalidade não epistêmica na linguagem jurídica: um estudo contrastivo. Caligrama, Belo Horizonte, v. 22, n. 2, p. 103-133, 2017. DOI http://dx.doi.org/10.17851/2238-3824.22.2.103-133
TEIXEIRA, W. R.; LIMA, J. A. O.; ARAUJO, L. C.; VIERO, D. M.; SANTANA, F. F.; HERINGER, F. R. A.; MARTIM, H.; VIEIRA FILHO, J. J. Exemplo de extração de definições em textos articulados de normas jurídicas com o apoio do processamento de linguagem natural. Cadernos de Informação Jurídica, v. 6, n. 1, p. 49-64, 2019. Disponível em: http://hdl.handle.net/20.500.11959/brapci/119039. Acesso em: 20 dez. 2021.
WARAT, L. A. O direito e sua linguagem. Porto Alegre: Sergio Antonio Fabris Editor, 1995.
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 Lúcia de Almeida Ferrari, Evandro Landulfo Teixeira Paradela Cunha
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Authors who publish in this journal agree to the following terms:
Authors retain the copyright and waiver the journal the right of first publication, with the work simultaneously licensed under the Creative Commons Attribution License (CC BY-NC-ND 4.0), allowing the sharing of work with authorship recognition and preventing its commercial use.
Authors are authorized to take additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (publish in institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.