Transcription and data annotation using ELAN and LancsBox
DOI:
https://doi.org/10.14393/DL51-v16n3a2022-10Keywords:
Speech data, Sociolinguistics, ELAN, LancsBox, Linguistic DatabasesAbstract
This study aims at demonstrating how the transcription tool ELAN 5.9 (2020) and the corpus analysis LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) have been contributing to transcribe sociolinguistics interviews made at Grupo de Pesquisa em Linguagem, Interação e Sociedade (GELINS) as well as to the automatically extract variable linguistic phenomena. In order to do that, norms through which the interviews are transcribed, ways of using ELAN 5.9 (2020) for transcription, and the way to morphologically tag data and to search speech data for linguistic variable phenomena using LancsBox 5.1.2 (BREZINA; WEILL-TESSIER; MCENERY, 2020) are presented. The two tools have been useful to an aligned transcription, a morphological annotation, and an automated search on large amounts of speech data. This text contributes to the exploration of tools that enables a faster and more accurate transcription of speech data as well as more automated searches on large amounts of data.
Downloads
Metrics
References
ALENCAR, L. F. Aelius 0.9.7 User's Manual. 2013. Disponível em: http://aelius.sourceforge.net/manual.html. Acesso em: 25 fev. 2020.
ANTHONY, L. AntConc v. 3.5.9 [Computer Software]. Tokyo, Japan: Waseda University. Disponível em: https://www.laurenceanthony.net/software. Acesso em: 20 ago 2020.
BERBER SARDINHA, T. Linguística de Corpus. Barueri: Manolo, 2004.
BREZINA, V.; WEILL-TESSIER, P.; MCENERY, A. (2020). #LancsBox v. 5.1.2 [software]. Disponível em: http://corpora.lancs.ac.uk/lancsbox. Acesso em: 20 ago. 2020.
CARDOSO, P. B. O paradoxo entre a transparência dos dados e a privacidade dos informantes na gestão de dados linguísticos. Revista da ABRALIN, v. 19, n. 2, p. 1-9, 24 ago. 2020. Disponível em: https://revista.abralin.org/index.php/abralin/article/view/1631. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/rabralin.v19i2.1631
CIANCONI, R. B. Banco de dados de acesso público. Ciência Da Informação, v. 16, n 1, p. 53-59, 1987. Disponível em: https://revista.ibict.br/ciinf/article/view/271. Acesso em: 08 jul. 2022. DOI
ELAN (Version 5.9) [Computer software]. (2020). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. Disponível em: https://archive.mpi.nl/tla/ELAN.
FREITAG, R. M. Ko; MARTINS, M. A.; TAVARES, M. A. Bancos de dados sociolinguísticos do português brasileiro e os estudos de terceira onda: potencialidades e limitações. Alfa: Revista de Linguística, v. 56, n. 3, 2012. Disponível em: https://www.scielo.br/j/alfa/a/J6ZcH9z3RPYz5ZGxnQkZJkr/abstract/?lang=pt. Acesso em: 12 jan. 2021. DOI https://doi.org/10.1590/S1981-57942012000300009
FREITAG, R. M. Ko. Banco de dados falares sergipanos. Working Papers em Linguística, v. 14, n. 2, p. 156-164, 2013. Disponível em: https://periodicos.ufsc.br/index.php/workingpapers/article/view/1984-8420.2013v14n2p156. Acesso em: 05 jul. 2021. DOI https://doi.org/10.5007/1984-8420.2013v14n2p156
FREITAG, R. M. Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS
FREITAG, R. M. Ko.; PINHEIRO, B. F. M.; SILVA, L. S. Análise variacionista de pausas preenchidas em fronteiras de constituintes. In: FREITAG, R. M. KO.; LUCENTE, L. Prosódia da fala: pesquisa e ensino. São Paulo: Blucher, 2017. DOI https://doi.org/10.5151/9788580392593-07
FREITAG, R. M. K. Projeto de pesquisa: A língua do universitário: fala, leitura e escrita para o letramento acadêmico. 2018. Disponível em: https://url.gratis/5V6QBR. Acesso em: 20 abr. 2020.
FREITAG, R. M. K.; MARTINS, M. A. R.; ARAÚJO, A.; BATTISTI, E.; COELHO, I. M. W. DA S.; SOUSA, M. D. A. F.; SILVA, R. G. DA; LIMA-LOPES, R. E. DE. Desafios da gestão de dados linguísticos e a Ciência Aberta. Cadernos de Linguística, v. 2, n. 1, p. 01-19, abr. 2021. Disponível em: https://cadernos.abralin.org/index.php/cadernos/article/view/307. Acesso em: 05 jul. 2021. DOI https://doi.org/10.25189/2675-4916.2021.v2.n1.id307
GONÇALVES, S. C. L.; TENANI, L. E. Problemas teórico-metodológicos na elaboração de um sistema de transcrição de dados interacionais: o caso do projeto ALIP (Amostra Lingüística do Interior Paulista). Gragoatá, n. 25, p. 165-183, 2008. Disponível em: https://periodicos.uff.br/gragoata/article/view/33148. Acesso em: 05 jul. 2021.
KILGARRIFF, A.; BAISA, V.; BUŠTA, J.; JAKUBÍČEK, M.; KOVÁŘ, V.; MICHELFEIT, J.; RYCHLÝ, P.; SUCHOMEL, V. The Sketch Engine: ten years on. Lexicography, v.1, p. 7-36, 2014. DOI https://doi.org/10.1007/s40607-014-0009-9
NAGY, N.; MEYERHOFF, M. Extending ELAN into variationist sociolinguistics. Linguistics Vanguard, v. 1, n. 1, 2015, p. 271-281. Disponível em: https://doi.org/10.1515/lingvan-2015-0012. Acesso em: 20 jul. 2021. DOI https://doi.org/10.1515/lingvan-2015-0012
NOVAIS, V. S. Variação na concordância verbal de terceira pessoa do plural na fala de universitários sergipanos. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2021.
OTHERO, G. A.; AYRES, M. R. Anotação morfológica automática de corpus de língua falada: desafios ao Aelius. Texto Livre: linguagem e tecnologia, v. 7, n. 2, p.44-60, 2014. Disponível em: http://www.periodicos.letras.ufmg.br/index.php/textolivre/article/view/6123/5959. Acesso em: 01 jul. 2019. DOI https://doi.org/10.17851/1983-3652.7.2.44-60
OUSHIRO, L. Transcrição de entrevistas sociolinguísticas com o ELAN. In: FREITAG, Raquel Meister Ko (org.). Metodologia de Coleta e Manipulação de Dados em Sociolinguística. São Paulo: Blucher, 2014. DOI https://doi.org/10.5151/BlucherOA-MCMDS-9cap
PAIVA, M. C. Transcrição de dados lingüísticos. In: MOLLICA, M. C.; BRAGA, M. L. (org.). Introdução à Sociolingüística: o tratamento da variação. São Paulo: Contexto, 2003. p. 135-146.
RODRIGUES, F. G. C. Variação na regência de complementos locativos verbos de movimento na fala de universitários da UFS. 2021. Dissertação (Mestrado em Letras) – Universidade Federal de Sergipe, São Cristóvão, 2019.
ROSENFELDER, I. A short introduction to transcribing with elan. University of Pennsylvania, 2011. Disponível em: https://www.ling.upenn.edu/~wlabov/L560/ELAN_introduction.pdf. Acesso em: 20 jul. 2021.
SCHMID, H. Improvements in Part-of-Speech Tagging with an Application to German. In: Proceedings of the ACL SIGDAT-Workshop. 1995, Dublin. Proceedings […]. Dublin, 1994.
SIQUEIRA, M. Análise contrastiva da estrutura do sintagma nominal possessivizado no português brasileiro. Matraga, v. 28, n. 52, 2021. Disponível em: https://www.e-publicacoes.uerj.br/index.php/matraga/article/view/53146. Acesso em: 02 jul. 2021. DOI https://doi.org/10.12957/matraga.2021.53146
STARTING with #LancsBox v. 3.0. 2017. 1 vídeo (6min 54s). Publicado pelo canal de Vaclav Brezina. Disponível em: https://www.youtube.com/watch?v=7SFJMFUP83Y. Acesso em: 20 jul. 2021.
TACCHETTI, M. User's Guide for ELAN Linguistic Annotator. 2017. Disponível em: https://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf. Acesso em: 20 jul. 2021.
#LancsBox 5.1 manual. Lancaster University. Disponível em: http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_5.1_manual.pdf. Acesso em: 20 jul. 2021.
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 Marta Deysiane Alves Faria Sousa, Victor Renê Andrade Souza
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Authors who publish in this journal agree to the following terms:
Authors retain the copyright and waiver the journal the right of first publication, with the work simultaneously licensed under the Creative Commons Attribution License (CC BY-NC-ND 4.0), allowing the sharing of work with authorship recognition and preventing its commercial use.
Authors are authorized to take additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (publish in institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.