Corpus lexicográfico e visão computacional
uma metodologia baseada em IA para a coleta e anotação semiautomática de sinais em larga escala e a análise de variações lexicais (regionalismos) em Libras
DOI:
https://doi.org/10.14393/DLv20a2026-4Palavras-chave:
Libras, Variação Lexical, Sociolinguística Computacional, Visão Computacional, Corpus LexicográficoResumo
O estudo quantitativo da variação lexical (regionalismos) na Língua Brasileira de Sinais (Libras) é metodologicamente obstaculizado pela ausência de corpora lexicográficos de grande porte com anotação querológica. Metodologias tradicionais de anotação manual, como o ELAN, são inviáveis para a construção de corpora massivos (dezenas de milhares de horas), e a práxis de glosagem conceitual (tradução) resulta na perda de informação articulatória (significante), tornando impossível o estudo de variantes querológicas sutis. Diante dessa lacuna, o objetivo geral deste artigo é propor uma arquitetura metodológica interdisciplinar que articule Linguística de Corpus, Visão Computacional e Sociolinguística Computacional para a construção de um corpus lexicográfico variacionista de Libras em larga escala. Como objetivos específicos, busca-se: (i) mapear o estado da arte na interseção entre IA e línguas de sinais por meio de revisão sistemática PRISMA; (ii) detalhar um pipeline bifásico tecnicamente robusto para coleta e anotação semiautomática; (iii) propor procedimentos de análise sociolinguística computacional para descoberta de variantes regionais; e (iv) estabelecer um framework ético centrado na Pesquisa Liderada por Surdos (Deaf-led Research). A metodologia inicia-se com revisão sistemática (2018-2025), identificando a lacuna central: a IA para línguas de sinais concentra-se quase exclusivamente em reconhecimento (SLR) e tradução (SLT), tratando a variação linguística como ruído a ser eliminado quando, para a Sociolinguística, essa variação constitui precisamente o objeto de estudo. A arquitetura proposta utiliza um pipeline bifásico. A Fase 1 (Extração de Características) emprega estimativa de pose (MediaPipe otimizado), seguindo a otimização de dos Santos et al. (2025), para converter vídeos (coletados "in-the-wild") em representações vetoriais (séries temporais de landmarks), substituindo a glosa por uma "transcrição" querológica quantificável. A Fase 2 (Anotação Semiautomática) utiliza modelos Transformers, treinados em um corpus semente, para gerar sugestões de rótulos lexicais. Essas sugestões são submetidas a uma interface de validação human-in-the-loop, onde linguistas surdos validam ou corrigem as anotações, com o modelo sendo re-treinado iterativamente. Como resultado, a metodologia produz um banco de dados relacional massivo que associa formas articulatórias (vetores) a metadados sociolinguísticos. Este corpus habilita a análise sociolinguística computacional por meio de técnicas de clustering não supervisionado, permitindo a descoberta de padrões e a identificação de variantes regionais que são, subsequentemente, correlacionados com dados geográficos para mapear a variação possibilitando a criação de atlas linguísticos quantitativos para a Libras. A conclusão é que esta arquitetura supera os gargalos da lexicografia tradicional e oferece um caminho viável para a documentação da variação. O artigo discute criticamente os fundamentos éticos, posicionando a pesquisa liderada por surdos" (Deaf-led Research) como pilar metodológico central para mitigar vieses algorítmicos (como o tecno-capacitismo) e garantir que a tecnologia funcione como ferramenta de documentação e empoderamento, e não de substituição ou erosão de direitos linguísticos.
Downloads
Referências
BRAGG, D. et al. Sign language recognition, generation, and translation: An interdisciplinary perspective. In: THE 21ST INTERNATIONAL ACM SIGACCESS CONFERENCE ON COMPUTERS AND ACCESSIBILITY, 2019. p. 16-31. DOI https://doi.org/10.1145/3308561.3353774
CAMGÖZ, N. C. et al. Sign language transformers: Joint end-to-end sign language recognition and translation. In: PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020. p. 10023-10033. Disponível em: https://arxiv.org/abs/2003.13830. Acesso em: 30 jan. 2025.
CAO, Z. et al. OpenPose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, v. 43, n. 1, p. 172-186, 2021. DOI https://doi.org/10.1109/TPAMI.2019.2929257
DE MEULDER, M. The legal recognition of sign languages. Sign Language Studies, v. 15, n. 4, p. 498-506, 2015. DOI https://doi.org/10.1353/sls.2015.0018
DESAI, S. et al. Artificial intelligence in sign language research: Systematic review and future directions. ACM Computing Surveys, v. 56, n. 3, 2024.
DOS SANTOS, D. L. V. et al. Proper body landmark subset enables more accurate and 5X faster recognition of isolated signs in LIBRAS. arXiv preprint arXiv:2510.24887, 2025. Disponível em: https://arxiv.org/abs/2510.24887. Acesso em: 30 jan. 2025.
GRIEVE, J.; SPEELMAN, D.; GEERAERTS, D. A statistical method for the identification and aggregation of regional linguistic variation. Language Variation and Change, v. 23, n. 2, p. 193-221, 2011. DOI https://doi.org/10.1017/S095439451100007X
HIROOKA, K. et al. Stack Transformer based spatial-temporal attention model for dynamic sign language and fingerspelling recognition. arXiv preprint arXiv:2503.16855, 2025.
HOVY, D.; JOHANNSEN, A. Computational sociolinguistics. In: PROCEEDINGS OF THE 15TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EACL), 2017.
IEEE. IEEE P7000 series - Padrões éticos para sistemas autônomos e inteligentes. Disponível em: https://standards.ieee.org/. Acesso em: 10 jan. 2025.
LUGARESI, C. et al. MediaPipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172, 2019. Disponível em: https://arxiv.org/abs/1906.08172. Acesso em: 30 jan. 2025.
MACHADO, V. L. V. Análise da variação lexical em Libras. Repositório UFSC, 2018. Disponível em: https://repositorio.ufsc.br/. Acesso em: 15 jan. 2025.
MERCANOGLU, O.; KELES, H. AUTSL: A large scale multi-modal Turkish sign language dataset and baseline methods. arXiv preprint arXiv:2001.08078, 2020.
NIST. Artificial Intelligence Risk Management Framework (AI RMF 1.0). Disponível em: https://www.nist.gov/itl/ai-risk-management-framework. Acesso em: 10 jan. 2025. DOI https://doi.org/10.6028/NIST.AI.100-1.jpn
OLIVEIRA, L. A.; SILVA, M. P. S. C.; CAMPELO, W. N. M. Variações linguísticas na Libras: particularidades entre as formas de comunicação/sinalização. Revista Cocar, v. 4, 2020.
QUADROS, R. M. Língua de sinais brasileira: estudos linguísticos. Porto Alegre: Artmed, 2016.
QUADROS, R. M.; CRUZ, C. R. Língua de sinais: instrumentos de avaliação. Porto Alegre: Artmed, 2011.
QUADROS, R. M.; KARNOPP, L. B. Língua de Sinais Brasileira: estudos linguísticos. Porto Alegre: Artmed, 2004. DOI https://doi.org/10.18309/anp.v1i16.560
REZENDE, T. M.; ALMEIDA, S. G. M.; GUIMARÃES, F. G. Development and validation of a Brazilian sign language database for human gesture recognition. Research on Biomedical Engineering, v. 37, n. 4, p. 583-595, 2021. DOI
SANTOS, J. B. A variação lexical em Libras em três municípios do Estado de Alagoas. Dissertação (Mestrado em Linguística e Literatura) – Universidade Federal de Alagoas, Maceió, 2020.
SILVA, K. A. A transcrição de textos do Corpus de Libras. In: ANAIS DO VIII SIMPÓSIO INTERNACIONAL DE ESTUDOS DE GÊNEROS TEXTUAIS, 2015.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2026 Bruno Jose Betti Galasso

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos da licença Creative Commons
CC BY-NC-ND 4.0: o artigo pode ser copiado e redistribuído em qualquer suporte ou formato; os créditos devem ser dados ao autor original e mudanças no texto devem ser indicadas; o artigo não pode ser usado para fins comerciais; caso o artigo seja remixado, transformado ou algo novo for criado a partir dele, o mesmo não pode ser distribuído.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.


