Corpus lexicográfico y visión por computadora: una metodología basada en IA para la recolección y anotación semiautomática a gran escala de signos y el análisis de la variación léxica (regionalismos) en la Lengua de Señas Brasileña
uma metodologia baseada em IA para a coleta e anotação semiautomática de sinais em larga escala e a análise de variações lexicais (regionalismos) em Libras
DOI:
https://doi.org/10.14393/DLv20a2026-4Palabras clave:
Libras, Variación Léxica, Sociolingüística Computacional, Visión por Computadora, Corpus LexicográficoResumen
El estudio cuantitativo de la variación léxica (regionalismos) en Libras se ve metodológicamente obstaculizado por la ausencia de corpus lexicográficos a gran escala, anotados cherológicamente. Las metodologías tradicionales de anotación manual, como ELAN, son inviables para la construcción de corpus masivos (decenas de miles de horas), y la praxis del glosado conceptual (traducción) resulta en la pérdida de información articulatoria (significante), haciendo imposible el estudio de variantes cherológicas sutiles. Este artículo propone una arquitectura metodológica interdisciplinaria que resuelve este doble cuello de botella articulando Lingüística de Corpus, Visión por Computadora y Sociolingüística Computacional. El objetivo es detallar una cadena técnica y éticamente robusta para la recolección y anotación semiautomática a gran escala, enfocada específicamente en el descubrimiento y análisis de la variación sociolingüística. La metodología inicia con una revisión sistemática (PRISMA) que mapea el estado del arte (2018-2025), identificando la brecha central: la IA se enfoca casi exclusivamente en el reconocimiento (SLR) y la traducción (SLT), tratando la variación lingüística como ruido en lugar de objeto de estudio. La arquitectura propuesta emplea una cadena de dos fases. La Fase 1 utiliza la estimación de pose (MediaPipe optimizado), siguiendo la optimización de dos Santos et al. (2025), para convertir videos (recogidos "in-the-wild") en representaciones vectoriales (series temporales de puntos de referencia), reemplazando el glosado por una "transcripción cherológica" cuantificable. La Fase 2 utiliza modelos Transformer, entrenados sobre un corpus inicial, para generar sugerencias de etiquetas léxicas. Estas sugerencias son sometidas a una interfaz de validación con intervención humana, donde lingüistas Sordos validan o corrigen las anotaciones, con el modelo siendo reentrenado iterativamente. Como resultado, la metodología produce una base de datos relacional masiva que vincula formas articulatorias (vectores) con metadatos sociolingüísticos. Este corpus permite un análisis sociolingüístico computacional mediante técnicas de agrupamiento no supervisado, facilitando el descubrimiento de patrones y la identificación de variantes regionales, que se correlacionan posteriormente con datos geográficos para mapear la variación, posibilitando la creación de atlas lingüísticos cuantitativos para Libras. La conclusión es que esta arquitectura supera los cuellos de botella de la lexicografía tradicional y ofrece una vía viable para documentar la variación. El artículo discute críticamente los fundamentos éticos, posicionando la "Investigación dirigida por Sordos" como un pilar metodológico central para mitigar sesgos algorítmicos (como el tecno-ablismo) y asegurar que la tecnología funcione como herramienta de documentación y empoderamiento, no para la sustitución ni la erosión de los derechos lingüísticos.
Descargas
Referencias
BRAGG, D. et al. Sign language recognition, generation, and translation: An interdisciplinary perspective. In: THE 21ST INTERNATIONAL ACM SIGACCESS CONFERENCE ON COMPUTERS AND ACCESSIBILITY, 2019. p. 16-31. DOI https://doi.org/10.1145/3308561.3353774
CAMGÖZ, N. C. et al. Sign language transformers: Joint end-to-end sign language recognition and translation. In: PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2020. p. 10023-10033. Disponível em: https://arxiv.org/abs/2003.13830. Acesso em: 30 jan. 2025.
CAO, Z. et al. OpenPose: Realtime multi-person 2d pose estimation using part affinity fields. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, v. 43, n. 1, p. 172-186, 2021. DOI https://doi.org/10.1109/TPAMI.2019.2929257
DE MEULDER, M. The legal recognition of sign languages. Sign Language Studies, v. 15, n. 4, p. 498-506, 2015. DOI https://doi.org/10.1353/sls.2015.0018
DESAI, S. et al. Artificial intelligence in sign language research: Systematic review and future directions. ACM Computing Surveys, v. 56, n. 3, 2024.
DOS SANTOS, D. L. V. et al. Proper body landmark subset enables more accurate and 5X faster recognition of isolated signs in LIBRAS. arXiv preprint arXiv:2510.24887, 2025. Disponível em: https://arxiv.org/abs/2510.24887. Acesso em: 30 jan. 2025.
GRIEVE, J.; SPEELMAN, D.; GEERAERTS, D. A statistical method for the identification and aggregation of regional linguistic variation. Language Variation and Change, v. 23, n. 2, p. 193-221, 2011. DOI https://doi.org/10.1017/S095439451100007X
HIROOKA, K. et al. Stack Transformer based spatial-temporal attention model for dynamic sign language and fingerspelling recognition. arXiv preprint arXiv:2503.16855, 2025.
HOVY, D.; JOHANNSEN, A. Computational sociolinguistics. In: PROCEEDINGS OF THE 15TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (EACL), 2017.
IEEE. IEEE P7000 series - Padrões éticos para sistemas autônomos e inteligentes. Disponível em: https://standards.ieee.org/. Acesso em: 10 jan. 2025.
LUGARESI, C. et al. MediaPipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172, 2019. Disponível em: https://arxiv.org/abs/1906.08172. Acesso em: 30 jan. 2025.
MACHADO, V. L. V. Análise da variação lexical em Libras. Repositório UFSC, 2018. Disponível em: https://repositorio.ufsc.br/. Acesso em: 15 jan. 2025.
MERCANOGLU, O.; KELES, H. AUTSL: A large scale multi-modal Turkish sign language dataset and baseline methods. arXiv preprint arXiv:2001.08078, 2020.
NIST. Artificial Intelligence Risk Management Framework (AI RMF 1.0). Disponível em: https://www.nist.gov/itl/ai-risk-management-framework. Acesso em: 10 jan. 2025. DOI https://doi.org/10.6028/NIST.AI.100-1.jpn
OLIVEIRA, L. A.; SILVA, M. P. S. C.; CAMPELO, W. N. M. Variações linguísticas na Libras: particularidades entre as formas de comunicação/sinalização. Revista Cocar, v. 4, 2020.
QUADROS, R. M. Língua de sinais brasileira: estudos linguísticos. Porto Alegre: Artmed, 2016.
QUADROS, R. M.; CRUZ, C. R. Língua de sinais: instrumentos de avaliação. Porto Alegre: Artmed, 2011.
QUADROS, R. M.; KARNOPP, L. B. Língua de Sinais Brasileira: estudos linguísticos. Porto Alegre: Artmed, 2004. DOI https://doi.org/10.18309/anp.v1i16.560
REZENDE, T. M.; ALMEIDA, S. G. M.; GUIMARÃES, F. G. Development and validation of a Brazilian sign language database for human gesture recognition. Research on Biomedical Engineering, v. 37, n. 4, p. 583-595, 2021. DOI
SANTOS, J. B. A variação lexical em Libras em três municípios do Estado de Alagoas. Dissertação (Mestrado em Linguística e Literatura) – Universidade Federal de Alagoas, Maceió, 2020.
SILVA, K. A. A transcrição de textos do Corpus de Libras. In: ANAIS DO VIII SIMPÓSIO INTERNACIONAL DE ESTUDOS DE GÊNEROS TEXTUAIS, 2015.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2026 Bruno Jose Betti Galasso

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Domínios de Lingu@gem utiliza la licencia Creative Commons (CC) CC BY-NC-ND 4.0, preservando así la integridad de los artículos en un ambiente de acceso abierto. La revista permite al autor conservar los derechos de publicación sin restricciones.


