Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC
DOI:
https://doi.org/10.14393/LL60-v30n2a2014-5Keywords:
Corpus. XML. XPath. Penn TreeBankAbstract
Este trabalho faz reflexões acerca do uso da linguagem XML como alternativa ao formato Penn TreeBank para anotação sintática no corpus digital DOViC, uma vez que esta linguagem já é utilizada para a anotação de edições e de informações morfológicas neste corpus. Assim, uma única tecnologia pode ser usada para os diversos tipos de buscas automáticas. Para uma experimentação da anotação sintática com XML, implementamos um programa que faz a conversão do formato Penn TreeBank para a linguagem alvo, e foram realizadas algumas pesquisas sintáticas com a linguagem XPath, uma linguagem de consulta para a tecnologia XML. As buscas realizadas foram comparadas com as mesmas buscas feitas na ferramenta Corpus Search, uma ferramenta específica para o formato Penn TreeBank. O uso de XML para todas as representações favorece a criação de recursos padronizados, que podem ser reutilizados, facilitando a extração de dados de corpora. A disponibilidade de anotação usando um padrão como XML também oferece independência tecnológica a outros grupos pesquisadores interessados no corpus.Â
Downloads
Downloads
Published
Issue
Section
License
The authors retain author's rights but grant the journal the right of firsth publication. The works are licensed under Creative Commons Attribution License, which allows sharing provided that the authors and this journal are properly ackonwledged.