Processes and products of the Project "Ethical Processing of Indigenous Languages" from the Centre for Artificial Intelligence at the University of São Paulo (2022-2025)
Abstract
PROLIND (Ethical Processing of Brazilian Indigenous Languages) is a project that has been underway since 2022 with the intention of contributing to the documentation and strengthening of Brazilian indigenous languages. Coordinated by researchers from the Universidade de São Paulo's Centre for Artificial Intelligence (C4AI) and IBM-Brazil and professors from the Linguistics Department of the Faculty of Philosophy, Language and Literature, and Human Sciences of the University of São Paulo, the project has been developing ‘writing assistants’, i.e., spell-checkers, automatic translation, and language databases aimed at communities that speak indigenous languages such as Nheengatu and Nhandewa Guarani (who call themselves ‘Tupi Guarani’. PROLIND has always taken care to respect the linguistic and cultural sovereignty of its indigenous partners, with every collaboration formalised via ethical agreements and consent in partnership with the competent authorities. Among the project’s most important results thus far are the creation of applications for translation and writing in Nheengatu, currently being implemented in two schools in Baré communities in the upper Rio Negro region of the State of Amazonas, and workshops for language revitalisation in two Nhandewa Tupi-Guarani communities on the coast of the State of São Paulo. PROLIND prioritises the responsible use of publicly available data and the development of technology that is accessible to the communities that are participating in its creation. This article reports on how technology can be re-signified with regard to the needs and perspectives of indigenous communities, becoming a tool for resistance, fostering cultural and linguistic maintenance and resurgence. In addition the authors discuss the role of linguistics in mediating between traditional knowledge and technological innovation and how collaborative partnerships can generate ethical, sustainable solutions for the teaching and use of indigenous languages in digital settings.
References
AMARAL, L. How can linguists support language revitalization efforts in the Brazilian context. Linguistica, v.17, n.2, pp. 177-193, 2021.
ANCHIETA, J. de. Arte de gramática da língua mais usada na costa do Brasil. 1. ed. Coimbra: João Álvares, 1595.
ARGOLO, W. Línguas gerais na história social-linguística do Brasil. PAPIA, São Paulo, v. 26, n. 1, p. 7-52, 2016.
ARGOLO, W. História linguística do Sul da Bahia: levantando hipóteses e iluminando caminhos. Entrepalavras, v.1, n. 2, p. 270-292, 2012a.
ARGOLO, W. A língua geral da Amazônia como um sistema historicamente novo: jesuítas e tapuias na origem do contexto com interrupção de transmissão linguística entre gerações. In: MATTOS E SILVA, R. V.; OLIVEIRA, K.; AMARANTE, J. (org.). Várias navegações: português arcaico, português brasileiro, cultura escrita no Brasil, outros estudos. Em homenagem a Therezinha Barreto. Salvador: EdUFBA, p. 479-513, 2012b.
ARGOLO, W. Introdução à história das línguas gerais no Brasil: processos distintos de formação no período colonial. Dissertação de mestrado. Universidade Federal da Bahia, 2011a.
ARGOLO, W. Língua geral na Bahia: comarcas de Ilhéus e Porto Seguro. In: CARVALHO, C. dos Santos; ROCHA, F. Aninger de Barros; PARCERO, L. M. de Jesus (orgs.). Discurso e cultura: diálogos interdisciplinares. Salvador: EdUNEB, p. 99-109, 2011b.
BARBOSA, A. Lemos. Curso de Tupi Antigo: Gramática, Exercícios, Temas de Versão, Vocabulário. 1. ed. Rio de Janeiro: Livros de Portugal, 1951.
BETTENDORF, J. F. Catecismo na Língua Brasílica. 1. ed. Lisboa: Miguel Deslandes, 1686.
CARDOSO, A. José de Anchieta. Catecismo brasílico, I (Doutrina Cristã). São Paulo: Edições Loyola, 1993a.
CARDOSO, A. José de Anchieta. Catecismo brasílico, II (Doutrina Cristã) – Doutrina autógrafa e confessionário. São Paulo: Edições Loyola, 1993b.
CAVALIN, Paulo, H. Domingues, J. Nogima, C. Pinhanez. Understanding Native Language Identification for Brazilian Indigenous Languages. AmericasNLP workshop of ACL’23. 2023.
CAVALIN, P., C. Pinhanez, J. Nogima. Human Evaluation of the Usefulness of Fine-Tuned English Translators for the Guarani Mbyá and Nheengatu Indigenous Languages. ILLC workshop of Propor’24. 2024a.
CAVALIN, P., P. Domingues, C. Pinhanez, J. Nogima, Fixing Rogue Memorization in Many-to-One Multilingual Translators of Extremely-Low-Resource Languages by Rephrasing Training Samples. NAACL 24. 2024b.
CAVALIN, P., P. H. Domingues, C. Pinhanez, Sentence-level Aggregation of Lexical Metrics Correlates Stronger with Human Judgements than Corpus-level Aggregation, AAAI 25. 2025.
DJATSY, Lenira Dina de Oliveira et al. (2018). Lições de gramática Nhandewa/Tupi- Guarani. Vol 2. Caderno de Atividades multidisciplinares. Brasília, DF: FUNAI.
DOMINGUES, P, C. Pinhanez, P. Cavalin, J. Nogima. Quantifying the Ethical Dilemma of Using Culturally Toxic Training Data in AI Tools for Indigenous Languages. SIGUL workshop of LREC-COLING’24. 2024.
FIGUEIRA, L. de. Arte da Língua Brasílica. 1. ed. Lisboa: António Álvares, 1621.
FINBOW, T. D. The emergence and nature of the Língua Geral Amazônica’ in accordance with Mufwene’s Language Ecology model. Revista do GEL. v. 19, n. 2, p. 75-112, 2022.
FINBOW, T. D. Uma reanálise de dois casos de mudança estrutural entre o tupi antigo e a língua geral amazônica/nheengatu tidos como exemplos de crioulização e a apresentação de um caso de mudança gramatical no nheengatu do século XIX por contato com o português. In: LIMA-HERNANDEZ, M. C.; SANTOS, M. M. Soares; ADRIANO, P. Soma (orgs.), Estudos de aquisição, Mudança e Ensino-aprendizagem de línguas. VIIIº Simpósio Mundial de Língua Portuguesa (SIMELP 8) / IIIº Simpósio Interdisciplinar de Estudos de Linguagem (SINTEL 3), Brasil – Angola, 4 a 7 de outubro de 2022. vol. 6. São Paulo: Estige Editorial, 2023.
FINBOW, T. D. A sociophilological account of the formation and evolution of the term Língua Geral, with emphasis on Amazonia. Cadernos de linguística, no prelo, 2025.
GERARDI, F. Ferraz. UD for Tupinambá. [S. l.: s. n.], 2024. https://universaldependencies.org/tpn/index.html. Accessed: 2024-05-22.
GERARDI, F. Ferraz. TuLaR. [S. l.: s. n.], 2024. https://tular.clld.org/.
GOMES, M., T. Finbow. Por uma abordagem perspectivista ecológica do contato linguístico entre português e nheengatu. Revista Diálogos (Revdia), v. 11, p. 1-29, 2023.
LEE, M. K. Conversing in Colony: The Brasílica and the Vulgar in Portuguese America 1500-1759. Ph.D. Dissertation, John Hopkins University, 2005.
MARCOLINO, C. et al. Lições de gramática Nhandewa-Guarani. Vol 1. FUNAI/Campinas, SP: Curt Nimuendaju, 2016.
MCCARTY, T. Community-based language planning: Perspectives from indigenous language revitalization. In: HINTON, L.; HUSS, L. M.; ROCHE, G. (eds.). The Routledge Handbook of Language Revitalization. New York and London: Routledge, chap. 3, 2018, pp. 22-35.
NAVARRO, E. de Almeida. José de Anchieta, Poemas. Lírica portuguesa e tupi. São Paulo: Editora Martins Fontes, 1997.
NAVARRO, E. de Almeida. Método moderno de Tupi Antigo. A língua do Brasil dos primeiros séculos. 3 ed., São Paulo: Editora Global, 2008.
NAVARRO, E. de Almeida. Dicionário de Tupi Antigo. A língua indígena clássica do Brasil. São Paulo: Global Editora, 2013.
NAVARRO, E. de Almeida. Curso de Língua Geral (Nheengatu ou Tupi Moderno) A Língua das Origens da Civilização Amazônica. 2ª edição (corrigida e aperfeiçoada). São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.
NAVARRO, E. de Almeida. Transcrição e tradução integral anotada das cartas dos índios Camarões, escritas em 1645 em tupi antigo. Boletim do Museu Paraense Emílio Goeldi, Ciências Humanas, Belém, v. 17, n. 3, 2022.
OLIVEIRA, M. S. D. de; ZANOLI, M. de L.; MODOLO, M. O conceito de “Língua Geral do Brasil” revisitado à luz da linguística de contato. Journal of Ibero-Romance Creoles, v. 9, n.1, p. 306-333, 2019.
PINHANEZ, C., P. Cavalin, L. Storto, T. Finbow, A. Cobbinah, J. Nogima, M. Vasconcelos, P. Domingues, P. Mizukami, N. Grell, M. Gongora, I. Gonçalves. Harnessing the power of artificial intelligence to vitalize endangered indigenous languages: technologies and experiences, ArXiv. Cornell University. (submetido arxiv 2024).
PINHANEZ, C., P. Cavalin, M. Vasconcelos, J. Nogima. Balancing Social Impact, Opportunities, and Ethical Constraints of Using AI in the Documentation and Vitalization of Indigenous Languages. AI for Good special track, IJCAI’23. 2023.
RODRIGUES, A. Dall’Igna. Línguas brasileiras. Para o conhecimento das línguas indígenas. São Paulo: Edições Loyola, 1986.
RODRIGUES, A. Dall’Igna. As línguas gerais sul-americanas. PAPIA. Revista brasileira de crioulos e similares, v. 4, n. 2, p. 4-18, 1996.
SHEIK, K. Verb Quiz. 2023. Available from:https://kiansheik.io/nhe-enga/quiz/.
SHEIK, K. Tupi Grammar Python. 2024a. Available rom: https://github.com/kiansheik/nhe-enga/tree/main/tupi/tupi.
SHEIK, K. Tupi Grammar in English. 2024b. Available from: https://kiansheik.io/nhe-enga/grammar.
SILVA GUYRAAKANGA POTIGUARA, J. R. Araújo da. Tupi Potiguara Kuapa: Conhecendo a língua tupi potiguara. 1. ed. ,Baía da Traição, PB: [s. n.], 2024.
TAN, X.; REN, Y.; HE, D.; QIN, T.; XIAO, T.; LIU, Z.; ZHANG, Y.; CHEN, P.; LI, J.; ZHOU, M.. Multilingual neural machine translation with knowledge distillation. In: International Conference on Learning Representations (ICLR), 2019.
UTIYAMA, M.; ISAHARA, H. A Comparison of Pivot and Direct Translation Approaches in Statistical Machine Translation. Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, 2007, p. 488–495. Disponível em: https://aclanthology.org/P07-1061.pdf
ZUCKERMANN, G.; WALSH, M. Revival Linguistics and the Community: Towards a Sustainable Model for Language Revitalization. Journal of Language Documentation and Conservation, v. 7, 2013, p. 28-52.