Prosódia e síntese da fala: uma revisão integrativa da literatura
Resumo
Este é um trabalho de revisão integrativa acerca de estudos feitos entre as relações da prosódia e da síntese de fala. A partir da pergunta de pesquisa “Como a prosódia tem sido considerada em trabalhos que visam o aprimoramento da síntese de fala?”, realizamos uma busca no Google Scholar com a sintaxe (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR “síntese da fala”). Avaliamos os títulos e os resumos dos estudos e, mediante a observação de critérios de inclusão e de exclusão, encontramos 10 estudos, entre 2010 e 2021, que dissertam sobre prosódia e síntese de fala. Os trabalhos selecionados indicam que a frequência fundamental (ou pitch) é o recurso mais expressivo para o aprimoramento da fala sintética, embora os sistemas de conversão de texto para a fala utilizem outras características prosódicas para aprimorar seu desempenho. Além disso, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala e que é importante a pesquisa conjunta entre pesquisadores de áreas da linguística e das engenharias, a fim de se obter melhores resultados em sistemas de síntese de fala.
Referências
BALLESTEROS, M.; WANNER, L. A Neural Network Architecture for Multilingual Punctuation Generation. Association for Computational Linguistics, Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, 1048-1053, 2016. Disponível em: http://dx.doi.org/10.18653/v1/D16-1111. Acesso em: 8 fev. 2022.
BARBOSA, D. S. Análise e proposição de modelos de síntese de fala para integração ao framework FIVE. Dissertação (Mestrado em Engenharia de Computação), Universidade de Pernambuco, Recife, 2016.
BARBOSA, P. A. Revelar a estrutura rítmica de uma língua construindo máquinas falantes: pela integração de ciência e tecnologia de fala. In: Estudos de prosódia. SCARPA, E. M. (org.). Campinas, SP: Editora da Unicamp, 1999.
BARBOSA, P. A. Prosódia. São Paulo: Parábola, 2019.
BRAGA, D. Máquinas falantes: Novos paradigmas da língua e da linguística. Colóquio Política Linguística, 2007. Disponível em: http://download.microsoft.com/download/A/0/B/A0B1A66A-5EBF-4CF3-9453-4B13BB027F1F/ColoquioPoliticaLinguistica_2007.pdf. Acesso em: 07 ago. 2022.
CHBANE, D. T. Desenvolvimento de sistema para conversão de textos em fonemas no idioma português. Dissertação (Mestrado em Engenharia). Universidade de São Paulo, Escola Politécnica, São Paulo, 1994.
CHEN, J.; YANG, H.; WU, X.; MOORE, B. C.J. The effect of F0 contour on the intelligibility of speech in the presence of interfering sounds for Mandarin Chinese. The Journal of the Acoustical Society of America, 143, 864-877, 2018. Disponível em: https://doi.org/10.1121/1.5023218. Acesso em: 22 maio 2022.
DUTOIT, T. An introduction to text-to-speech synthesis. Kluwer Academic Publishers, 1997.
EGASHIRA, F. Síntese de voz a partir de texto para a língua portuguesa. Dissertação (Mestrado em Engenharia Elétrica). Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica, Campinas, 1992.
FUJISAKI, H. Prosody, models, and spontaneous speech. IN: SAGISAKA, Y.; CAMPBELL, N.; HIGUCHI, N. (edits). Computing Prosody: Computational Models for Processing Spontaneous Speech. New York, Springer, 1997.
GOMES, L. C. T. Sistema de conversão texto-fala para a língua portuguesa utilizando a abordagem de síntese por regras. Dissertação (Mestrado em Engenharia Elétrica). Unicamp, Faculdade de Engenharia Elétrica e de Computação, 1998.
INOUE, K.; HARA, S.; ABE, M.; HOJO, N.; IJIMA, Y. An investigation to transplant emotional expressions in DNN-based TTS synthesis. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2017, pp. 1253-1258, Disponível em: 10.1109/APSIPA.2017.8282231. Acesso em: 23 abr. 2022.
KAMEOKA, H.; YOSHIZATO, K.; ISHIHARA, T.; KADOWAKI, K.; OHISHI, Y.; KASHINO, K. Generative Modeling of Voice Fundamental Frequency Contours. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 6, pp. 1042-1053, June 2015. Disponível em: 10.1109/TASLP.2015.2418576. Acesso em: 18 jul. 2022.
KLIMKOV, V.; NADOLSKI, A.; MOINET, A.; PUTRYCZ, B.; BARRA-CHICOTE, R.; MERRITT, T.; DRUGMAN, T. Phrase Break Prediction for Long-Form Reading TTS: Exploiting Text Structure Information. Proc. Interspeech, p. 1064-1068, 2017. Disponível em: http://dx.doi.org/10.21437/Interspeech.2017-419. Acesso em: 25 maio 2022.
KORIYAMA, T.; KOBAYASHI, T. Prosody generation using frame-based Gaussian process regression and classification for statistical parametric speech synthesis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4929-4933, 2015. Disponível em: https://doi.org/10.1109/ICASSP.2015.7178908. Acesso em: 18 jul. 2022.
LATSCH, V. L. Desenvolvimento de um sistema de conversão texto-fala com modelagem de prosódia. Tese (Doutorado em Engenharia Elétrica). Universidade Federal do Rio de Janeiro, Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia, Rio de Janeiro, 2011.
LIU, X.; LIU, Y.; SONG, X. Investigating for Punctuation Prediction in Chinese Speech Transcriptions. 2018 International Conference on Asian Language Processing (IALP), IEEE, p. 74-78, 2018. Disponível em: https://doi.org/10.1109/IALP.2018.8629143. Acesso em: 25 maio 2022.
MAIA, R.; SEARA, R. Um sistema TTS baseado em redes neurais profundas usando parâmetros síncronos de pitch. XXXV Simpósio Brasileiro de Telecomunicações e Processamento de Sinais – São Pedro, SP, 3-6 de setembro, 2017. Disponível em: https://www.sbrt.org.br/sbrt2017/anais/1570361943.pdf Acesso em: 16 jul. 2022.
MANFIO, E. R. Como funcionam alguns fonemas no aplicativo Balabolka. Revista de Linguística e Teoria Literária, Via Litterae, Anápolis, v. 4, n. 2, p. 191-204, jul./dez. 2012. Disponível em: www2.unucseh.ueg.br/vialitterae. Acesso em: 08 ago. 2022.
MORAES, J. A. “The Pitch Accents in Brazilian Portuguese: analysis by synthesis”. Proceedings of the Fourth Conference on Speech Prosody, pp. 389– 398, maio, 2008. Disponível em: https://www.isca-speech.org/archive_v0/sp2008/papers/sp08_389.pdf. Acesso em: 08 ago. 2022.
MOREIRA, N. A. M. Proposta de um front-end em java para sintetizador de voz baseado no MBROLA. Dissertação (Engenharia de Teleinformática). Universidade Federal do Ceará, Centro de Tecnologia, Departamento de Engenharia de Teleinformática, Fortaleza, 2015.
MOUNGSRI. D.; KORIYAMA, T.; KOBAYASHI, T. Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2017, pp. 1524-1527, Disponível em: https://doi.org/10.1109/APSIPA.2017.8282285. Acesso em: 18 jul. 2022.
NETO, C. S. N. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Tese (Doutorado em Engenharia Elétrica com ênfase em Computação Aplicada). Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2011.
OLIVEIRA, L. M. V. V. C. Síntese de fala a partir de texto. Dissertação (Mestrado em Engenharia Electrotécnica e de Computadores). Universidade Técnica de Lisboa, Instituto Superior Técnico, Lisboa, 1996.
PACHECO, F. S. Artigo de Revisão: Sistemas de Síntese de Fala. Revista Ilha Digital, ISSN 2177-2649, volume 2, páginas 3 – 17, 2010. Disponível em: http://ilhadigital.florianopolis.ifsc.edu.br/index.php/ilhadigital/article/view/17. Acesso em: 07 ago. 2022.
RAO, M.V. A.; GHOSH, P. K. Pitch prediction from Mel-generalized cepstrum — a computationally efficient pitch modeling approach for speech synthesis. 2017 25th European Signal Processing Conference (EUSIPCO), pp. 1629-1633, 2017. Disponível em: https://doi.org/10.23919/EUSIPCO.2017.8081485. Acesso em: 22 maio 2022.
REIS, B. F.; MARTINS, V. V.; PEREIRA-BARRETTO, M. R.; MOSCATO, L. A. Síntese prosódica da fala em português do Brasil.: In XSABAI – Simpósio Brasileiro de Automação Inteligente, X, 2011. São João del-Rei, Minas Gerais, p. 1185-1188, 2011. Disponível em: https://fei.edu.br/sbai/SBAI2011/86262.pdf. Acesso em: 18 jul. 2022.
ROBINSON, C.; OBIN, N.; ROEBEL, A. Sequence-to-sequence Modelling of F0 for Speech Emotion Conversion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6830-6834, 2019. Disponível em: https://doi.org/10.1109/ICASSP.2019.8683865. Acesso em: 18 jul. 2022.
SÁ, F. C. Geração de prosódia para o português brasileiro em sistemas text-to-speech. Monografia (Bacharelado em Ciência da Computação). Universidade Federal do Rio Grande do Norte, Natal, 2018.
SAGISAKA, Y. Speech synthesis from text. IEEE Communications Magazine, 28 (1), 35–41, 1990. Disponível em: https://doi.org/10.1109/35.46669. Acesso em: 07 ago. 2022.
SILVA, C. H.; VIOLARO, F. Modelamento prosódico para conversão texto-fala do português falado no Brasil. Revista Brasileira de Telecomunicações, Volume 10, número 1, 1995. Disponível em: https://jcis.sbrt.org.br/jcis/article/view/179/93. Acesso em: 08 ago. 2022.
SILVA, S. Z. Um estudo de modelos básicos de prosódia para o Português Brasileiro. Tese (Mestrado em Engenharia Elétrica), Universidade Federal do Rio de Janeiro, COPPE, Rio de Janeiro, 2004.
SIMÕES, F. O. Implementação de um sistema de conversão texto-fala para o português do Brasil. Dissertação (Mestrado em Engenharia Elétrica), Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, 1999.
SIMÕES, F. O.; VIOLARO, F.; BARBOSA, P. A.; ALBANO, E. C. Um sistema de conversão texto-fala para o português falado no Brasil. Journal of Communication and Information Systems, 15(2), 2000. Disponível em: http://dx.doi.org/10.14209/jcis.2000.8. Acesso em: 08 ago. 2022.
SOUZA, C. F. S. Síntese de fala em português brasileiro baseada em modelos ocultos de Markov. Dissertação (Mestrado em Ciência da Computação). Universidade Federal de Pernambuco, Centro de Informática, Recife, 2010.
SZASZÁK, G., TÜNDIK, M. Á. Leveraging a character, word and prosody triplet for an ASR error robust and agglutination friendly punctuation approach. Proc. Interspeech, p. 2988-2992, 2019. Disponível em: http://dx.doi.org/10.21437/Interspeech.2019-2132. Acesso em: 25 maio 2022.
TAHON, M.; LECORVÉ, G.; LOLIVE, D. Can We Generate Emotional Pronunciations for Expressive Speech Synthesis? IEEE Transactions on Affective Computing, vol. 11, no. 4, pp. 684-695, 1 Oct.-Dec. 2020. Disponível em: https://doi.org/10.1109/TAFFC.2018.2828429. Acesso em: 18 jul. 2022.
TAYLOR, P. Text–to–Speech Synthesis. Cambridge University Press, 2009.
TEIXEIRA, A. H. K.; SANTOS, I. M. M.; MOTA, J. S.; GOMES DE SOUZA, J. Tecnologias de reconhecimento de fala: uma revisão sistemática de trabalhos no Brasil. XX Encoinfo – Congresso de Computação e Tecnologias da Informação. 160-167, 2016. Disponível em: http://ulbra-to.br/encoinfo/wp-content/uploads/2020/03/Tecnologias-de-Reconhecimento-de-Fala-uma-revis%C3%A3o-sistem%C3%A1tica-de-trabalhos-no-Brasil.pdf. Acesso em: 07 ago. 2022.
THOMAS, C.; GOKUL, P.; THOMAS, N.; GOPINATH, D. P. Synthesizing intonation for Malayalam TTS. International Conference on Control Communication & Computing India (ICCC), 2015, pp. 522-527, Disponível em: https://doi.org/10.1109/ICCC.2015.7432949. Acesso em: 22 maio 2022.
THOMAZ, L. A. Modelagem de prosódia para conversores texto-fala. Monografia (Graduação em Eletrônica e Computação). Universidade Federal do Rio de Janeiro, Escola Politécnica, Departamento de Eletrônica e de Computação, Centro de Tecnologia, Rio de Janeiro, 2012.
URSI, E. S. Prevenção de lesões de pele no perioperatório: revisão integrativa da literatura. Dissertação (Mestrado em Enfermagem). Universidade de São Paulo, Ribeirão Preto, 2005.
YI, J.; TAO, J. Self-attention Based Model for Punctuation Prediction Using Word and Speech Embeddings. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, pp. 7270-7274, 2019. Disponível em: https://doi.org/10.1109/ICASSP.2019.8682260. Acesso em: 08 fev. 2022.
ZEN, H.; TOKUDA, K.; BLACK, A. W. Statistical parametric speech synthesis. Speech Communication, Elsevier, v. 51, n. 11, p. 1039–1064, 2009. Disponível em: https://doi.org/10.1016/j.specom.2009.04.004. Acesso em: 16 ago. 2022.