Prosody and speech synthesis: an integrative literature review

Julio Cesar Galdino,
Miguel Oliveira Jr.

Abstract

This article aims to present an integrative review of prosody and speech synthesis. To achieve this objective, we elaborated the research question “Which prosodic characteristics are most involved in the improvement of speech synthesis?” and we performed a search on Google Scholar, based on the syntax (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR "síntese da fala"). We included 10 studies between 2010 and 2021, which showed that fundamental frequency and pitch are the most expressive features, although text-to-speech systems use other prosodic features to generate synthetic voice intonation or to improve their performance. Furthermore, the results of this review showed that there are still few studies in Brazil on the relationship between prosody and speech synthesis and that joint research between researchers in the fields of linguistics and engineering is important in order to improve the speech synthesis.

Full-text of the article is available for this locale: Português (Brasil).

References

BALLESTEROS, M.; WANNER, L. A Neural Network Architecture for Multilingual Punctuation Generation. Association for Computational Linguistics, Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, 1048-1053, 2016. Disponível em: http://dx.doi.org/10.18653/v1/D16-1111. Acesso em: 8 fev. 2022.

BARBOSA, D. S. Análise e proposição de modelos de síntese de fala para integração ao framework FIVE. Dissertação (Mestrado em Engenharia de Computação), Universidade de Pernambuco, Recife, 2016.

BARBOSA, P. A. Revelar a estrutura rítmica de uma língua construindo máquinas falantes: pela integração de ciência e tecnologia de fala. In: Estudos de prosódia. SCARPA, E. M. (org.). Campinas, SP: Editora da Unicamp, 1999.

BARBOSA, P. A. Prosódia. São Paulo: Parábola, 2019.

BRAGA, D. Máquinas falantes: Novos paradigmas da língua e da linguística. Colóquio Política Linguística, 2007. Disponível em: http://download.microsoft.com/download/A/0/B/A0B1A66A-5EBF-4CF3-9453-4B13BB027F1F/ColoquioPoliticaLinguistica_2007.pdf. Acesso em: 07 ago. 2022.

CHBANE, D. T. Desenvolvimento de sistema para conversão de textos em fonemas no idioma português. Dissertação (Mestrado em Engenharia). Universidade de São Paulo, Escola Politécnica, São Paulo, 1994.

CHEN, J.; YANG, H.; WU, X.; MOORE, B. C.J. The effect of F0 contour on the intelligibility of speech in the presence of interfering sounds for Mandarin Chinese. The Journal of the Acoustical Society of America, 143, 864-877, 2018. Disponível em: https://doi.org/10.1121/1.5023218. Acesso em: 22 maio 2022.

DUTOIT, T. An introduction to text-to-speech synthesis. Kluwer Academic Publishers, 1997.

EGASHIRA, F. Síntese de voz a partir de texto para a língua portuguesa. Dissertação (Mestrado em Engenharia Elétrica). Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica, Campinas, 1992.

FUJISAKI, H. Prosody, models, and spontaneous speech. IN: SAGISAKA, Y.; CAMPBELL, N.; HIGUCHI, N. (edits). Computing Prosody: Computational Models for Processing Spontaneous Speech. New York, Springer, 1997.

GOMES, L. C. T. Sistema de conversão texto-fala para a língua portuguesa utilizando a abordagem de síntese por regras. Dissertação (Mestrado em Engenharia Elétrica). Unicamp, Faculdade de Engenharia Elétrica e de Computação, 1998.

INOUE, K.; HARA, S.; ABE, M.; HOJO, N.; IJIMA, Y. An investigation to transplant emotional expressions in DNN-based TTS synthesis. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2017, pp. 1253-1258, Disponível em: 10.1109/APSIPA.2017.8282231. Acesso em: 23 abr. 2022.

KAMEOKA, H.; YOSHIZATO, K.; ISHIHARA, T.; KADOWAKI, K.; OHISHI, Y.; KASHINO, K. Generative Modeling of Voice Fundamental Frequency Contours. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 6, pp. 1042-1053, June 2015. Disponível em: 10.1109/TASLP.2015.2418576. Acesso em: 18 jul. 2022.

KLIMKOV, V.; NADOLSKI, A.; MOINET, A.; PUTRYCZ, B.; BARRA-CHICOTE, R.; MERRITT, T.; DRUGMAN, T. Phrase Break Prediction for Long-Form Reading TTS: Exploiting Text Structure Information. Proc. Interspeech, p. 1064-1068, 2017. Disponível em: http://dx.doi.org/10.21437/Interspeech.2017-419. Acesso em: 25 maio 2022.

KORIYAMA, T.; KOBAYASHI, T. Prosody generation using frame-based Gaussian process regression and classification for statistical parametric speech synthesis. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4929-4933, 2015. Disponível em: https://doi.org/10.1109/ICASSP.2015.7178908. Acesso em: 18 jul. 2022.

LATSCH, V. L. Desenvolvimento de um sistema de conversão texto-fala com modelagem de prosódia. Tese (Doutorado em Engenharia Elétrica). Universidade Federal do Rio de Janeiro, Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia, Rio de Janeiro, 2011.

LIU, X.; LIU, Y.; SONG, X. Investigating for Punctuation Prediction in Chinese Speech Transcriptions. 2018 International Conference on Asian Language Processing (IALP), IEEE, p. 74-78, 2018. Disponível em: https://doi.org/10.1109/IALP.2018.8629143. Acesso em: 25 maio 2022.

MAIA, R.; SEARA, R. Um sistema TTS baseado em redes neurais profundas usando parâmetros síncronos de pitch. XXXV Simpósio Brasileiro de Telecomunicações e Processamento de Sinais – São Pedro, SP, 3-6 de setembro, 2017. Disponível em: https://www.sbrt.org.br/sbrt2017/anais/1570361943.pdf Acesso em: 16 jul. 2022.

MANFIO, E. R. Como funcionam alguns fonemas no aplicativo Balabolka. Revista de Linguística e Teoria Literária, Via Litterae, Anápolis, v. 4, n. 2, p. 191-204, jul./dez. 2012. Disponível em: www2.unucseh.ueg.br/vialitterae. Acesso em: 08 ago. 2022.

MORAES, J. A. “The Pitch Accents in Brazilian Portuguese: analysis by synthesis”. Proceedings of the Fourth Conference on Speech Prosody, pp. 389– 398, maio, 2008. Disponível em: https://www.isca-speech.org/archive_v0/sp2008/papers/sp08_389.pdf. Acesso em: 08 ago. 2022.

MOREIRA, N. A. M. Proposta de um front-end em java para sintetizador de voz baseado no MBROLA. Dissertação (Engenharia de Teleinformática). Universidade Federal do Ceará, Centro de Tecnologia, Departamento de Engenharia de Teleinformática, Fortaleza, 2015.

MOUNGSRI. D.; KORIYAMA, T.; KOBAYASHI, T. Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features. Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2017, pp. 1524-1527, Disponível em: https://doi.org/10.1109/APSIPA.2017.8282285. Acesso em: 18 jul. 2022.

NETO, C. S. N. Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro. Tese (Doutorado em Engenharia Elétrica com ênfase em Computação Aplicada). Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2011.

OLIVEIRA, L. M. V. V. C. Síntese de fala a partir de texto. Dissertação (Mestrado em Engenharia Electrotécnica e de Computadores). Universidade Técnica de Lisboa, Instituto Superior Técnico, Lisboa, 1996.

PACHECO, F. S. Artigo de Revisão: Sistemas de Síntese de Fala. Revista Ilha Digital, ISSN 2177-2649, volume 2, páginas 3 – 17, 2010. Disponível em: http://ilhadigital.florianopolis.ifsc.edu.br/index.php/ilhadigital/article/view/17. Acesso em: 07 ago. 2022.

RAO, M.V. A.; GHOSH, P. K. Pitch prediction from Mel-generalized cepstrum — a computationally efficient pitch modeling approach for speech synthesis. 2017 25th European Signal Processing Conference (EUSIPCO), pp. 1629-1633, 2017. Disponível em: https://doi.org/10.23919/EUSIPCO.2017.8081485. Acesso em: 22 maio 2022.

REIS, B. F.; MARTINS, V. V.; PEREIRA-BARRETTO, M. R.; MOSCATO, L. A. Síntese prosódica da fala em português do Brasil.: In XSABAI – Simpósio Brasileiro de Automação Inteligente, X, 2011. São João del-Rei, Minas Gerais, p. 1185-1188, 2011. Disponível em: https://fei.edu.br/sbai/SBAI2011/86262.pdf. Acesso em: 18 jul. 2022.

ROBINSON, C.; OBIN, N.; ROEBEL, A. Sequence-to-sequence Modelling of F0 for Speech Emotion Conversion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6830-6834, 2019. Disponível em: https://doi.org/10.1109/ICASSP.2019.8683865. Acesso em: 18 jul. 2022.

SÁ, F. C. Geração de prosódia para o português brasileiro em sistemas text-to-speech. Monografia (Bacharelado em Ciência da Computação). Universidade Federal do Rio Grande do Norte, Natal, 2018.

SAGISAKA, Y. Speech synthesis from text. IEEE Communications Magazine, 28 (1), 35–41, 1990. Disponível em: https://doi.org/10.1109/35.46669. Acesso em: 07 ago. 2022.

SILVA, C. H.; VIOLARO, F. Modelamento prosódico para conversão texto-fala do português falado no Brasil. Revista Brasileira de Telecomunicações, Volume 10, número 1, 1995. Disponível em: https://jcis.sbrt.org.br/jcis/article/view/179/93. Acesso em: 08 ago. 2022.

SILVA, S. Z. Um estudo de modelos básicos de prosódia para o Português Brasileiro. Tese (Mestrado em Engenharia Elétrica), Universidade Federal do Rio de Janeiro, COPPE, Rio de Janeiro, 2004.

SIMÕES, F. O. Implementação de um sistema de conversão texto-fala para o português do Brasil. Dissertação (Mestrado em Engenharia Elétrica), Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação, Campinas, 1999.

SIMÕES, F. O.; VIOLARO, F.; BARBOSA, P. A.; ALBANO, E. C. Um sistema de conversão texto-fala para o português falado no Brasil. Journal of Communication and Information Systems, 15(2), 2000. Disponível em: http://dx.doi.org/10.14209/jcis.2000.8. Acesso em: 08 ago. 2022.

SOUZA, C. F. S. Síntese de fala em português brasileiro baseada em modelos ocultos de Markov. Dissertação (Mestrado em Ciência da Computação). Universidade Federal de Pernambuco, Centro de Informática, Recife, 2010.

SZASZÁK, G., TÜNDIK, M. Á. Leveraging a character, word and prosody triplet for an ASR error robust and agglutination friendly punctuation approach. Proc. Interspeech, p. 2988-2992, 2019. Disponível em: http://dx.doi.org/10.21437/Interspeech.2019-2132. Acesso em: 25 maio 2022.

TAHON, M.; LECORVÉ, G.; LOLIVE, D. Can We Generate Emotional Pronunciations for Expressive Speech Synthesis? IEEE Transactions on Affective Computing, vol. 11, no. 4, pp. 684-695, 1 Oct.-Dec. 2020. Disponível em: https://doi.org/10.1109/TAFFC.2018.2828429. Acesso em: 18 jul. 2022.

TAYLOR, P. Text–to–Speech Synthesis. Cambridge University Press, 2009.

TEIXEIRA, A. H. K.; SANTOS, I. M. M.; MOTA, J. S.; GOMES DE SOUZA, J. Tecnologias de reconhecimento de fala: uma revisão sistemática de trabalhos no Brasil. XX Encoinfo – Congresso de Computação e Tecnologias da Informação. 160-167, 2016. Disponível em: http://ulbra-to.br/encoinfo/wp-content/uploads/2020/03/Tecnologias-de-Reconhecimento-de-Fala-uma-revis%C3%A3o-sistem%C3%A1tica-de-trabalhos-no-Brasil.pdf. Acesso em: 07 ago. 2022.

THOMAS, C.; GOKUL, P.; THOMAS, N.; GOPINATH, D. P. Synthesizing intonation for Malayalam TTS. International Conference on Control Communication & Computing India (ICCC), 2015, pp. 522-527, Disponível em: https://doi.org/10.1109/ICCC.2015.7432949. Acesso em: 22 maio 2022.

THOMAZ, L. A. Modelagem de prosódia para conversores texto-fala. Monografia (Graduação em Eletrônica e Computação). Universidade Federal do Rio de Janeiro, Escola Politécnica, Departamento de Eletrônica e de Computação, Centro de Tecnologia, Rio de Janeiro, 2012.

URSI, E. S. Prevenção de lesões de pele no perioperatório: revisão integrativa da literatura. Dissertação (Mestrado em Enfermagem). Universidade de São Paulo, Ribeirão Preto, 2005.

YI, J.; TAO, J. Self-attention Based Model for Punctuation Prediction Using Word and Speech Embeddings. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, pp. 7270-7274, 2019. Disponível em: https://doi.org/10.1109/ICASSP.2019.8682260. Acesso em: 08 fev. 2022.

ZEN, H.; TOKUDA, K.; BLACK, A. W. Statistical parametric speech synthesis. Speech Communication, Elsevier, v. 51, n. 11, p. 1039–1064, 2009. Disponível em: https://doi.org/10.1016/j.specom.2009.04.004. Acesso em: 16 ago. 2022.