<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving DTD v1.0 20120330//EN" "JATS-journalarchiving.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:ali="http://www.niso.org/schemas/ali/1.0">
  <front>
    <article-meta>
      <article-categories>
        <subj-group xml:lang="pt">
          <subject content-type="">Revisão de literatura</subject>
        </subj-group>
      </article-categories>
      <title-group>
        <article-title>Prosódia e síntese da fala: uma revisão integrativa da literatura</article-title>
      </title-group>
      <contrib-group content-type="author">
        <contrib id="person-d5c41595f2379798fc77e54135844611" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Galdinho</surname>
            <given-names>Julio Cesar</given-names>
          </name>
          <xref ref-type="aff" rid="organisation-ed8e4eb0e9a0e17c9939ef4e36c851b9" />
        </contrib>
        <contrib id="person-86f9268cef7a9a09abf4806a844f3f5d" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Oliveira Jr.</surname>
            <given-names>Miguel</given-names>
          </name>
          <xref ref-type="aff" rid="organisation-ed8e4eb0e9a0e17c9939ef4e36c851b9" />
        </contrib>
      </contrib-group>
      <contrib-group content-type="editor">
        <contrib id="person-1f4eb7979e60de5defe35e6eb1d5a1cd" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Freitag</surname>
            <given-names>Raquel</given-names>
          </name>
          <xref ref-type="aff" rid="organisation-a30e39691abcefedec2c53da69b69e69" />
        </contrib>
      </contrib-group>
      <aff id="organisation-ed8e4eb0e9a0e17c9939ef4e36c851b9">
        <institution content-type="orgname">Universidade Federal de Alagoas</institution>
      </aff>
      <aff id="organisation-a30e39691abcefedec2c53da69b69e69">
        <institution content-type="orgname">Universidade Federal de Sergipe</institution>
      </aff>
      <abstract>
        <p id="_paragraph-1">Este é um trabalho de revisão integrativa acerca de estudos produzidos por pesquisadores no Brasil, a partir das relações entre a prosódia e a síntese de fala. A partir da pergunta de pesquisa “Como a prosódia tem sido considerada em trabalhos que visam o aprimoramento da síntese de fala?”, realizamos uma busca no <italic id="italic-1">Google Scholar</italic> com a sintaxe (prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR “síntese da fala”). Avaliamos os títulos e os resumos dos estudos e, mediante a observação de critérios de inclusão e de exclusão, encontramos 10 estudos, entre 2010 e 2021, que dissertam sobre prosódia e síntese de fala. Os trabalhos selecionados indicam que a frequência fundamental (ou <italic id="italic-2">pitch</italic>) é o recurso mais expressivo para o aprimoramento da fala sintética, embora os sistemas de conversão de texto para a fala utilizem outras características prosódicas para aprimorar seu desempenho. Além disso, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala e que é importante a pesquisa conjunta entre pesquisadores de áreas da linguística e das engenharias, a fim de se obter melhores resultados em sistemas de síntese de fala.</p>
      </abstract>
      <kwd-group xml:lang="pt">
        <kwd content-type="">Síntese de fala</kwd>
        <kwd content-type="">Prosódia</kwd>
        <kwd content-type="">Frequência fundamental</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body id="body">
    <sec id="heading-c4168979a40249aa754b9fc5eed37390">
      <title>Introdução</title>
      <p id="heading-4140dbf163dc6d8034bb010d31604029">A síntese de fala é a produção de voz por máquinas, a partir da fonetização automática de frases (DUTOIT, 1997<xref id="xref-991e6e4ecee82d2c06e0ace7b02f0f26" ref-type="bibr" rid="book-ref-d37514f7591571c8d851533377b2c242">[1]</xref>). Ao contrário da simples reprodução de voz, essa síntese objetiva um resultado equivalente à produção da fala humana, com informações fonéticas e prosódicas correspondentes (SAGISAKA, 1990<xref id="xref-5694e5f54dab64e08497f1179f9dc845" ref-type="bibr" rid="journal-article-ref-89da802cea3cf464faa7a7b9714676d0">[2]</xref>).</p>
      <p id="paragraph-2">A síntese de fala se divide em duas classes e são diferenciadas a partir do tamanho do vocabulário e do campo de aplicação, conforme Egashira (1992<xref id="xref-0b7ce3d67565478e5f921352768616bf" ref-type="bibr" rid="thesis-ref-99956561877191ee91fed5f6d05b7e8f">[3]</xref>). Segundo o autor, na primeira categoria, estão os sistemas de resposta vocal, usados em serviços telefônicos, sistemas de saldo bancário, por exemplo, com frases introdutórias, como “bom dia”, “digite sua senha”, em que há pouca interação com o usuário. Nesses casos, o vocabulário é limitado, e sua realização é resultado de gravação e armazenamento de fala, a fim de gerar possibilidades de combinações para uma posterior reprodução.</p>
      <p id="paragraph-3">A segunda categoria dos sistemas de síntese de fala são os chamados conversores de texto em fala (TTS – <italic id="italic-3b354e3c232df5ff3d8dc61f46ea8da0">Text-To-Speech</italic>). Eles contêm uma gama enorme de aplicações, facilitando a interação humano-computador para cegos, lendo notícias, boletins meteorológicos e, principalmente, atuando na automação de <italic id="italic-ab827bcedf0db9eded399dcd51319ed6">call center</italic> (TAYLOR, 2009<xref id="xref-79c5d5fc3fdafe39b387f55e266e95cc" ref-type="bibr" rid="book-ref-72a7e37df89c3ed0061f70c5b8ccf022">[4]</xref>). Assim, essa classe de sistema possui um vocabulário irrestrito, tem um custo computacional mais elevado e precisa fazer análises do texto escrito, identificação dos sons equivalentes, associações dos parâmetros de entoação e ritmo e processamento de sinais, o que não traz, muitas vezes, a naturalidade que a fala humana possui (PACHECO, 2010<xref id="xref-236a4ba160172913bb62222d72f3f537" ref-type="bibr" rid="journal-article-ref-2f9313ee898ee14b3393b18fade33643">[5]</xref>).</p>
      <p id="paragraph-4">Os modernos sistemas de TTS possuem diversas arquiteturas, mas existem pelo menos três blocos que são comuns: <italic id="italic-3">front-end</italic> (pré-processamento de texto), <italic id="italic-4">back-end</italic> (motor de síntese) e <italic id="italic-5">voice font</italic> (base de dados de voz) (BRAGA, 2007<xref id="xref-7f5b161186c9da47ca6e2193269078b5" ref-type="bibr" rid="conference-paper-ref-78a0ef58476237c811a6dbfb35881eac">[6]</xref>). Um resumo dessa arquitetura é mostrado na Figura 1.</p>
      <fig id="figure-panel-020aeffab693d2888e87656c109a8a8d">
        <label>Figure 1</label>
        <caption>
          <title>FIGURA 1 – Arquitetura tradicional de um sistema de conversão texto-fala</title>
          <p id="paragraph-d0f27e9fdc7c32762551e1443c3b8740">Fonte: Braga (2007).</p>
        </caption>
        <graphic id="graphic-67bb1b8041caf7ec4a83684aaa12107a" mimetype="image" mime-subtype="png" xlink:href="imagem_um.png" />
      </fig>
      <p id="paragraph-3966a95db1f35ec08a4100aa59f87fb3">As etapas de análise do texto e de transcrição fonética do <italic id="italic-f5f9a282e144621b5dd8fb809bde3c85">front-end</italic> não apresentam grandes dificuldades. Entretanto, a última etapa, a geração prosódica, ainda apresenta desafios, pois os sistemas de síntese carecem de informações prosódicas mais acuradas, resultando em uma artificialidade da voz sintética (SILVA, 2004<xref id="xref-83665ec2d09ce182fb82cda2b002e086" ref-type="bibr" rid="thesis-ref-8dffa552fa2da167ea5a0c39534e00a3">[7]</xref>). Isso significa que é necessário investir no melhoramento da anotação automática de prosódia, para que essa fala sintética se aproxime da naturalidade da fala humana (KLIMKOV <italic id="italic-bd1b9ef2e0c0fb22136814c44b7855d7">et al</italic>., 2017<xref id="xref-5adc754ed8427e9a74c1a378efcf98e5" ref-type="bibr" rid="journal-article-ref-1801310063c83829968d045e4bbf11c2">[8]</xref>).</p>
      <p id="paragraph-62792752a8c98dade46c3d48844351ee">A prosódia é a organização de várias unidades linguísticas em um ou mais enunciados no processo de produção da fala e sua realização contém características segmentais e suprassegmentais, com o objetivo de transmitir informações linguísticas, paralinguísticas ou não linguísticas (FUJISAKI, 1997<xref id="xref-94ca1f8d2bbc225b781dbdcf73ae10d3" ref-type="bibr" rid="chapter-ref-e1ed21cb7ed9a892c3af5ac9afb8d8a9">[9]</xref>). Muitos sistemas TTS predizem representações prosódicas diretamente do texto, mas há risco de o processo de análise cometer erros, suscitando o desafio de gerar conteúdo prosódico, porque o texto codifica principalmente o componente verbal, ignorando a prosódia (TAYLOR, 2009<xref id="xref-1a0c7a9204b41460ce55c520a999d38d" ref-type="bibr" rid="book-ref-72a7e37df89c3ed0061f70c5b8ccf022">[4]</xref>).</p>
      <p id="paragraph-1906d11087edca177904d773101d0330">Essa preocupação com a prosódia é uma constante em estudos sobre TTS. Trabalhos iniciais sobre o português brasileiro, por exemplo, descrevem os procedimentos desses sistemas, abordando, também, diferentes conceitos relativos à produção da fala, como fones, duração, ritmo, frequência fundamental, intensidade etc. (EGASHIRA, 1992<xref id="xref-da3c4408094897e91236f0320d3dcd5a" ref-type="bibr" rid="thesis-ref-99956561877191ee91fed5f6d05b7e8f">[3]</xref>; CHBANE, 1994<xref id="xref-d8f91e88059c55c6b0bb355214f9336e" ref-type="bibr" rid="thesis-ref-29982725866f2e9c58f67dcde7a88f18">[10]</xref>; MADUREIRA <italic id="italic-bb17c75acd3c06166d14ca8bf38004c3">et al</italic>., 1995<xref id="xref-893e570baed32e4aacc82e5c21e93a07" ref-type="bibr" rid="journal-article-ref-a2288e200ca2ac78ec145247a0d0064e">[11]</xref>; SILVA &amp; VIOLARO, 1995<xref id="xref-0aab8fe582b66ee956787c6dee038a33" ref-type="bibr" rid="journal-article-ref-88f63157d0df4ea006be664d799c61f8">[12]</xref>; OLIVEIRA, 1996<xref id="xref-5f627528ac95393f946cb45179a7d7e5" ref-type="bibr" rid="thesis-ref-7012f8f4156530e56460977b5552375b">[13]</xref>; AQUINO, 1998<xref id="xref-c8286057af64a239bdaadba648d2e48e" ref-type="bibr" rid="journal-article-ref-029ebc0297a923816bf0131bf5def39b">[14]</xref>; GOMES, 1998<xref id="xref-d1eb59b45791e837675cc6d7c8d7c19d" ref-type="bibr" rid="thesis-ref-23aad2af1dd0ca0202a246abd6810609">[15]</xref>; BARBOSA, 1999<xref id="xref-ccfa2d8e716196d55e69cb7e7f72712a" ref-type="bibr" rid="chapter-ref-31bc95dfb8b802c6c1612d95634add45">[16]</xref>; BARBOSA <italic id="italic-956012694d3fed5da9cd329d7098df2e">et al</italic>., 1999<xref id="xref-1a846c0c7838f76f35ae67ae64db7ff2" ref-type="bibr" rid="journal-article-ref-d370e0132298436323d5edd0702d2317">[17]</xref>; SIMÕES, 1999<xref id="xref-5238e0b05f9eae7def9ed353a6ca7f7f" ref-type="bibr" rid="thesis-ref-b2169109ff3a948837db270f70a3dcb1">[18]</xref>). Esses sistemas são investigados, em sua maioria, por profissionais da Engenharia da Computação. No entanto, Simões <italic id="italic-af26ea54b1166e37df2a322fa98ff9a6">et al</italic>. (2000)<xref id="xref-22ec1c3b0d896316e6f72281915b1d13" ref-type="bibr" rid="journal-article-ref-deb3b97e55d406e6486de9ad1a8c4f2b">[19]</xref> propõem um sistema TTS para o português brasileiro com colaboração de linguistas, o que evidencia a necessidade de formação interdisciplinar de linguistas neste campo de investigação (BRAGA, 2007)<xref id="xref-1dee697548cc423215fb00cdc1bd92f1" ref-type="bibr" rid="conference-paper-ref-78a0ef58476237c811a6dbfb35881eac">[6]</xref>. Pelo exposto, a Linguística é uma área fundamental para a geração da fala sintética, uma vez que a descrição das línguas, especificamente no nível prosódico, fornece informações que podem aperfeiçoar a naturalidade da fala sintética.</p>
      <p id="paragraph-57e477b9cf8176e67b19df735f0e352f">Levando-se em conta a importante relação entre prosódia e síntese de fala, este artigo busca dissertar sobre como a prosódia tem sido considerada para o aprimoramento da síntese de fala. Pacheco (2010)<xref id="xref-66f134fc2a81d69681b3b99efa60120b" ref-type="bibr" rid="journal-article-ref-2f9313ee898ee14b3393b18fade33643">[5]</xref> realiza uma revisão de literatura cerca da síntese de fala, a partir de um resgate histórico dos sistemas mecânicos do século XVIII até os atuais sistemas de geração de síntese de fala, além de fazer um detalhamento das aplicações requeridas para uma boa conversão. Entretanto, falta uma discussão acerca do papel da prosódia nestes sistemas. Assim, este trabalho preenche essa lacuna, apresentando-se como uma contribuição a estudos de interface entre as áreas da Linguística e da Computação.</p>
      <p id="paragraph-294298abcfad43a3b834d3c53e8017d1" />
    </sec>
    <sec id="heading-601200dad72c295b3aeb459de636fa8a">
      <title>1. Metodologia</title>
      <p id="heading-9ea496d8b4c6cf2b792c388fb83e4aca">A revisão aqui reportada foi construída a partir de quatro passos, seguindo a recomendação PRISMA (<italic id="italic-6301d9ed69639250ec7f587720226cd5">Preferred Reporting Items for Systematic Reviews and Meta-Analyses</italic>): definição da pergunta norteadora, elaboração dos critérios de inclusão e exclusão para a busca da literatura, síntese das informações dos estudos incluídos e apresentação da revisão. Utilizamos os passos indicados pelo PRISMA, porque eles permitem que, a partir da pergunta de pesquisa, se possa decidir quais as palavras-chave que estarão na busca e selecionar, de forma criteriosa, os estudos que serão incluídos na revisão.</p>
      <p id="paragraph-37425a0933b508e9d776fce70d499f88">Para realização do levantamento bibliográfico sistemático e da discussão da presente pesquisa, a seguinte pergunta norteadora foi elaborada: “Como a prosódia tem sido considerada em trabalhos que visam o aprimoramento da síntese de fala?”. Foi realizada uma busca no ano de 2022 no <italic id="italic-4e93b8c1048581632ea8525a2e42f1f2">Google Scholar</italic>, uma vez que é uma base de dados que reúne trabalhos de diversos tipos, além de ser um dos indexadores mais utilizado por periódicos acadêmicos. A busca com os descritores foi sobre trabalhos do português brasileiro, produzidos no Brasil, usando a seguinte sintaxe: <ext-link id="external-link-1" ext-link-type="uri" xlink:href="">(prosódia OR entoação OR “frequência fundamental”) AND ("text-to-speech" OR TTS OR "síntese de fala" OR “síntese da fala”)</ext-link>, sem incluir citações nas bases de dados.</p>
      <p id="paragraph-641818e96716f68545b81785840d7bbd">Foram incluídos artigos, monografias, dissertações e teses publicados em português, produzidos no Brasil, realizados nos últimos 11 anos (2010 a 2021) que tratassem do tema “prosódia e síntese de fala”. Foram excluídos livros, resenhas, estudos duplicados e de revisão. Essa seleção dos trabalhos foi feita mediante uma avaliação inicial dos títulos e dos resumos. Posteriormente, houve a leitura na íntegra dos trabalhos e a inclusão dos estudos que de fato tratavam do tema desta pesquisa.</p>
      <p id="paragraph-4b48f8245a579ab84329cf4b48194619">Para a síntese das informações dos trabalhos, foi feita uma adaptação de um instrumento proposto por Ursi (2005)<xref id="xref-2fb2a4fb1e4ee5ad24809eff3a45bbc4" ref-type="bibr" rid="thesis-ref-d961db1afc0113710979d4319b888841">[20]</xref>, em que se identificam os objetivos, os aspectos metodológicos e os resultados.</p>
      <p id="paragraph-7fab9511a39d3fa8ec98f1eb214ef9a6" />
    </sec>
    <sec id="heading-309a50e30ca9abbc2d127739978be372">
      <title>2. Resultados</title>
      <p id="heading-faec810ac60a8d97ac9939b1b832172e">A seleção dos estudos para esta revisão está descrita na Figura 2. O fluxograma mostra uma quantidade de 799 trabalhos, em que 780 deles foram excluídos já na fase de análise do título e do resumo. Após a leitura na íntegra dos 19 estudos baixados, incluímos 10 estudos nesta revisão.</p>
      <fig id="figure-panel-eb7cf183cb68da343d3abc8b6bd91055">
        <label>Figure 2</label>
        <caption>
          <title>FIGURA 2 – Fluxograma PRISMA para seleção de registros para esta revisão, 2022.</title>
          <p id="paragraph-fa0223afa0412f669f562c0ef7d964f0">Fonte: elaborada pelos autores.</p>
        </caption>
        <graphic id="graphic-6e71f94ea01f3adfeedaff6dd0f60dda" mimetype="image" mime-subtype="png" xlink:href="imagem_tres.png" />
      </fig>
      <p id="paragraph-160197109825a758ec3226baca7b671a">A seguir, apresentamos, no Quadro 1, a autoria, o ano e o título dos trabalhos incluídos nesta revisão.</p>
      <p id="paragraph-4abf89389cfe052b0262160dd63b5343" />
      <table-wrap id="table-figure-ea54f89c1f86ee9967aaed9169a32733">
        <label>Table 1</label>
        <caption>
          <title>QUADRO 1 – Síntese dos trabalhos avaliados.</title>
          <p id="paragraph-507e4ae37177156e607538d9097732a0">Fonte: elaborado pelos autores.</p>
        </caption>
        <table id="table-07761126f15f409cf49d555bd55b3d5b">
          <tbody>
            <tr id="table-row-7f999781cbcfd6d45b307707e0edd40b">
              <th id="table-cell-d437b0d29a5015f9e4d81a4d3b31031e">Autoria, Ano e Título</th>
              <th id="table-cell-d69e20c39f303c2c7675494010ddc530">Objetivo</th>
              <th id="table-cell-e4a17f83bad4899d2e3d55e3c6ba7e2f">Desenho do estudo/Procedimentos metodológicos</th>
              <th id="table-cell-5fa5d352c0e9faac68f250da921c78e9">Resultados</th>
            </tr>
            <tr id="table-row-314c377aafbe0b68319c8fc9611a045e">
              <td id="table-cell-5fadd6ab44faff4375253015ff6c0e11">Barbosa, 2016.<xref id="xref-169215569f6d33bdf45cb8d14eb958a0" ref-type="bibr" rid="thesis-ref-ba099283b4590ac31c6ee774b3cd9208">[21]</xref> Análise e proposição de modelos de síntese de fala para integração ao framework FIVE</td>
              <td id="table-cell-adaf7eca6b40d39433f52eb10b802a78">Avaliar um conjunto de meca-nismos de síntese de voz, e integrá-los ao Framework FIVE, a fim de obter uma melhor naturalidade e inteligibilidade das vozes geradas para o Por-tuguês falado no Brasil.</td>
              <td id="table-cell-a1a6e655b06937b2abc93eac7cec3cfd">Levantamento sobre os mecanismos de síntese de voz, sobre a arquitetura do Fra-mework FIVE e sobre a plataforma MaryTTS;Construção de um conjunto de vozes utili-zando a plataforma MaryTTS e integradas ao Framework FIVE;Experimentos para avaliação da qualidade das vozes.</td>
              <td id="table-cell-fd6ef0ca566d4440c5f63e4dbef7beca">Após a avaliação dos mecanismos de síntese de voz, foi pos-sível verificar que a naturalidade e a inteligibilidade das vozes com a técnica de concatenação de unidades são me-lhores do que a HMMs (Hidden Markov Models). Enquanto isso, na perspectiva auditiva acontece o contrário. Além disso, os resultados da perspectiva audiovisual foram melho-res do que a perspectiva puramente auditiva.</td>
            </tr>
            <tr id="table-row-c1400be445b8ba8fee483bf76c53769d">
              <td id="table-cell-41b55b5ed57ab2f7d3b59b846853ab6d">Latsch, 2011.<xref id="xref-4e6d61c406b9be30df7e87e48b922a01" ref-type="bibr" rid="thesis-ref-31ab9d2abbdd98511321b74b3d8dda6a">[22]</xref> Desenvolvimento de um sistema de conversão texto-fala com modela-gem de prosódia</td>
              <td id="table-cell-e260c09beedfd9abdef1cfb69da8cd0e">Apresentar um sistema de apoio à pesquisa e desenvolvi-mento de um sistema de con-versão texto-fala e abordar as etapas, incluindo a modelagem da prosódia.</td>
              <td id="table-cell-bec9fe7cde75471d4fd68df51eb5677e">Parametrização das variáveis prosódicas com base em diferentes atitudes;Descrição de um sistema de conversão de texto-fala, com manipulação prosódica.</td>
              <td id="table-cell-5a1a35de7fb6476a1e28714dc7b41751">O sistema de conversão texto-fala apresentado demonstra uma melhor combinação entre as etapas de alinhamento temporal e mapeamento de pitch de um sinal de análise para o sinal de síntese. Em relação à parametrização das variáveis no domínio da sílaba, há uma vantagem, ao oferecer um meio simples de observar e caracterizar as novas atitudes prosódicas. Os resultados demonstram uma descrição das ferramentas de desenvolvimento do sistema de conversão texto-fala, as ferramentas de análise e de síntese da prosódia.</td>
            </tr>
            <tr id="table-row-6e51f93f0320f92a3f7f83522a2e4e77">
              <td id="table-cell-3816604a2b2b797edd1aa0ce09d52fc9">Maia; Seara, 2017. <xref id="xref-98b671b8baff586a3533c746e5c39001" ref-type="bibr" rid="journal-article-ref-fd151eed637f37b6a28b669fa7d57810">[23]</xref> Um sistema TTS basea-do em redes neurais profundas usando pa-râmetros síncronos de pitch</td>
              <td id="table-cell-59e7eae083e8048ce5869be91888738a">Apresentar formas de usar parâmetros acústicos obtidos de forma síncrona com o <italic id="italic-f3eecda1c82cb1062405365cc499832f">pitch</italic> em sistemas de síntese de fala.</td>
              <td id="table-cell-ddf5ccc4489935e16465e5da10fea70c">Uso de sentenças na base de dados do projeto FalaBrasil; Implementação da estrutura DNN (<italic id="italic-0f7cc77b08907bf05773c58d8a9a60b6">Deep Neural Networks</italic>) com parâmetros síncronos com o <italic id="italic-5eb40705f9896bc3acf3ee2529f5d533">pitch</italic>.</td>
              <td id="table-cell-741720b40cb77e590d006f4a005d6d7a">Os resultados experimentais mostraram que o uso de atributos linguísticos obtidos de quadros de tamanhos fixos, juntamente com parâmetros acústicos extraídos de forma síncrona com o <italic id="italic-2a858d838eecca207cc929a6f1e46748">pitch</italic>, produzem melhores resultados em termos de medidas objetivas de qualidade.</td>
            </tr>
            <tr id="table-row-4232a6db83995682eb0dcedf4259b69e">
              <td id="table-cell-353fdbd252a936791e992231078ddca8">Manfio, 2012.<xref id="xref-22f2f6ee93737597a950b5e7160226cc" ref-type="bibr" rid="journal-article-ref-98687082ea4a363e7957189e3b75e972">[24]</xref> Como funcionam alguns fonemas no aplicativo Balabolka</td>
              <td id="table-cell-d2dfa0712da45825563b78b533e7b4a4">Dissertar, à luz de algumas teorias envolvidas com a Sociolinguística, Geografia Linguística e Dialetologia entre outras, sobre ao menos a síntese de voz acerca de um dos vários aplicativos disponíveis: o <italic id="italic-fac84518badf1110c7877690de07218d">Balabolka</italic>.</td>
              <td id="table-cell-5369fc2f2c48e05155463fe79be64de2">Descrição sobre características do <italic id="italic-44d43f67375d6ccab02170f995ca5cc5">Balabolka</italic> e de sua prosódia; Descrição das realizações de fala e de registro; Análise dos fonemas no <italic id="italic-96881493443e0e1179f2ffd60fc49dad">Balabolka</italic>.</td>
              <td id="table-cell-829e8d15a68104f3d88208420a132a80">O aplicativo realiza uma prosódia próxima da fala se comparado a outros softwares de mesma natureza, embora tenha apresente problemas em frases interrogativas. Além disso, o <italic id="italic-8dd7eee826b2c8af6d14a84e2a373f67">Balabolka</italic> produz de forma artificial vogais frouxas em ditongos.</td>
            </tr>
            <tr id="table-row-db76a3fe494b9123060e664326d6fb97">
              <td id="table-cell-0d47da2577c1c26b85ba0dc466baebd1">Moreira, 2015.<xref id="xref-c731c5b433590ebd731d8e42bd458583" ref-type="bibr" rid="thesis-ref-1cba95d135d017a6f2ac17a32abee9f6">[25]</xref> Proposta de um fron-end em java para sinte-tizador de voz baseado no MBROLA (Multi Band Resynthesis OverLap Add)</td>
              <td id="table-cell-5d8a4297b4de2e691c400fa3409af336">Desenvolver um sistema para inclusão digital de deficientes visuais.</td>
              <td id="table-cell-3a4168cf2efec62cb741a08b7677148d">Comparação entre frases realizadas por um locutor humano e uma voz sintetizada; Teste de naturalidade da voz, teste de inteligibilidade e teste de usabilidade do software com uma deficiente visual de 40 anos.</td>
              <td id="table-cell-ea8ecf47bcdd57fb9c3ad3450505a46d">Os testes realizados provaram que o resultado sobre as vozes é muito inteligível e causa menos cansaço aos usuários. Essa inteligibilidade também é comprovada nas comparações entre a voz humana e a voz sintética, no domínio do tempo e da frequência, levando-se em conta o depoimento da usuária.</td>
            </tr>
            <tr id="table-row-84e807ba89cd878d0add222b5337c906">
              <td id="table-cell-df0da6d8c8dfd2ed191b55cfdc2cdb29">Neto, 2011.<xref id="xref-5f93bf38867d38837a34b66d7bfdad5b" ref-type="bibr" rid="thesis-ref-42ef18c7c0be849e2169021c99628aa4">[26]</xref> Ferramentas e recursos livres para reconheci-mento e síntese de voz em português brasileiro</td>
              <td id="table-cell-996f1ffba0f7ddaf868ed4af712d80f2">Descrever o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB (Português Brasileiro) e apresentar um novo método para reavaliar o resultado do reconhecimento baseado em HMMs.</td>
              <td id="table-cell-74f899af3903e5fbbd8f68cbadb8cb08">Descrição de recursos para síntese e reconhecimento de voz a partir de um dicionário fonético para o PB; Avaliação de conversores, locutores, sistemas; Avaliação de modelos de linguagem de modelos acústicos de locutores.</td>
              <td id="table-cell-f73f19610758090903fac32cf27bd83c">Houve melhoria dos recursos para os conversores em PB, em especial para conversão grafema-fone e para sílaba, além de melhoras na utilização de técnicas para adaptação ao locutor para minimização de efeitos negativos entre os dados. Os resultados da avaliação apresentaram uma estratégia inovadora para aprimorar os resultados provenientes de um sistema baseado em HMMs, a partir da extração de frequência fundamental e de outros parâmetros referentes ao espectro da voz e à excitação, como os coeficientes MFCCs (<italic id="italic-26083c41de07a7c235b89d46f0df520a">Mel-frequency cepstral coefficients</italic>).</td>
            </tr>
            <tr id="table-row-6b89c02c833f82a31d379d89d07256cf">
              <td id="table-cell-3a5b2beadd0f61f5e7df4e9381ca91c1">Reis et al., 2011.<xref id="xref-8bb6da68794517575d5ca1bc4a88480e" ref-type="bibr" rid="journal-article-ref-06a36c02e6a976479483c873db84b652">[27]</xref> Síntese prosódica da fala em português do Brasil</td>
              <td id="table-cell-5f03d73be42cdb98ebf7835c078c898b">Apresentar um sistema TTS (<italic id="italic-399d9b2d01fcd1435bdf0fb76a9c4992">text-to-speech</italic>), capaz de reproduzir a fala com nuances de emoção.</td>
              <td id="table-cell-a0fbc93670d5fc7967d6def0154ded99">Descrição de um modelo prosódico, a partir da identificação de fonemas, sílabas, palavra prosódica, sintagma entoacional; Descrição de modelo emocional para estados neutro, feliz, triste e bravo. Utilização do software MBROLA com dados do br4, banco de dados do Serviço Federal de Processamento de Dados e da UFRJ (Universidade Federal do Rio de Janeiro).</td>
              <td id="table-cell-4e193dd14c9792aeeb2b7387f3eedcec">O modelo prosódico é capaz de gerar falas próximas à fala natural, possibilitando a adição de nuances emotivas ao discurso computacional. O modelo prosódico mostrou-se eficaz para sentenças afirmativas simples, isto é, para um único tipo de curva entoacional.</td>
            </tr>
            <tr id="table-row-eb062a499ae749b6a1159da3549bc33c">
              <td id="table-cell-7c9d466d0e4325a73175a99bc680e276">Sá, 2018.<xref id="xref-1e9a210c4da0fec0822e9c44dcf0dbb8" ref-type="bibr" rid="thesis-ref-3458bcf7207500a495c2be30efde1627">[28]</xref> Geração de prosódia para o português brasi-leiro em sistemas text-to-speech</td>
              <td id="table-cell-217ce819596c359595c928194fc1c258">Investigar sistemas <italic id="italic-2faaeeafefca6813695c3bae3433c1d2">text-to-speech</italic> existentes através do estudo de seus algoritmos para síntese de voz e geração de prosódia para diversas línguas, com foco no PB.</td>
              <td id="table-cell-6edb845d42224a55a5e508fe13747402">Levantamento de sistemas TTS desenvolvidos para o PB; Criação de um módulo de prosódia que permite fazer anotações prosódicas manuais, a partir de um programa para o <italic id="italic-bdc70407c1b57deef4e255a56d4ca879">front-</italic>end, do programa MBROLA para converter a saída e do INTSINT (<italic id="italic-edcb393c070faf004f6e5ce3c18e32cd">International Transciption System for Intonation</italic>) para análise e síntese de contornos de f0.</td>
              <td id="table-cell-c21ea24283aadb2e694a015813c83d40">Observou-se uma carência de suporte à síntese expressiva. Linguagens computacionais já começaram a ser integradas a sistemas comerciais de TTS, mas há trabalhos escassos para o PB. Em relação aos modelos de anotação entoacional, ainda não há uma solução considerada a mais apropriada para analisar o português brasileiro, mas há uma grande quantidade de trabalhos de contornos melódicos que podem ser adaptados e convertidos em parâmetros para sistemas TTS.</td>
            </tr>
            <tr id="table-row-f5ce5553366bbc0c523cc11fbc6a5f15">
              <td id="table-cell-5f015948cacb807d6074146a862ae738">Souza, 2010.<xref id="xref-134022e09f6acac334f9778179688c04" ref-type="bibr" rid="thesis-ref-f41b808464faebe78657f263fb568461">[29]</xref> Síntese de fala em por-tuguês brasileiro basea-da em modelos ocultos de Markov</td>
              <td id="table-cell-b790eafac8e0bf8d4fcb4a987ae95922">Abordar a construção de um algoritmo de determinação da sílaba tônica de palavras, um algoritmo de conversão de grafemas em fonemas, e um algoritmo de separação silábica de palavras transcritas foneticamente.</td>
              <td id="table-cell-edf300982b86f0ab29be63d9754a203d">Descrição das etapas de sistemas de conversão de texto em fala; Apresentação dos fundamentos necessários acerca dos Modelos Ocultos de Markov; Descrição dos detalhes da implementação realizada.</td>
              <td id="table-cell-79f10c6d5226dc0411dfe0a23d515bc6">A construção do projeto foi bem-sucedida, com taxa de acerto muito significativa, em relação ao mecanismo integrado de determinação de sílaba tônica de palavras, conversão de grafemas para fonemas e divisão silábica da palavra foneticamente. Com uma sequência de logaritmos, a a f0 foi obtida inicialmente e depois com uma sequência de vetores, a partir de uma escala mel (melodia).</td>
            </tr>
            <tr id="table-row-4ca78caa46f347bbe964ef5c170d18c3">
              <td id="table-cell-99e67b2cca9323eb0d5e6a3492e9e8ca">Thomaz, 2012.<xref id="xref-fc1b4060d2aa92a969e4e2113dca9f7b" ref-type="bibr" rid="thesis-ref-dbcd5a3a0614c21ae4a79c567d91d11f">[30]</xref> Modelagem de prosódia para conversores texto-fala</td>
              <td id="table-cell-d9750dbbf8333ecac41361c42324a522">Ampliar a funcionalidade de manipulação prosódica das atitudes do sistema SASPRO (Sistema de Análise e Síntese da Prosódia).</td>
              <td id="table-cell-5cf74eff197c64d851342758be7f3c9a">Classificação de atitudes prosódicas com base em estudos linguísticos já investigados; Classificação de atitudes em estruturas silábicas diferentes com base em estudos linguísticos já investigados; Aplicação do modelo e aplicação de teste subjetivo com 20 voluntários.</td>
              <td id="table-cell-b40f44549a41201f4dea3fc63ba8c705">O modelo de atitudes prosódicas baseia-se em três aspectos do sinal de voz (duração, intensidade e <italic id="italic-d1053c66fb918e11a078ad352dfbdb98">pitch</italic>), para 14 atitudes. Em relação à avaliação dos resultados do trabalho a partir dos testes com voluntários, 9 das 14 atitudes tiveram uma nota maior que 3, enquanto as outras 5 foram consideradas inaceitáveis no modelo de prosódia proposto no sistema.</td>
            </tr>
            <tr id="table-row-d6e3098502dd997ff269ef6bcee18ea4">
              <td id="table-cell-2714a2cecae26c0d84e8eace5a529425" />
              <td id="table-cell-db509d206122ae08ba56ee94821c5fc5" />
              <td id="table-cell-19eb4318c9e525d9e09929263c22fb6b" />
              <td id="table-cell-cfc5360c915cc647ea1c7dd1fa0de7e8" />
            </tr>
          </tbody>
        </table>
      </table-wrap>
    </sec>
    <sec id="heading-d22e7d241ea957698470d4981062082c">
      <title>3. Discussão</title>
      <p id="heading-bd6d70cc1465e08ce4bc75a8084a7c8e">Nesta revisão, encontramos estudos que pertencem a diversas áreas. Eles estão distribuídos na Engenharia Elétrica (n=3), na Engenharia de Computação (n=1), na Engenharia de Teleinformática (n=1), na Engenharia Mecatrônica (n=1), na Engenharia Eletrônica e de Computação (n=1), na Ciência da Computação (n=2) e na área da Linguística (n=1).</p>
      <p id="paragraph-d44c07eb4da1d6f273f99d00bf03a646">Essa distribuição de áreas demonstra que a maioria das pesquisas foi desenvolvida em âmbitos do conhecimento de linhas mais exatas e técnicas. Entretanto, a fim de aprimorar o desempenho de sistemas de conversão de texto, esses trabalhos precisam utilizar informações que permitam entender as características próprias da fala. Por isso, os estudos linguísticos são muito importantes no aprimoramento da fala sintética, pois é a Linguística o campo do conhecimento capaz de fornecer informações que descrevam os fenômenos que o caráter multissistêmico da língua apresenta, sobretudo os aspectos prosódicos.</p>
      <p id="paragraph-fe3d34e5a22f22554d497ab9cd755ba8">Esta revisão apresenta 10 estudos que estabelecem a relação entre a prosódia e a síntese de voz. Os objetivos destes trabalhos são diferentes, mas todos se preocupam em aprimorar o desempenho dos sistemas de conversão de texto para a fala, seja para testar um novo modelo, desenvolver um algoritmo ou para aprimorar determinadas características, como a emoção, por exemplo.</p>
      <p id="paragraph-31d094d67237337932335f02f23103c2">Em relação à metodologia utilizada nos estudos, apesar de estarem inseridos em áreas mais exatas, há uma preocupação em usar informações linguísticas que possam tornar a fala sintética mais natural. Thomaz (2012)<xref id="xref-eafc5e1b42372b13804b3fc208cb7ac1" ref-type="bibr" rid="thesis-ref-dbcd5a3a0614c21ae4a79c567d91d11f">[30]</xref>, por exemplo, a fim de aprimorar a sintetização da fala, faz uso da Linguística ao modelar uma voz neutra em 14 atitudes prosódicas, entre elas, ironia, pedido e sugestão, descritas por Moraes (2008)<xref id="xref-5cbfee9a1567447caa692fa6bb30c518" ref-type="bibr" rid="journal-article-ref-8ca48071321c41bc844d029d8cbacee1">[31]</xref>. O trabalho alcançou seu objetivo, ao fazer um teste de percepção, em que 9 dessas atitudes modeladas foram bem aceitas pelos juízes, porém, 5 delas não tiveram boa avaliação. Pode-se inferir, a partir disso, que é interessante investigar, em trabalhos futuros, quais informações prosódicas podem ser consideradas para melhorias e qual a diferença entre os contornos entoacionais da fala humana e da fala sintética nessas atitudes, por exemplo.</p>
      <p id="paragraph-5">Reis <italic id="italic-e5631af0efdbbc590162ee37f228c8bd">et al</italic>. (2011)<xref id="xref-5c53b0bc929a53b462405c78ab52c2af" ref-type="bibr" rid="journal-article-ref-06a36c02e6a976479483c873db84b652">[27]</xref> fazem uso de teoria prosódica para determinar o contorno da fala nos sistemas de conversão. O modelo proposto pelos autores foi eficaz para um tipo apenas de curva entoacional, nas sentenças afirmativas simples, o que demonstra a necessidade de se trabalhar outras naturezas de curva e levar em conta outros parâmetros. Dessa forma, esses exemplos mostram que é importante o trabalho conjunto de linguistas e pesquisadores das engenharias, pois, se esses estudos envolvessem profissionais de ambas as áreas, haveria uma melhora na constituição dos blocos dos sistemas de síntese e no entendimento de características prosódicas que pudessem aprimorar esses sistemas.</p>
      <p id="paragraph-6">Entre as características prosódicas investigadas nos 10 estudos, a frequência fundamental é a mais expressiva, como em Sá (2018)<xref id="xref-d417486287d06021df16911717747b28" ref-type="bibr" rid="thesis-ref-3458bcf7207500a495c2be30efde1627">[28]</xref>, que propõe um modelo para síntese de contornos de f0. Esses parâmetros da fala são gerados e manipulados mediante algoritmos, logaritmos e outros recursos matemáticos e computacionais. Em Souza (2010)<xref id="xref-a9bf835d16db9cefa8403a1d03987654" ref-type="bibr" rid="thesis-ref-f41b808464faebe78657f263fb568461">[29]</xref> e Barbosa (2016)<xref id="xref-86af944b6911c0d3b19d2dd26b8da421" ref-type="bibr" rid="thesis-ref-ba099283b4590ac31c6ee774b3cd9208">[21]</xref>, a f0 é obtida inicialmente com uma sequência de logaritmos e depois com uma sequência de vetores, a partir de uma escala de melodia, em que, para cada tom com uma certa frequência em Hz, é associado um valor.</p>
      <p id="paragraph-7">A f0 também pode ser utilizada com extração de uma base de voz, modelada através de Modelos Ocultos de Markov (NETO, 2011)<xref id="xref-b32b282188dc4149b46dcc1ba896bd3c" ref-type="bibr" rid="thesis-ref-42ef18c7c0be849e2169021c99628aa4">[26]</xref>. Zen <italic id="italic-6a40154f063824a351683f1264d492df">et al</italic>. (2009)<xref id="xref-e9bca6cc9dcad8637f9320313d4df64e" ref-type="bibr" rid="journal-article-ref-00dfd47ae8126708c3fa314107a09eaf">[32]</xref> explicam que a síntese baseada nesses modelos unifica os blocos <italic id="italic-3054946bc636ef9e23cb559ea027d7fc">front-end</italic> e <italic id="italic-5e13ce03c6edbd5a5ffb4be7d4a58999">back-end</italic>, gerando uma nova estrutura, o que se torna uma vantagem para o desempenho geral de um sistema TTS, pois, segundo os autores, com os dois blocos em conjunto, é possível obter eficácia em usar análise de texto e análise acústica em um único bloco.</p>
      <p id="paragraph-8">Entre os estudos revisados, a f0 aparece como equivalente ao <italic id="italic-cb1a7f4fd79a55ba5942f8361f3f2224">pitch</italic> (MAIA &amp; SEARA, 2017<xref id="xref-5392df6c215f02afbd72a1c6c4403576" ref-type="bibr" rid="journal-article-ref-fd151eed637f37b6a28b669fa7d57810">[23]</xref>; THOMAZ, 2012<xref id="xref-9f8b21c4195ac4a6ff8e045b33f8f097" ref-type="bibr" rid="thesis-ref-dbcd5a3a0614c21ae4a79c567d91d11f">[30]</xref>; LATSCH, 2011<xref id="xref-adec0589db5e13aee121dba9cc9cf090" ref-type="bibr" rid="thesis-ref-31ab9d2abbdd98511321b74b3d8dda6a">[22]</xref>; MOREIRA, 2015<xref id="xref-1de223b1e3c03ba4ee1735ef55e294b7" ref-type="bibr" rid="thesis-ref-1cba95d135d017a6f2ac17a32abee9f6">[25]</xref>). É importante, no entanto, distinguir os dois conceitos, pois a f0 é mensurável e pertence à esfera da produção, enquanto o <italic id="italic-6">pitch</italic> pertence à esfera da percepção (BARBOSA, 2019<xref id="xref-8d3ec31fb5492a8854b4f11dbb1551fc" ref-type="bibr" rid="book-ref-34d7aa21e94c64f094497f9cc996ebc0">[33]</xref>).</p>
      <p id="paragraph-9">Outras características prosódicas também podem participar do processo de geração da entoação da síntese de fala. Manfio (2012)<xref id="xref-2ba6ab667ca65d634435f93f11e334bd" ref-type="bibr" rid="journal-article-ref-98687082ea4a363e7957189e3b75e972">[24]</xref>, por exemplo, investiga a síntese de voz em um aplicativo chamado Balabolka, que utiliza partes gravadas da fala humana e possui uma prosódia próxima à da fala real, embora o software não consiga atingir um bom desempenho em frases interrogativas e na produção dos ditongos. O autor ressalta boa realização de características prosódicas no aplicativo, como a delimitação de pausas feitas pelas vírgulas, bem como o resultado satisfatório de volume e tonalidade nas frases que são formadas por enumeração, por exemplo.</p>
      <p id="paragraph-10">Embora haja predominância de certos recursos prosódicos para a geração e o aprimoramento de TTS, para gerar nuances de emoção, por exemplo, o estudo de Reis <italic id="italic-7">et al</italic>. (2011)<xref id="xref-e4f402d9c9d2cd775174cc38669f40eb" ref-type="bibr" rid="journal-article-ref-06a36c02e6a976479483c873db84b652">[27]</xref> faz uso de várias características prosódicas, como duração, <italic id="italic-8">pitch</italic>, velocidade e contorno de frequência fundamental. Recentemente, essa tentativa de inserir expressões emocionais para aprimorar a expressividade dos sistemas tem sido constante (INOUE <italic id="italic-9">et al</italic>., 2017<xref id="xref-3dc10ac8ce03a514ea0a6d75f555b465" ref-type="bibr" rid="journal-article-ref-18b7bf61fd6627b2bd99d87af7193330">[34]</xref>; ROBINSON <italic id="italic-10">et al</italic>., 2019<xref id="xref-cf4698f9a5d625ac18bbf5a8243c507d" ref-type="bibr" rid="journal-article-ref-880c5ba2f5a142f6c33a25086aeb48c2">[35]</xref>; TAHON <italic id="italic-11">et al</italic>., 2018<xref id="xref-28b3bf0262f69b3a1f12c5c75119cea9" ref-type="bibr" rid="journal-article-ref-16d0ebf5f3ba971e1cd3220344f8f320">[36]</xref>). Esse processo de geração envolve geralmente a conversão de uma voz neutra para uma voz emocional, sendo uma característica que os ouvintes esperam, devido ao contexto em que a frase está sendo emitida (ROBINSON <italic id="italic-12">et al</italic>, 2019<xref id="xref-d0a8dbf1835b42a9b08b024e54ca64ce" ref-type="bibr" rid="journal-article-ref-880c5ba2f5a142f6c33a25086aeb48c2">[35]</xref>).</p>
      <p id="paragraph-11">De forma geral, os estudos descritos nesta revisão mostram que a prosódia tem sido considerada como essencial para o desenvolvimento da síntese de fala, a partir de informações linguísticas aliadas ao campo das áreas das engenharias. A presença da Linguística nesses trabalhos demonstra que ela é uma área importante, uma vez que contribui para uma voz sintética mais expressiva e aceita pelos usuários, especificamente nos níveis prosódicos.</p>
      <p id="paragraph-12">Além disso, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala e que é importante a pesquisa conjunta entre pesquisadores de áreas da linguística e das engenharias, a fim de se obter melhores resultados em sistemas de síntese de fala.</p>
      <p id="paragraph-7a08caf2ef8960d81c85accd3f88cb55" />
    </sec>
    <sec id="heading-14385b746103fa88985d1c3d8b14c653">
      <title>4. Considerações finais</title>
      <p id="heading-29325c9144b2cc9ecedd9075247dfecf">Em nossa revisão, observamos que há 10 estudos que estabelecem relação entre prosódia e síntese de fala, encontrados na base de dados <italic id="italic-e7eb4109ba5cb23df1ede56175db223b">Google Scholar</italic>, apenas em português, o que demonstra que há escassez de pesquisas realizadas no Brasil. São trabalhos que estão inseridos em áreas mais exatas, porém, também fazem uso de aporte teórico da Linguística, a fim de aprimorar o desempenho de sistemas de conversão de texto para a fala. De forma geral, os sistemas utilizam várias características prosódicas para esse aprimoramento, mas a frequência fundamental (<italic id="italic-d33cb2bb02a19a098959811fc4228de7">pitch</italic>) é o recurso mais expressivo.</p>
      <p id="paragraph-df52f2d0e2b84443e1d09ef9e30501fb">Estudos em outras línguas, como o inglês, o chinês, o tailandês, entre outros, contêm uma variedade maior de análises entre prosódia e fala sintética, com o objetivo principal de propor modelos para geração de contornos de frequência fundamental (KAMEOKA <italic id="italic-1d7a36dab66d22887b04927570bfd20c">et al</italic>., 2015<xref id="xref-a7389e9573f2a7d8adc0479c65f5f103" ref-type="bibr" rid="journal-article-ref-bc1afc7bf45ce49640e52f31a92ce03d">[37]</xref>; KORIYAMA &amp; KOBAYASHI, 2015<xref id="xref-5e9314e1fd95d8181de888de2660bff3" ref-type="bibr" rid="journal-article-ref-26185bfe6a2266c9db6e8c9a3a6a7c58">[38]</xref>; THOMAS <italic id="italic-969cf04c78edf52ad1326044446a25bd">et al</italic>., 2015<xref id="xref-c84e66a99e807d4b73eaa7cceaf54ccd" ref-type="bibr" rid="journal-article-ref-df5a1a43d94c1e27ed8a390970d1ecbb">[39]</xref>; MOUNGSRI <italic id="italic-4b2bc27f70be437081085ecd0e981019">et al</italic>., 2017<xref id="xref-be862aa0780ebf34cd6520914efafa5b" ref-type="bibr" rid="journal-article-ref-e12b0e3fa033135fc1126e1b9a8eedb4">[40]</xref>; CHEN <italic id="italic-c94a33d7f2609fa07efaa43fdf3e1687">et al</italic>., 2018<xref id="xref-918367f0d594d95a2ebbd3bead86b6ce" ref-type="bibr" rid="journal-article-ref-2c46d698bc6892886dd493b9affdbc34">[41]</xref>; RAO, 2017<xref id="xref-6de2beef6439a5c408ba981df912bd0c" ref-type="bibr" rid="journal-article-ref-e6a8717bb56c371a3a3c2df2f0057b2e">[42]</xref>). Em línguas como o mandarim, a F0 baseia-se em “tons” lexicais que diferem em significado, havendo necessidade de um bom resultado dos padrões entoacionais (CHEN <italic id="italic-2d90cb4dc5d9a4fb09e49390494a7246">et. al.</italic>, 2018<xref id="xref-eaadebec13d2eed71c31b8bb9ea08491" ref-type="bibr" rid="journal-article-ref-2c46d698bc6892886dd493b9affdbc34">[41]</xref>). Assim, definir esses contornos é importante, pois uma prosódia que se distancia das características da fala natural pode prejudicar a inteligibilidade dos sistemas.</p>
      <p id="paragraph-34190adf2eb662c7a37c8edf8da6ecdc">Além dos sistemas TTS, outro tipo de aplicação tecnológica que se ampara de informações prosódicas da fala são os sistemas ASR (<italic id="italic-cd211f3a34768602d8360e2e1f981d66">Automatic Speech Recognition</italic>), em que, ao contrário da síntese de fala, a voz é inserida no sistema e é convertida em texto. A prosódia pode ajudar a melhorar esses sistemas, uma vez que recursos, como a pausa, a intensidade, o <italic id="italic-ef1a756e7d41215a30a47db715365faf">pitch</italic> e a frequência fundamental, podem possibilitar o reconhecimento de voz por meio de redes neurais (BALLESTEROS &amp; WANNER, 2016<xref id="xref-f8cea64e0c66dba56b5b3f84b11399ab" ref-type="bibr" rid="conference-paper-ref-3ec932922a0a4582a02d0a36072e76e7">[43]</xref>; LIU, LIU &amp; SONG, 2018<xref id="xref-5b4cc9a7de54ce9d858601f626aaaa46" ref-type="bibr" rid="journal-article-ref-dab5bce107e411b0e4b8503aa20ce05e">[44]</xref>; SZASZÁK &amp; TÜNDIK, 2019<xref id="xref-3437e788903dd70651f42f47a919c372" ref-type="bibr" rid="journal-article-ref-0433c334f38e47d3597967fdc391184d">[45]</xref>; YI &amp; TAO, 2019<xref id="xref-533fc83c63aa711cd28195a60078d605" ref-type="bibr" rid="journal-article-ref-26f561faa7fc1a53072f51d3eed972b5">[46]</xref>). A inteligência artificial já apresenta bons resultados no reconhecimento dessa fala, mas há escassez de trabalhos em língua portuguesa (TEIXEIRA <italic id="italic-aeec4e66b64d3714585c2fa777e73e7c">et al</italic>., 2016<xref id="xref-26d7d325c63e0a8b20f2e559db22fdfc" ref-type="bibr" rid="journal-article-ref-ab4e45bcee6f858e9e36db2a7a89b545">[47]</xref>). Assim como o reconhecimento de fala, os resultados desta revisão mostraram que há ainda pouco estudo no Brasil sobre a relação entre a prosódia e a síntese de fala.</p>
      <p id="paragraph-3d03ea9f0d0a9b8268106fb5231bcd0b" />
    </sec>
    <sec id="heading-56ade50f59387f824f9677e2e51e8f6a">
      <title>Informações complementares</title>
    </sec>
    <sec id="heading-ba6b8088abf2d42f9cfc9581119d52f0">
      <title>Avaliação</title>
      <p id="paragraph-175bb6fcc489338b26d2164154192392">DOI: <ext-link id="external-link-729a765f7b83b773fa989b2057a42fc9" ext-link-type="uri" xlink:href="https://doi.org/10.25189/rabralin.v22i1.2130.R">https://doi.org/10.25189/rabralin.v22i1.2130.R</ext-link></p>
      <p id="paragraph-67d799725e116d2247bfc29ad8b28450">Editora: Raquel Freitag</p>
      <p id="paragraph-60694e6e0089b7b985a5358b9ea8cde2">ORCID: https://orcid.org/0000-0002-4972-4320</p>
      <p id="paragraph-19072485fca61040db09a91b45f564ad">Afiliação: Universidade Federal de Sergipe</p>
      <p id="paragraph-f4201f07e01d5a7637b49ad3bc352774" />
      <p id="paragraph-bbbef5e80f3333d5aefa559116643d3e">RODADAS DE AVALIAÇÃO</p>
      <p id="paragraph-8ac30430c8ea50a5af53ced632ce55f9">Avaliadora 1:  Camila Leite</p>
      <p id="paragraph-4fcbeffeba2a6853f0933e93aa8eab1c">ORCID: https://orcid.org/0000-0002-4269-8430</p>
      <p id="paragraph-a4abcce4d155987e8aeff5c166b7511b">Afiliação: Universidade Federal de Uberlândia</p>
      <p id="paragraph-24984c3ebac8a59a6e25a507f71debd7" />
      <p id="paragraph-459d040d953c75388074287984967961">Avaliadora 2: Sandra Madureira</p>
      <p id="paragraph-974fc37c0ff33fa34cf48cc07943805a">ORCID: https://orcid.org/0000-0001-8263-053X</p>
      <p id="paragraph-2135843e66f94b7cd85acbcfa8fc30db">Afiliação: Pontifícia Universidade Católica de São Paulo</p>
      <p id="paragraph-aa0ba17c95c599bceaeae0c7d39cedfc" />
      <p id="paragraph-2ae4c2cff02bd065d65cabc42162bb73">AVALIADORA 1</p>
      <p id="heading-8d294dd505a004b54929efe99b6523cd">TÍTULO</p>
      <p id="paragraph-35a6f85e6a94094d96c6c612eef8e9c2">O título do artigo reflete, de forma geral, o objeto da pesquisa proposta. Entretanto, sugiro que, já no título, os autores delimitem o espaço “geográfico” da revisão de literatura proposta. Pelo título e, seguindo a leitura do resumo, o leitor pode entender que os autores pretendem realizar um trabalho não só a respeito de pesquisas no Brasil.</p>
      <p id="paragraph-f177b12c575f9728db7302c31430c6db">RESUMO</p>
      <p id="paragraph-c386d4d7ee1ab34e9894b6656d6d7b87">O resumo é sucinto, claro e compreensível.</p>
      <p id="paragraph-4f840d774cf3f60714df7002296fff93">INTRODUÇÃO</p>
      <p id="paragraph-7b06ce98eb40a0c2f0e1599ca5cbfe57">A introdução cumpre seu objetivo, mas sugiro que os autores revejam a justificativa apresentada. O fato de não haver uma discussão sobre os estudos escolhidos para a revisão não justificam o trabalho.</p>
      <p id="paragraph-35ae3283636412993de19e2d0d1c4606">As duas últimas frases da introdução apontam informações que demonstram a necessidade de uma pesquisa de revisão a aqui proposta.</p>
      <p id="paragraph-bc3615b1b3633ef2dfc651f535fb7362">MÉTODOS</p>
      <p id="paragraph-8e1c0cdb930ee7efa196fe8e1732ed76">O método de pesquisa utilizado pelos autores é válido para o tipo de pesquisa proposta.</p>
      <p id="paragraph-13">A seleção da amostragem está adequanda, no entando, sugiro que os autores reforcem que se trata de uma pesquisa bibliográfica de trabalhos realizados no Brasil.</p>
      <p id="paragraph-15">RESULTADO</p>
      <p id="paragraph-16">Considerando o foco da Revista Abralin, os autores discutem de forma satisfatória os trabalhos selecionados para revisão.</p>
      <p id="paragraph-17">O texto consegue acrescentar uma discussão complementar aos dados apresentados nas seções anteriores. O quadro elaborado pelos autores é um excelente resumo dos trabalhos selecionados.</p>
      <p id="paragraph-86739f41cfcabe08434a7239ef60d9a6" />
      <p id="paragraph-8a6f7fc4279ba92ab4ecc59c0297986d">AVALIADORA 2</p>
      <p id="paragraph-d835378c3539997f437b2193dcb5c256">O artigo apresenta uma revisão integrativa de trabalhos que abordam as relações entre prosódia e síntese de fala. Revisões integrativas fornecem um panorama sobre trabalhos que apresentam uma contribuição relevante na construção de conhecimento sobre um tópico de pesquisa e com base nesse panorama identificam questões relevantes a serem perseguidas em trabalhos de pesquisa.</p>
      <p id="paragraph-d6f9a0b28dc1fefa790b90625ee49f43">O texto está bem redigido, expõe claramente o escopo dos trabalhos incluídos na revisão. Do ponto de vista do conteúdo, o texto traz considerações relevantes para a abordagem da prosódia em sistemas de síntese de fala. Do ponto de vista formal, há adequação em termos de escolha de título, do conteúdo do resumo, da abrangência de informações na introdução e do método adotado. As figuras auxiliam a interpretação textual e o quadro “Síntese dos trabalhos revisados” contém as informações relevantes sobre os trabalhos de pesquisa levantados pelos autores.</p>
      <p id="paragraph-6b45d1d82fcfe7269e3235dde5ea02d9">A critério dos autores, no parágrafo em que citam trabalhos iniciais de sistemas de síntese em português brasileiro (EGASHIRA, 1992; GOMES, 1998; SILVA; VIOLARO, 1995; OLIVEIRA, 1996; CHBANE, 1994; SIMÕES, 1999; BARBOSA, 1999) considerar a inclusão ou não das seguintes referências:</p>
      <p id="paragraph-0a5c74f8a4b938be2186c20186b2a449"><ext-link id="external-link-edcdfc56cde09e4b0c0fe44c977ad366" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/2134775804727230">AQUINO, P. A.</ext-link>. O papel das vogais reduzidas pós-tônicas na construção de um sistema de síntese concatenativa para o português do Brasil. Revista Sínteses do Instituto de Estudos da Linguagem IEL Unicamp, Unicamp, Campinas, v. 3, p. 9-18, 1998.</p>
      <p id="paragraph-641802dffc351d114ac7d0aaba57ec47"><ext-link id="external-link-2" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/2134775804727230">AQUINO, P. A.</ext-link>. O papel das vogais reduzidas pós-tônicas na construção de um sistema de síntese concatenativa para o português do Brasil. In: GEL - Grupo de Estudos Lingüísticos do Estado de São Paulo, 1999, São José do Rio Preto. Estudos Lingüísticos, 1999. v. 28. p. 361-366.</p>
      <p id="paragraph-4195d169886b6493546ba881a38062a1"><ext-link id="external-link-3" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/6013138032598090">BARBOSA, P. A.</ext-link> ; VIOLARO, F. ; <ext-link id="external-link-4" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/1698381352533184">ALBANO, E. C.</ext-link> ; SIMÕES, F. ; AQUINO, P. A. ; <ext-link id="external-link-5" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/8276302402805618">MADUREIRA, S.</ext-link> ; FRANÇOSO, E. . Aiuruetê: a high-qulity concatenative text-to-speech system for brazilian portuguese with demisyllabic analysis-based units and a hierarchical model of rhythm production. In: Eurospeech, 1999, Budapeste. Proceedings do Eurospeech'99, 1999. v. 5. p. 2059-2062.</p>
      <p id="paragraph-c71d0bd33bd8183971829e2a988dfdb8">M<ext-link id="external-link-6" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/8276302402805618">ADUREIRA, Sandra</ext-link>; <ext-link id="external-link-7" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/1030729322909034">SILVA, C. H.</ext-link> ; <ext-link id="external-link-8" ext-link-type="uri" xlink:href="http://lattes.cnpq.br/2134775804727230">AQUINO, P.</ext-link> . Pitch Patterns and Duration: Analysis and Synthesis. In: XIII International Congress of Phonetic Sciences, 1995, Estocolmo. Proceedings of the XIII International Congress of Phonetic Sciences. Stockholm, 1995. v. 3. p. 406-410.</p>
      <p id="paragraph-243503a60a91465324a68945186c9b85" />
    </sec>
    <sec id="heading-a3c8bdae40698343db32388d2cc76eca">
      <title>Conflito de Interesse</title>
      <p id="paragraph-1">Os autores não têm conflitos de interesse a declarar.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="journal-article-ref-029ebc0297a923816bf0131bf5def39b">
        <element-citation publication-type="journal">
          <elocation-id>https://revistas.iel.unicamp.br/index.php/sinteses/article/view/6078</elocation-id>
          <fpage>9</fpage>
          <lpage>19</lpage>
          <page-range>9-18</page-range>
          <volume>3</volume>
          <year>1998</year>
          <person-group person-group-type="author">
            <name>
              <surname>AQUINO</surname>
              <given-names>P. A</given-names>
            </name>
          </person-group>
          <source>Revista Sínteses do Instituto de Estudos da Linguagem IEL</source>
          <article-title>O papel das vogais reduzidas pós-tônicas na construção de um sistema de síntese concatenativa para o português do Brasil</article-title>
        </element-citation>
      </ref>
      <ref id="conference-paper-ref-3ec932922a0a4582a02d0a36072e76e7">
        <element-citation publication-type="confproc">
          <conf-name>Association for Computational Linguistics, Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing</conf-name>
          <conf-loc>Austin</conf-loc>
          <page-range>1048-1053</page-range>
          <year>2016</year>
          <pub-id pub-id-type="doi">http://dx.doi.org/10.18653/v1/D16-1111</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>BALLESTEROS</surname>
              <given-names>M.</given-names>
            </name>
            <name>
              <surname>WANNER</surname>
              <given-names>L. A.</given-names>
            </name>
          </person-group>
          <article-title>A Neural Network Architecture for Multilingual Punctuation Generation</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-ba099283b4590ac31c6ee774b3cd9208">
        <element-citation publication-type="thesis">
          <publisher-loc>Recife</publisher-loc>
          <publisher-name>Universidade de Pernambuco</publisher-name>
          <year>2016</year>
          <person-group person-group-type="author">
            <name>
              <surname>BARBOSA</surname>
              <given-names>D. S.</given-names>
            </name>
          </person-group>
          <article-title>
            <italic id="italic-62a1519345a48c8e653b17317904c5b8">Análise e proposição de modelos de síntese de fala para integração ao framework FIVE (Mestrado em Engenharia de Computação)</italic>
          </article-title>
        </element-citation>
      </ref>
      <ref id="chapter-ref-31bc95dfb8b802c6c1612d95634add45">
        <element-citation publication-type="chapter">
          <publisher-loc>Campinas, SP</publisher-loc>
          <publisher-name>Editora da Unicamp</publisher-name>
          <year>1999</year>
          <person-group person-group-type="author">
            <name>
              <surname>BARBOSA</surname>
              <given-names>P. A.</given-names>
            </name>
          </person-group>
          <person-group person-group-type="editor">
            <name>
              <surname>SCARPA</surname>
              <given-names>E. M.</given-names>
            </name>
          </person-group>
          <source>Estudos de prosódia</source>
          <chapter-title>Revelar a estrutura rítmica de uma língua construindo máquinas falantes: pela integração de ciência e tecnologia de fala</chapter-title>
        </element-citation>
      </ref>
      <ref id="book-ref-34d7aa21e94c64f094497f9cc996ebc0">
        <element-citation publication-type="book">
          <publisher-loc>São Paulo</publisher-loc>
          <publisher-name>Parábola</publisher-name>
          <year>2019</year>
          <person-group person-group-type="author">
            <name>
              <surname>BARBOSA</surname>
              <given-names>P. A.</given-names>
            </name>
          </person-group>
          <source>Prosódia</source>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-d370e0132298436323d5edd0702d2317">
        <element-citation publication-type="journal">
          <elocation-id>https://www.semanticscholar.org/paper/Aiuruete%3A-a-high-quality-concatenative-system-for-a-Barbosa-Violaro/6fe3d550425ba35042b41c59b79c11f35dd59e3d</elocation-id>
          <fpage>2059</fpage>
          <lpage>2062</lpage>
          <page-range>2059-2062</page-range>
          <volume>5</volume>
          <year>1999</year>
          <person-group person-group-type="author">
            <name>
              <surname>BARBOSA</surname>
              <given-names>P. A.</given-names>
            </name>
            <name>
              <surname>VIOLARO</surname>
              <given-names>F.</given-names>
            </name>
            <name>
              <surname>ALBANO</surname>
              <given-names>E.</given-names>
            </name>
            <name>
              <surname>SIMÕES</surname>
              <given-names>F.</given-names>
            </name>
            <name>
              <surname>AQUINO</surname>
              <given-names>P. A.</given-names>
            </name>
            <name>
              <surname>MADUREIRA</surname>
              <given-names>S.</given-names>
            </name>
            <name>
              <surname>FRANÇOSO</surname>
              <given-names>E.</given-names>
            </name>
          </person-group>
          <source>Eurospeech</source>
          <article-title>Aiuruetê: a high-qulity concatenative text-to-speech system for brazilian portuguese with demisyllabic analysis-based units and a hierarchical model of rhythm production</article-title>
        </element-citation>
      </ref>
      <ref id="conference-paper-ref-78a0ef58476237c811a6dbfb35881eac">
        <element-citation publication-type="confproc">
          <conf-name>Colóquio Política Linguística</conf-name>
          <elocation-id>http://download.microsoft.com/download/A/0/B/A0B1A66A-5EBF-4CF3-9453-4B13BB027F1F/ColoquioPoliticaLinguistica_2007.pdf</elocation-id>
          <year>2007</year>
          <person-group person-group-type="author">
            <name>
              <surname>BRAGA</surname>
              <given-names>D.</given-names>
            </name>
          </person-group>
          <article-title>Máquinas falantes: Novos paradigmas da língua e da linguística</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-29982725866f2e9c58f67dcde7a88f18">
        <element-citation publication-type="thesis">
          <publisher-loc>São Paulo</publisher-loc>
          <publisher-name>Universidade de São Paulo</publisher-name>
          <year>1994</year>
          <person-group person-group-type="author">
            <name>
              <surname>CHBANE</surname>
              <given-names>D. T.</given-names>
            </name>
          </person-group>
          <article-title>
            <italic id="italic-0d4f537ec0a7344f6485263746647e1d">Desenvolvimento de sistema para conversão de textos em fonemas no idioma português. Dissertação (Mestrado em Engenharia)</italic>
          </article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-2c46d698bc6892886dd493b9affdbc34">
        <element-citation publication-type="journal">
          <issue>2</issue>
          <page-range>864-877</page-range>
          <volume>143</volume>
          <year>2018</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1121/1.5023218</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>CHEN</surname>
              <given-names>J.</given-names>
            </name>
            <name>
              <surname>YANG</surname>
              <given-names>H.</given-names>
            </name>
            <name>
              <surname>WU</surname>
              <given-names>X.</given-names>
            </name>
            <name>
              <surname>MOORE</surname>
              <given-names>B.</given-names>
            </name>
            <collab>
              <named-content content-type="name">CJ</named-content>
            </collab>
          </person-group>
          <source>The Journal of the Acoustical Society of America</source>
          <article-title>The effect of F0 contour on the intelligibility of speech in the presence of interfering sounds for Mandarin Chinese</article-title>
        </element-citation>
      </ref>
      <ref id="book-ref-d37514f7591571c8d851533377b2c242">
        <element-citation publication-type="book">
          <publisher-name>Kluwer Academic Publishers</publisher-name>
          <year>1997</year>
          <person-group person-group-type="author">
            <name>
              <surname>DUTOIT</surname>
              <given-names>T.</given-names>
            </name>
          </person-group>
          <source>
            <italic id="italic-1c9b2f2f84ee5222bd85490ccc9a7b37">An introduction to text-to-speech synthesis</italic>
          </source>
        </element-citation>
      </ref>
      <ref id="thesis-ref-99956561877191ee91fed5f6d05b7e8f">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica</publisher-name>
          <year>1992</year>
          <person-group person-group-type="author">
            <name>
              <surname>EGASHIRA</surname>
              <given-names>F.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-68923b8cd81c5b8b444d32cb619749cf">Síntese de voz a partir de texto para a língua portuguesa.</italic> Dissertação (Mestrado em Engenharia Elétrica)</article-title>
        </element-citation>
      </ref>
      <ref id="chapter-ref-e1ed21cb7ed9a892c3af5ac9afb8d8a9">
        <element-citation publication-type="chapter">
          <publisher-loc>New York</publisher-loc>
          <publisher-name>Springer</publisher-name>
          <year>1997</year>
          <person-group person-group-type="author">
            <name>
              <surname>FUJISAKI</surname>
              <given-names>H.</given-names>
            </name>
          </person-group>
          <person-group person-group-type="editor">
            <name>
              <surname>SAGISAKA</surname>
              <given-names>Y.</given-names>
            </name>
            <name>
              <surname>CAMPBELL</surname>
              <given-names>N.</given-names>
            </name>
            <name>
              <surname>HIGUCHI</surname>
              <given-names>N.</given-names>
            </name>
          </person-group>
          <source>Computing Prosody: Computational Models for Processing Spontaneous Speech</source>
          <chapter-title>Prosody, models, and spontaneous speech</chapter-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-23aad2af1dd0ca0202a246abd6810609">
        <element-citation publication-type="thesis">
          <publisher-name>Unicamp, Faculdade de Engenharia Elétrica e de Computação</publisher-name>
          <year>1998</year>
          <person-group person-group-type="author">
            <name>
              <surname>GOMES</surname>
              <given-names>L. C. T.</given-names>
            </name>
          </person-group>
          <article-title>. <italic id="italic-7550de708ebe04ed9fdf2203e8946a59">Sistema de conversão texto-fala para a língua portuguesa utilizando a abordagem de síntese por regras</italic><bold id="bold-1">.</bold> Dissertação (Mestrado em Engenharia Elétrica)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-18b7bf61fd6627b2bd99d87af7193330">
        <element-citation publication-type="journal">
          <page-range>1253-1258</page-range>
          <year>2017</year>
          <pub-id pub-id-type="doi">10.1109/APSIPA.2017.8282231</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>INOUE</surname>
              <given-names>K.</given-names>
            </name>
            <name>
              <surname>HARA</surname>
              <given-names>S.</given-names>
            </name>
            <name>
              <surname>ABE</surname>
              <given-names>M.</given-names>
            </name>
            <name>
              <surname>HOJO</surname>
              <given-names>N.</given-names>
            </name>
            <name>
              <surname>IJIMA</surname>
              <given-names>Y.</given-names>
            </name>
          </person-group>
          <source>Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)</source>
          <article-title>An investigation to transplant emotional expressions in DNN-based TTS synthesis</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-bc1afc7bf45ce49640e52f31a92ce03d">
        <element-citation publication-type="journal">
          <issue>6</issue>
          <month>Jun</month>
          <page-range>1042-1053</page-range>
          <volume>23</volume>
          <year>2015</year>
          <pub-id pub-id-type="doi">10.1109/TASLP.2015.2418576</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>KAMEOKA</surname>
              <given-names>H.</given-names>
            </name>
            <name>
              <surname>YOSHIZATO</surname>
              <given-names>K.</given-names>
            </name>
            <name>
              <surname>ISHIHARA</surname>
              <given-names>T.</given-names>
            </name>
            <name>
              <surname>KADOWAKI</surname>
              <given-names>K.</given-names>
            </name>
            <name>
              <surname>OHISHI</surname>
              <given-names>Y.</given-names>
            </name>
            <name>
              <surname>KASHINO</surname>
              <given-names>K.</given-names>
            </name>
          </person-group>
          <source>IEEE/ACM Transactions on Audio, Speech, and Language Processing</source>
          <article-title>Generative Modeling of Voice Fundamental Frequency Contours</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-26185bfe6a2266c9db6e8c9a3a6a7c58">
        <element-citation publication-type="journal">
          <page-range>4929-4933</page-range>
          <year>2015</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/ICASSP.2015.7178908</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>KORIYAMA</surname>
              <given-names>T.</given-names>
            </name>
            <name>
              <surname>KOBAYASHI</surname>
              <given-names>T.</given-names>
            </name>
          </person-group>
          <source>IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)</source>
          <article-title>Prosody generation using frame-based Gaussian process regression and classification for statistical parametric speech synthesis</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-31ab9d2abbdd98511321b74b3d8dda6a">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Rio de Janeiro, Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia</publisher-name>
          <year>2011</year>
          <person-group person-group-type="author">
            <name>
              <surname>LATSCH</surname>
              <given-names>V. L.</given-names>
            </name>
          </person-group>
          <article-title>. <italic id="italic-19aa71254ca56d9e76b77e7b88b669b6">Desenvolvimento de um sistema de conversão texto-fala com modelagem de prosódia</italic><bold id="bold-d124901c4b2a20dfb2e1df79a63a3334">.</bold> Tese (Doutorado em Engenharia Elétrica)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-dab5bce107e411b0e4b8503aa20ce05e">
        <element-citation publication-type="journal">
          <page-range>74-78</page-range>
          <year>2018</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/IALP.2018.8629143</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>LIU</surname>
              <given-names>X.</given-names>
            </name>
            <name>
              <surname>LIU</surname>
              <given-names>Y.</given-names>
            </name>
            <name>
              <surname>SONG</surname>
              <given-names>X.</given-names>
            </name>
          </person-group>
          <source>International Conference on Asian Language Processing (IALP), IEEE</source>
          <article-title>Investigating for Punctuation Prediction in Chinese Speech Transcriptions</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-a2288e200ca2ac78ec145247a0d0064e">
        <element-citation publication-type="journal">
          <elocation-id>https://www.coli.uni-saarland.de/groups/BM/phonetics/icphs/ICPhS1995/13_ICPhS_1995_Vol_2/p13.2_406.pdf</elocation-id>
          <page-range>406-410</page-range>
          <volume>3</volume>
          <year>1995</year>
          <person-group person-group-type="author">
            <name>
              <surname>MADUREIRA</surname>
              <given-names>S.</given-names>
            </name>
            <name>
              <surname>SILVA</surname>
              <given-names>C. H.</given-names>
            </name>
            <name>
              <surname>AQUINO</surname>
              <given-names>P.</given-names>
            </name>
          </person-group>
          <source>Proceedings of the XIII International Congress of Phonetic Sciences. Stockholm</source>
          <article-title>Pitch Patterns and Duration: Analysis and Synthesis</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-fd151eed637f37b6a28b669fa7d57810">
        <element-citation publication-type="journal">
          <elocation-id>https://www.sbrt.org.br/sbrt2017/anais/1570361943.pdf</elocation-id>
          <page-range>3-6</page-range>
          <year>2017</year>
          <person-group person-group-type="author">
            <name>
              <surname>MAIA</surname>
              <given-names>R.</given-names>
            </name>
            <name>
              <surname>SEARA</surname>
              <given-names>R.</given-names>
            </name>
          </person-group>
          <source>XXXV Simpósio Brasileiro de Telecomunicações e Processamento de Sinais</source>
          <article-title>Um sistema TTS baseado em redes neurais profundas usando parâmetros síncronos de pitch</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-98687082ea4a363e7957189e3b75e972">
        <element-citation publication-type="journal">
          <elocation-id>www2.unucseh.ueg.br/vialitterae</elocation-id>
          <issue>2</issue>
          <page-range>191-204</page-range>
          <volume>4</volume>
          <year>2012</year>
          <person-group person-group-type="author">
            <name>
              <surname>MANFIO</surname>
              <given-names>E. R.</given-names>
            </name>
          </person-group>
          <source>Revista de Linguística e Teoria Literária, Via Litterae</source>
          <article-title>Como funcionam alguns fonemas no aplicativo Balabolka</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-8ca48071321c41bc844d029d8cbacee1">
        <element-citation publication-type="journal">
          <elocation-id>https://www.isca-speech.org/archive_v0/sp2008/papers/sp08_389.pdf</elocation-id>
          <page-range>389–398</page-range>
          <year>2008</year>
          <person-group person-group-type="author">
            <name>
              <surname>MORAES</surname>
              <given-names>J. A.</given-names>
            </name>
          </person-group>
          <source>Proceedings of the Fourth Conference on Speech Prosody</source>
          <article-title>The Pitch Accents in Brazilian Portuguese: analysis by synthesis</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-1cba95d135d017a6f2ac17a32abee9f6">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Ceará, Centro de Tecnologia, Departamento de Engenharia de Teleinformática</publisher-name>
          <year>2015</year>
          <person-group person-group-type="author">
            <name>
              <surname>MOREIRA</surname>
              <given-names>N. A.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-fed298f43748c694e3b20a2abfac701b">Proposta de um front-end em java para sintetizador de voz baseado no MBROLA</italic>. Dissertação (Engenharia de Teleinformática)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-e12b0e3fa033135fc1126e1b9a8eedb4">
        <element-citation publication-type="journal">
          <page-range>1524-1527</page-range>
          <year>2017</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/APSIPA.2017.8282285</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>MOUNGSRI</surname>
              <given-names>D.</given-names>
            </name>
            <name>
              <surname>KORIYAMA</surname>
              <given-names>T.</given-names>
            </name>
            <name>
              <surname>KOBAYASHI</surname>
              <given-names>T.</given-names>
            </name>
          </person-group>
          <source>Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)</source>
          <article-title>Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-42ef18c7c0be849e2169021c99628aa4">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Pará, Instituto de Tecnologia</publisher-name>
          <year>2011</year>
          <person-group person-group-type="author">
            <name>
              <surname>NETO</surname>
              <given-names>C. S. N.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-103cb0e2aa83911bf5e5c95bcebf79c0">Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro</italic>. Tese (Doutorado em Engenharia Elétrica com ênfase em Computação Aplicada)</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-7012f8f4156530e56460977b5552375b">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Técnica de Lisboa, Instituto Superior Técnico</publisher-name>
          <year>1996</year>
          <person-group person-group-type="author">
            <name>
              <surname>OLIVEIRA</surname>
              <given-names>L. M. V. V. C.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-a6e75403c9dd578fa91a8407500a9816">Síntese de fala a partir de texto</italic><bold id="bold-7c4e346a468dda64794101604bb5c865">.</bold> Dissertação (Mestrado em Engenharia Electrotécnica e de Computadores)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-2f9313ee898ee14b3393b18fade33643">
        <element-citation publication-type="journal">
          <elocation-id>http://ilhadigital.florianopolis.ifsc.edu.br/index.php/ilhadigital/article/view/17</elocation-id>
          <page-range>3-17</page-range>
          <volume>2</volume>
          <year>2010</year>
          <person-group person-group-type="author">
            <name>
              <surname>PACHECO</surname>
              <given-names>F. S.</given-names>
            </name>
          </person-group>
          <source>Revista Ilha Digital</source>
          <article-title>Artigo de Revisão: Sistemas de Síntese de Fala</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-e6a8717bb56c371a3a3c2df2f0057b2e">
        <element-citation publication-type="journal">
          <page-range>1629-1633</page-range>
          <year>2017</year>
          <pub-id pub-id-type="doi">https://doi.org/10.23919/EUSIPCO.2017.8081485</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>RAO</surname>
              <given-names>M. V.</given-names>
            </name>
            <name>
              <surname>GHOSH</surname>
              <given-names>P. K.</given-names>
            </name>
          </person-group>
          <source>European Signal Processing Conference (EUSIPCO)</source>
          <article-title>Pitch prediction from Mel-generalized cepstrum — a computationally efficient pitch modeling approach for speech synthesi</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-06a36c02e6a976479483c873db84b652">
        <element-citation publication-type="journal">
          <elocation-id>https://fei.edu.br/sbai/SBAI2011/86262.pdf</elocation-id>
          <page-range>1185-1188</page-range>
          <year>2011</year>
          <person-group person-group-type="author">
            <name>
              <surname>REIS</surname>
              <given-names>B. F.</given-names>
            </name>
            <name>
              <surname>MARTINS</surname>
              <given-names>V. V.</given-names>
            </name>
            <name>
              <surname>PEREIRA-BARRETTO</surname>
              <given-names>M. R.</given-names>
            </name>
            <name>
              <surname>MOSCATO</surname>
              <given-names>L. A.</given-names>
            </name>
          </person-group>
          <source>XSABAI – Simpósio Brasileiro de Automação Inteligente</source>
          <article-title>Síntese prosódica da fala em português do Brasil</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-880c5ba2f5a142f6c33a25086aeb48c2">
        <element-citation publication-type="journal">
          <page-range>6830-6834</page-range>
          <year>2019</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/ICASSP.2019.8683865</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>ROBINSON</surname>
              <given-names>C.</given-names>
            </name>
            <name>
              <surname>OBIN</surname>
              <given-names>N.</given-names>
            </name>
            <name>
              <surname>ROEBEL</surname>
              <given-names>A.</given-names>
            </name>
          </person-group>
          <source>IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)</source>
          <article-title>Sequence-to-sequence Modelling of F0 for Speech Emotion Conversion</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-3458bcf7207500a495c2be30efde1627">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Rio Grande do Norte</publisher-name>
          <year>2018</year>
          <person-group person-group-type="author">
            <name>
              <surname>SÁ</surname>
              <given-names>F. C.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-57bf8b15207ea147deb53483f0e654ed">Geração de prosódia para o português brasileiro em sistemas text-to-speech.</italic> Monografia (Bacharelado em Ciência da Computação)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-89da802cea3cf464faa7a7b9714676d0">
        <element-citation publication-type="journal">
          <issue>1</issue>
          <page-range>35–41</page-range>
          <volume>28</volume>
          <year>1990</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/35.46669</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>SAGISAKA</surname>
              <given-names>Y.</given-names>
            </name>
          </person-group>
          <source>IEEE Communications Magazine</source>
          <article-title>Speech synthesis from text</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-8dffa552fa2da167ea5a0c39534e00a3">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Rio de Janeiro, COPPE</publisher-name>
          <year>2004</year>
          <person-group person-group-type="author">
            <name>
              <surname>SILVA</surname>
              <given-names>S. Z.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-54cdc692a3855c563490c21a1fe6641f">Um estudo de modelos básicos de prosódia para o Português Brasileiro</italic>. Tese (Mestrado em Engenharia Elétrica)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-deb3b97e55d406e6486de9ad1a8c4f2b">
        <element-citation publication-type="journal">
          <issue>12</issue>
          <volume>5</volume>
          <year>2000</year>
          <pub-id pub-id-type="doi">http://dx.doi.org/10.14209/jcis.2000.8</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>SIMÕES</surname>
              <given-names>F. O.</given-names>
            </name>
            <name>
              <surname>VIOLARO</surname>
              <given-names>F.</given-names>
            </name>
            <name>
              <surname>BARBOSA</surname>
              <given-names>P.</given-names>
            </name>
            <name>
              <surname>ALBANO</surname>
              <given-names>E. C.</given-names>
            </name>
          </person-group>
          <source>Journal of Communication and Information Systems</source>
          <article-title>Um sistema de conversão texto-fala para o português falado no Brasil</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-f41b808464faebe78657f263fb568461">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal de Pernambuco, Centro de Informática</publisher-name>
          <year>2010</year>
          <person-group person-group-type="author">
            <name>
              <surname>SOUZA</surname>
              <given-names>C. F. S.</given-names>
            </name>
          </person-group>
          <article-title>. <italic id="italic-7ae659a6b6644cf4c08b4ac8a8318b16">Síntese de fala em português brasileiro baseada em modelos ocultos de Markov</italic>. Dissertação (Mestrado em Ciência da Computação)</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-0433c334f38e47d3597967fdc391184d">
        <element-citation publication-type="journal">
          <page-range>2988-2992</page-range>
          <year>2019</year>
          <pub-id pub-id-type="doi">http://dx.doi.org/10.21437/Interspeech.2019-2132</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>SZASZÁK</surname>
              <given-names>G.</given-names>
            </name>
            <name>
              <surname>TÜNDIK</surname>
              <given-names>M. Á.</given-names>
            </name>
          </person-group>
          <source>Proc. Interspeech</source>
          <article-title>Leveraging a character, word and prosody triplet for an ASR error robust and agglutination friendly punctuation approach</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-16d0ebf5f3ba971e1cd3220344f8f320">
        <element-citation publication-type="journal">
          <issue>4</issue>
          <page-range>684-695</page-range>
          <volume>14</volume>
          <year>2020</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/TAFFC.2018.2828429</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>TAHON</surname>
              <given-names>M.</given-names>
            </name>
            <name>
              <surname>LECORVÉ</surname>
              <given-names>G.</given-names>
            </name>
            <name>
              <surname>LOLIVE</surname>
              <given-names>D.</given-names>
            </name>
          </person-group>
          <source>IEEE Transactions on Affective Computing</source>
          <article-title>Can We Generate Emotional Pronunciations for Expressive Speech Synthesis?</article-title>
        </element-citation>
      </ref>
      <ref id="book-ref-72a7e37df89c3ed0061f70c5b8ccf022">
        <element-citation publication-type="book">
          <publisher-name>Cambridge University Press</publisher-name>
          <year>2009</year>
          <person-group person-group-type="author">
            <name>
              <surname>TAYLOR</surname>
              <given-names>P.</given-names>
            </name>
          </person-group>
          <source>
            <italic id="italic-b2f7d3d407d7d8dbcfc43b42b246356f">Text–to–Speech Synthesis</italic>
          </source>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-ab4e45bcee6f858e9e36db2a7a89b545">
        <element-citation publication-type="journal">
          <elocation-id>http://ulbra-to.br/encoinfo/wp-content/uploads/2020/03/Tecnologias-de-Reconhecimento-de-Fala-uma-revis%C3%A3o-sistem%C3%A1tica-de-trabalhos-no-Brasil.pdf</elocation-id>
          <page-range>160-167</page-range>
          <year>2016</year>
          <person-group person-group-type="author">
            <name>
              <surname>TEIXEIRA</surname>
              <given-names>A. H.</given-names>
            </name>
            <name>
              <surname>SANTOS</surname>
              <given-names>I. M. M</given-names>
            </name>
            <name>
              <surname>MOTA</surname>
              <given-names>J. S.</given-names>
            </name>
            <name>
              <surname>GOMES DE SOUZA</surname>
              <given-names>J.</given-names>
            </name>
          </person-group>
          <source>XX Encoinfo – Congresso de Computação e Tecnologias da Informação</source>
          <article-title>Tecnologias de reconhecimento de fala: uma revisão sistemática de trabalhos no Brasil</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-df5a1a43d94c1e27ed8a390970d1ecbb">
        <element-citation publication-type="journal">
          <page-range>522-527</page-range>
          <year>2015</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/ICCC.2015.7432949</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>THOMAS</surname>
              <given-names>C.</given-names>
            </name>
            <name>
              <surname>GOKUL</surname>
              <given-names>P.</given-names>
            </name>
            <name>
              <surname>THOMAS</surname>
              <given-names>N.</given-names>
            </name>
            <name>
              <surname>GOPINATH</surname>
              <given-names>D. P.</given-names>
            </name>
          </person-group>
          <source>International Conference on Control Communication &amp; Computing India (ICCC)</source>
          <article-title>Synthesizing intonation for Malayalam TTS</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-dbcd5a3a0614c21ae4a79c567d91d11f">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Federal do Rio de Janeiro, Escola Politécnica, Departamento de Eletrônica e de Computação, Centro de Tecnologia</publisher-name>
          <year>2012</year>
          <person-group person-group-type="author">
            <name>
              <surname>THOMAZ</surname>
              <given-names>L. A.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-11beea95f00ba34416dcf668504c97da">Modelagem de prosódia para conversores texto-fala</italic>. Monografia (Graduação em Eletrônica e Computação)</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-d961db1afc0113710979d4319b888841">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade de São Paulo</publisher-name>
          <year>2005</year>
          <person-group person-group-type="author">
            <name>
              <surname>URSI</surname>
              <given-names>E. S.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-afcea1310dfa5d277336c762bb8d7c3c">Prevenção de lesões de pele no perioperatório: revisão integrativa da literatura</italic>. Dissertação (Mestrado em Enfermagem).</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-26f561faa7fc1a53072f51d3eed972b5">
        <element-citation publication-type="journal">
          <page-range>7270-7274</page-range>
          <year>2019</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1109/ICASSP.2019.8682260</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>YI</surname>
              <given-names>J.</given-names>
            </name>
            <name>
              <surname>TAO</surname>
              <given-names>J.</given-names>
            </name>
          </person-group>
          <source>IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)</source>
          <article-title>Self-attention Based Model for Punctuation Prediction Using Word and Speech Embeddings</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-00dfd47ae8126708c3fa314107a09eaf">
        <element-citation publication-type="journal">
          <issue>11</issue>
          <page-range>1039-1064</page-range>
          <volume>51</volume>
          <year>2009</year>
          <pub-id pub-id-type="doi">https://doi.org/10.1016/j.specom.2009.04.004</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>ZEN</surname>
              <given-names>H.</given-names>
            </name>
            <name>
              <surname>TOKUDA</surname>
              <given-names>K.</given-names>
            </name>
            <name>
              <surname>BLACK</surname>
              <given-names>A. W.</given-names>
            </name>
          </person-group>
          <source>Speech Communication</source>
          <article-title>Statistical parametric speech synthesis</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-1801310063c83829968d045e4bbf11c2">
        <element-citation publication-type="journal">
          <page-range>1064-1068</page-range>
          <year>2017</year>
          <pub-id pub-id-type="doi">http://dx.doi.org/10.21437/Interspeech.2017-419</pub-id>
          <person-group person-group-type="author">
            <name>
              <surname>KLIMKOV</surname>
              <given-names>V.</given-names>
            </name>
            <name>
              <surname>NADOLSKI</surname>
              <given-names>A.</given-names>
            </name>
            <name>
              <surname>MOINET</surname>
              <given-names>A.</given-names>
            </name>
            <name>
              <surname>PUTRYCZ</surname>
              <given-names>B.</given-names>
            </name>
            <name>
              <surname>BARRA-CHICOTE</surname>
              <given-names>R.</given-names>
            </name>
            <name>
              <surname>MERRITT</surname>
              <given-names>T.</given-names>
            </name>
            <name>
              <surname>DRUGMAN</surname>
              <given-names>T.</given-names>
            </name>
          </person-group>
          <source>Proc. Interspeech</source>
          <article-title>Phrase Break Prediction for Long-Form Reading TTS: Exploiting Text Structure Information</article-title>
        </element-citation>
      </ref>
      <ref id="journal-article-ref-88f63157d0df4ea006be664d799c61f8">
        <element-citation publication-type="journal">
          <elocation-id>https://jcis.sbrt.org.br/jcis/article/view/179/93</elocation-id>
          <issue>1</issue>
          <volume>10</volume>
          <year>1995</year>
          <person-group person-group-type="author">
            <name>
              <surname>SILVA</surname>
              <given-names>C. H.</given-names>
            </name>
            <name>
              <surname>VIOLARO</surname>
              <given-names>F.</given-names>
            </name>
          </person-group>
          <source>Revista Brasileira de Telecomunicações</source>
          <article-title>Modelamento prosódico para conversão texto-fala do português falado no Brasil</article-title>
        </element-citation>
      </ref>
      <ref id="thesis-ref-b2169109ff3a948837db270f70a3dcb1">
        <element-citation publication-type="thesis">
          <publisher-name>Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação</publisher-name>
          <year>1999</year>
          <person-group person-group-type="author">
            <name>
              <surname>SIMÕES</surname>
              <given-names>F.</given-names>
            </name>
          </person-group>
          <article-title><italic id="italic-04a3e3a67f2c0b65ebb8fb098a91e92b">Implementação de um sistema de conversão texto-fala para o português do Brasil.</italic> Dissertação (Mestrado em Engenharia Elétrica)</article-title>
        </element-citation>
      </ref>
    </ref-list>
  </back>
</article>