Frequência lexical dos ataques ramificados CCV em Português Brasileiro: comparando a fala adulta, a fala dirigida à criança e a fala infantil nos corpora FI e FDC

Andressa Toni

Resumo

Este artigo apresenta à comunidade linguística o Corpus de Fala Infantil (Corpus FI) e o Corpus de Fala Dirigida à Criança (Corpus FDC), uma nova base de dados voltada aos estudos sobre Aquisição da Linguagem. Estes corpora foram compilados a partir do banco de dados longitudinais de Santos (2005) utilizando as ferramentas computacionais de Benevides e Guide (2016). Os corpora consistem em uma lista de frequências contendo informações fonológicas (transcrição fonológica, transcrição acentual, estrutura silábica, categoria acentual) e morfológicas (categoria lexical e lema) das palavras coletadas na fala de 3 crianças (Corpus FI) e de seus cuidadores (Corpus FDC). Para divulgar esses corpora de acesso livre, este artigo i) descreve a metodologia utilizada em sua compilação e manuseio; e ii) oferece um exemplo sobre como estes corpora podem contribuir às pesquisas sobre o desenvolvimento linguístico infantil. Para tanto, comparamos as frequências segmental e prosódica das sílabas CCV (Consoante1+Consoante2+Vogal) na fala adulta, na fala dirigida à criança e na fala infantil demonstrando como a frequência do input influencia o percurso da aquisição fonológica. Os resultados apontam congruência na composição prosódica e segmental dos corpora, com CCV majoritariamente ocupando posições de saliência prosódica e apresentando concentração em sequências consonantais específicas. Dada a baixa frequência geral de CCV, baixo número de pares mínimos CV-CCV e existência de contextos de baixa transparência fonológica, defendemos que o input é um fator que contribui ao longo percurso de aquisição deste tipo silábico, que surge na fala infantil antes dos 2;0 anos e só se estabiliza entre 5;0-6;0 anos.

Introdução

Este artigo tem como objetivo apresentar e disponibilizar à comunidade linguística dois corpora voltados ao estudo das frequências lexical e sublexical na Aquisição da Linguagem: o Corpus de Fala Infantil (Corpus FI) e o Corpus de Fala Dirigida à Criança (Corpus FDC). Ao oferecer esses corpora, visamos contribuir à área promovendo uma nova ferramenta de pesquisa, tendo em conta que o input e a exposição linguística se configuram como fatores fundamentais ao desenvolvimento linguístico infantil – seja este abordado por vieses inatistas, como ilustrado pelo Princípio da Tolerância (YANG, 2016), seja este abordado por vieses baseados no uso, como ilustrado pela Teoria dos Exemplares (PIERREHUMBERT, 2001). Paradoxalmente, corpora voltados a uma mensuração quantitativa direta do input e/ou dos outputs-alvo infantis ainda são escassos na literatura brasileira: embora bancos como o CHILDES representem importantes fontes de mineração de dados, permitindo um acompanhamento longitudinal da fala infantil e/ou da fala dirigida à criança, certos conhecimentos de programação sobre a ferramenta CLAN são necessários para extrair contagens sobre a frequência de palavras, de morfemas, de semas, de estruturas fonológicas, posições acentuais ou mesmo de segmentos – exigindo-se também, para algumas dessas medidas, anotações fonológicas, morfológicas e sintáticas específicas, que nem sempre estão disponíveis nas transcrições oferecidas. Tais contagens são interessantes não só aos estudos sobre a exposição linguística, possibilitando mensurar a frequência de diversas estruturas na fala da criança e de seus responsáveis; são também úteis, por exemplo, para selecionar estímulos experimentais, auxiliando na escolha dos alvos mais familiares a conter determinadas propriedades; para reconhecer acertos ou erros cristalizados e/ou isolados na fala infantil, que se restringem a palavras muito frequentes em seu ambiente linguístico ou em suas próprias tentativas de produção; para observar generalizações/regularizações que se restringem a palavras de baixa frequência; para verificar se a proporção de uso de determinadas estruturas na fala infantil é semelhante, superior ou inferior à proporção observada em seu input; para analisar se a frequência de tipos (types) ou de ocorrências (tokens) pode influenciar as taxas de acerto ou o período de emergência de estruturas... São diversas as contribuições do fator frequência ao estudo da fala infantil.

Atualmente, o pesquisador interessado em selecionar estímulos experimentais ou em determinar parâmetros de regularidade lexical, por exemplo, tende a recorrer a contagens manuais de um pequeno conjunto de transcrições ortográficas de díades mãe-criança ou à frequência observada na fala entre adultos, já que diversas contagens baseadas em corpora sociolinguísticos estão disponíveis para acesso livre e direto – tem-se, por exemplo, as listas de frequência do LexPorBR (ESTIVALET; MEUNIER, 2015), do SUBTLEX-PTBR (TANG, 2012), do C-ORAL-BRASIL (RASO; MELLO, 2012) e do Corpus ABG (BENEVIDES; GUIDE, 2016), para citar algumas. No entanto, cabe destacar que tanto a contagem manual quanto a pesquisa em bases de fala adulta apresentam problemas: dada a pequena amostragem da quantificação manual – que geralmente se restringe à fala de uma única criança –, estruturas naturalmente pouco frequentes na língua tendem a ser subrepresentadas, muitas vezes não apresentando a diversidade lexical e/ou fonológica necessária à seleção de estímulos experimentais, por exemplo. Por outro lado, a frequência observada na fala entre adultos não deve ser assumida como congruente ou representativa da fala infantil – veja-se, por exemplo, os estudos de Newport, Gleitman e Gleitman (1977) e Pessôa e Moura (2011) para o PB, que demonstraram que a fala da criança e a fala dirigida à criança são bastante distintas em relação ao tipo de sentenças, se declarativas ou interrogativas. Para ilustrar tais problemas, tomemos como exemplo as sílabas de ataque ramificado CCV (Consoante1+Consoante2+Vogal): no universo lexical infantil, palavras contendo CCV concentram-se principalmente em itens como ‘brincar’, ‘brincadeira’, ‘brinquedo’, exibindo baixa diversidade fonológica e lexical – ou seja, outras sequências consonantais, como /kl, gl/ ou mesmo /tɾ/, que são também de interesse do pesquisador voltado ao estudo da aquisição CCV, implicam maior dificuldade na seleção de palavras familiares. Ademais, palavras altamente frequentes no léxico adulto ou mesmo na escrita, como ‘Brasil’, ‘trabalho’, ‘cliente’, ‘inglês’, ‘problema’, nem sempre são igualmente familiares no universo lexical infantil.

Considerando que estudos sobre o input da criança podem trazer importantes informações sobre seu desenvolvimento linguístico, e considerando também a atual escassez de ferramentas que facilitem esse estudo, acreditamos que os corpora aqui disponibilizados em muito poderão contribuir à pesquisa e ao trabalho do linguista. Tendo isso em vista, o presente artigo visa i) apresentar as características e o método de construção desses dois corpora, oferecendo um pequeno guia de uso; e ii) realizar uma pesquisa-exemplo, de forma a ilustrar o potencial dos corpora. Para tanto, realizamos uma comparação entre a fala dirigida à criança, a fala infantil e a fala adulta, tomando como objeto de análise a estrutura CCV – uma sílaba pouco frequente na língua e que apresenta longo período de aquisição.

Este artigo está dividido como se segue: na seção 1 delineamos o método de coleta e organização dos dados que compõem os corpora de fala infantil (doravante FI) e de fala dirigida à criança (doravante FDC), que foram construídos via Python, utilizando as mesmas ferramentas computacionais utilizadas na construção do Corpus ABG de fala adulta (doravante FA); na seção 2 trazemos uma breve discussão sobre o papel dos estudos sobre a frequência na fala infantil, em especial na aquisição silábica; na seção 3, passamos a descrever a frequência da sílaba CCV na FA (3.1), na FDC (3.2) e na FI (3.3). Um cotejo geral entre FA, FDC e FI é apresentado na seção 4, e seus impactos no processo de aquisição do CCV são pontuados na seção 5. Nossas considerações finais são oferecidas na seção 6.

1. Corpora FI e FDC: construção e organização

Os Corpora FI e FDC1 foram construídos sobre dois alicerces: o banco de dados do Projeto de Aquisição de Ritmo, de Santos (2005), e as ferramentas computacionais disponibilizadas por Benevides e Guide (2016) à compilação de corpora. O banco de dados coordenado pela Profª Drª Raquel Santana Santos está alocado no Laboratório de Estudos em Aquisição de Linguagem da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo (LEAL FFLCH-USP), compondo-se por um conjunto de gravações e transcrições longitudinais de 11 crianças paulistas entre 0;9 a 5;6 anos. As transcrições ortográficas e fonológicas destas gravações estão sendo atualmente revisadas e em breve serão disponibilizadas no banco de dados CHILDES. Sessões quinzenais de 3 das 11 crianças do banco de dados foram revisadas e utilizadas pela presente autora em sua dissertação de mestrado, compondo, por ora, os corpora aqui descritos. No total, 273 transcrições ortográficas foram compiladas, contendo dados das crianças Am. (1;10-4;0 anos), Ar. (2;0-4;11 anos) e Lz. (1;7-5;6 anos) e de suas mães e demais cuidadores. À medida que as demais transcrições ortográficas do banco de dados de Santos (2005) forem disponibilizadas, os corpora FI e FDC serão também alimentados. Segundo a classificação de Sardinha (2000), em seu tamanho atual, o Corpus FDC apresenta tamanho médio (250 mil a 1 milhão de palavras) e o Corpus FI tamanho pequeno-médio (80 mil a 250 mil). Com a adição das demais transcrições, esperamos construir dois corpora de porte médio-grande (1 milhão a 10 milhões de palavras).

As ferramentas utilizadas para tratar e anotar os dados acima foram, por sua vez, desenvolvidas e disponibilizadas ao público por Benevides e Guide (2016), tendo sido aplicadas na construção do corpus de fala adulta compilado por estes autores, o Corpus ABG2. Tais ferramentas constituem-se de scripts em linguagem Python e são responsáveis por i) unir todos os textos num único arquivo; ii) remover caracteres especiais, pontuação, números e metadados dos textos; iii) categorizar morfologicamente as palavras; iv) fornecer o lema das palavras (isto é, a forma de entrada da palavra no dicionário, excluindo flexões verbais e nominais);3 v) converter a transcrição ortográfica em transcrição fonológica, aproveitando-se da relativa previsibilidade ortográfica do Português; vi) silabificar a transcrição fonológica obtida, demarcando as fronteiras de sílaba (marcadas pelo traço ‘–‘), o início (marcado por ‘&’) e o fim da palavra (marcado por ‘%’)4;5 vii) fornecer a estruturação silábica da palavra, codificando os segmentos em C (consoante), V (vogal) e G (glide); viii) acentuar a transcrição silabificada, demarcando a sílaba tônica da palavra, a redução vocálica sofrida pelas sílabas átonas e as epênteses aplicadas entre encontros consonantais proibidos (como em ‘téc[i]nica’, representados nos corpora pela letra <y>); ix) fornecer a categorização acentual da palavra, se oxítona, paroxítona ou proparoxítona; x) contabilizar a frequência de tokens para cada type contido nos dados.6 Os símbolos utilizados para codificar as consoantes e vogais tônicas e átonas dos textos são listados no Quadro 1 a seguir:

Segmento Símbolo Segmento Símbolo Segmento Símbolo
Consoantes Vogais sem distinção de acento (transcrição fonológica) Vogais com distinção de acento (transcrição acentual)
/p/ p /i/ i /a/ átona @
/t/ e [tʃ] t /ĩ/ I /o/ átona w
/k/ k /e/ e /e/ átona y
/b/ b /ɛ/ 3 /a/ tônica 1
/d/ e [dʒ] d /ɛ̃/ E /ã/ tônica 2
/g/ g /a/ a /e/ tônica 4
/m/ m /ã/ A /ɛ/ tônica 5
/n/ n /ɔ/ 0 /ɛ̃/ tônica 6
/ɲ/ N /ɔ̃/ O /i/ tônico 7
/f/ f /o/ o /ĩ/ tônica 8
/v/ v /u/ u /o/ tônica 9
/s/ s /ũ/ U /ɔ/ tônica !
/z/ z Símbolos /ɔ̃/ tônica #
/ʃ/ S Divisão silábica - /u/ tônica $
/ʒ/ j Início de palavra & /ũ/ tônica +
/x/ h Fim de palavra $
/l/ l Epêntese y
/ɾ/ r
/ʎ/ L
/j/ J
/w/ W
Table 1. QUADRO 1 - Codificação das transcrições fonológica e acentual. Fonte: adaptado de Benevides e Guide, 2017

A aplicação das 10 etapas acima descritas gera uma tabela de frequências de types que contém a transcrição ortográfica, lêmica, morfológica, fonológica, acentual e silábica de cada type. Com o auxílio do software CLAN, disponível no CHILDES, a fala das crianças foi separada da fala de suas mães e cuidadores, formando dois diferentes corpora, de fala infantil e de fala dirigida à criança. Em ambos os corpora, as etapas acima descritas foram aplicadas, gerando a lista de palavras exemplificada na Figura 1:

Figure 1. FIGURA 1 - Exemplo da lista de palavras e informações morfofonológicas dos corpora Fonte: elaboração própria

Na imagem acima é possível observar as diferentes informações morfológicas e fonológicas fornecidas a cada entrada lexical do corpus, bem como sua frequência. Tais informações podem ser facilmente combinadas entre si e extraídas utilizando-se os filtros e demais recursos tradicionais do software Excel – não exigindo do pesquisador, portanto, um conhecimento computacional especializado. Como o arquivo é editável, é possível também criar codificações próprias, expandindo as informações disponibilizadas. Por exemplo, para contabilizar somente palavras contendo sílabas CCV em posição tônica inicial, uma alternativa manual em 5 passos seria: i) recodificar as vogais tônicas da coluna ACENTUACAO via comando Substituir do Excel, combinando os símbolos ‘1, 2, 4, 5, 6, 7, 8, 9, !, #, $, +’ (que equivalem, respectivamente, às vogais tônicas /a, ã, e, ɛ, ɛ̃, i, ĩ, ɔ, ɔ̃, u, ũ/) em um único símbolo (‘V’, por exemplo); ii) recodificar as obstruintes permitidas em posição C1 em CCV, /p, b, t, d, k, g, f, v/, também com um único símbolo (por exemplo, ‘T’); iii) ainda utilizando o comando Substituir (lembrando de ativar a distinção entre letras maiúsculas e minúsculas), colorir com cores diferentes os comandos ‘&TlV’, para sílabas C/l/V, e ‘&TrV’, para sílabas C/ɾ/V (aqui é possível ainda utilizar os comandos ‘-‘ e ‘%’ para buscar sílabas tônicas mediais e finais, respectivamente); iv) utilizando o comando Filtros > Filtrar por cor, selecionar a coluna FREQ de cada cor/contexto; e v) anotar os valores apresentados na barra inferior da tela, Contagem (total dos types) e Soma (total de tokens). Com variações destes passos i)-v), faz-se possível quantificar a frequência de diversas combinações segmentais, silábicas, prosódicas e morfológicas da fala infantil e da fala dirigida a criança. Faz-se possível notar, também, que o corpus pode ser manipulado e trabalhado de forma bastante intuitiva, utilizando funções básicas do Excel – lembrando, ainda, que pesquisadores confortáveis em utilizar o Python ou outras linguagens de programação podem também realizar as mesmas funções via linhas de comando. Para ilustrar algumas possíveis aplicações das propriedades acima na pesquisa em Aquisição de Linguagem, apresentamos nas seções 2 e 3 um estudo sobre os efeitos da frequência na aquisição fonológica – nomeadamente, na aquisição das sílabas CCV.

2. Sobre o papel da frequência na aquisição fonológica

Segundo Clements (2009), a frequência pode ser tomada como “reveladora do que é ou não tendencialmente universal e do que é ou não marcado nas línguas do mundo ou numa língua particular”, correlacionando-se também, no âmbito da aquisição da linguagem, à ordem de emergência de categorias e padrões linguísticos na fala infantil, como o inventário segmental e as estruturas silábicas de uma língua (LEVELT; VAN DER VJIVER, 1998) – além de se correlacionar também à sensibilidade estatística e transicional demonstrada por e ao processamento linguístico, influenciando a previsibilidade e recuperação lexical. Conforme apontado por Lany e Saffran (2013), a sensibilidade da criança às regularidades distribucionais pode ser observada em diversos níveis linguísticos, sendo um deles a fonotaxe – que consiste em reconhecer “regularidades em como os sons se estruturam dentro da palavra” (p. 235).

Ilustrando a relação entre frequência lexical e a ordem de aquisição das estruturas silábicas na fala infantil tem-se, por exemplo, o estudo de Levelt e Van der Vijver (1998) ao Holandês, em que se verifica que a distribuição silábica do input norteia a emergência de estruturas marcadas: a ordem de aquisição observada entre os tipos silábicos ataque vazio (V), ataque complexo (CCV), coda simples (CVC) e coda complexa (CVCC) apresenta um total de 12 diferentes percursos de aquisição plausíveis. No entanto, apesar desta gama de possibilidades, crianças holandesas sistematicamente apresentam um mesmo percurso de desenvolvimento, estabelecido segundo a frequência lexical desses quatro tipos silábicos: dos 12 caminhos passíveis de serem percorridos, apenas 2 são atestados no desenvolvimento fonológico – a saber, as ordens CV >> CVC >> V >> CCV >> CVCC e CV >> CVC >> V >> CVCC >> CCV, em que há uma variação na emergência do ataque complexo (CCV) e da coda complexa (CVCC). Interessantemente, o percurso inicial CV>>CVC>>V obedece a uma ordem decrescente de frequência, com os tipos silábicos mais frequentes sendo adquiridos em momento anterior aos menos frequentes (CV: 42,1%; CVC: 30,1%; V(C): 14,9%). Já os tipos silábicos de frequência similar, CCV (3,2%) e CVCC (3,6%), apresentam ordem de aquisição variável, o que sugere aos autores uma relação entre frequência e ordem de emergência silábica: “if the child has a choice between various paths, the path of the significantly most frequent syllable type is chosen. If there is no significant difference between the syllable types that correspond to different possible paths, variation is expected and attested” (LEVELT; VAN DER VIJVER, 1998, p. 19).

Complementando a relação observada por Levelt e Van der Vijver (1998), Vigário et al. (2012) apontam também o papel da frequência somada à proeminência prosódica na ordem de emergência de estruturas no desenvolvimento fonológico. Vigário et al. (2012) verificam que, em Português Europeu, os tipos silábicos que emergem na fala infantil numa ordem não predita pela frequência lexical ocorrem principalmente em posições prosodicamente proeminentes – como na sílaba tônica e na borda inicial da palavra. A alta frequência de uma dada estrutura nestas posições prosódicas salientes impulsiona sua emergência na fala infantil – explicando, por exemplo, por que sílabas de ataque vazio (ØV) emergem em Português em momento bastante precoce, paralelamente à emergência da sílaba não-marcada CV, enquanto que em Holandês sílabas do tipo ØV ocorrem somente após a emergência de CVC: embora a frequência lexical do ataque vazio seja semelhante nestas duas línguas – cerca de 14% para o Holandês e 16% para o Português Europeu –, 90% das ocorrências de V em Português Europeu dá-se na borda inicial das palavras, uma posição de alta proeminência prosódica, diferentemente das ocorrências em Holandês. Deste modo, os estudos de Vigário et al. (2012) e Levelt e Van der Vijver (1998) sugerem que tanto a frequência de uso quanto a proeminência prosódica podem atuar como fatores de saliência na aquisição fonológica: elementos mais frequentes na língua são adquiridos antes de elementos menos frequentes, e elementos prosodicamente mais proeminentes são adquiridos antes de elementos de menor proeminência – mesmo antes de elementos de maior frequência, como é o caso de V versus CVC, por exemplo.

Tendo em vista a relevância da frequência lexical e da proeminência prosódica ao desenvolvimento silábico da criança e à ordem de emergência das sílabas na fala infantil, faz-se importante identificar os padrões fonológicos e distribucionais do ataque ramificado CCV em Português, investigando se existiriam diferenças expressivas na proporção de uso do ataque ramificado na fala adulta, na fala dirigida à criança e na fala infantil – e como essas diferenças podem influenciar a aquisição do tipo silábico CCV.

3. Comparando frequências na Fala Adulta, na Fala Dirigida à Criança e na Fala Infantil

O objetivo desta seção é caracterizar a evidência positiva disponível à criança para o desenvolvimento da estrutura silábica CCV no sistema linguístico alvo. Por meio de um estudo de corpora, os parágrafos a seguir oferecem uma descrição detalhada das propriedades prosódicas e segmentais da sílaba CCV no modelo adulto, na fala dirigida à criança e nos próprios alvos infantis, observando a distribuição consonantal de CCV e sua presença em posições de saliência prosódica. Este estudo se justifica pela escassez de informações na literatura do Português Brasileiro sobre a distribuição das ocorrências de CCV na língua em uso – i.e., sobre a frequência de suas combinações segmentais, sua posição e tonicidade dentro da palavra e, principalmente, sobre sua produtividade na fala dirigida à criança –, informações essenciais a um estudo que almeja examinar a emergência e aquisição silábica na fala infantil.

3.1 Frequência lexical na fala adulta

Para detalhar o padrão distribucional do ataque ramificado CCV no Português Brasileiro, realizamos uma busca no Corpus ABG (BENEVIDES; GUIDE, 2016), um corpus de médio-grande porte que tem acesso livre e apresenta cerca de 2 milhões de tokens e 36 mil types em sua modalidade oral, sendo composto majoritariamente por entrevistas sociolinguísticas que reúnem amostras de fala informal de falantes de São Paulo e Minas Gerais. A Tabela 1 a seguir apresenta uma descrição geral do corpus, com a quantidade total de palavras, o total de palavras contendo CCV e o total de sílabas CCV coletadas no corpus:

Palavras Palavras CCV Sílabas CCV
Types 36.493 6.561 (17,9%) 6.718 (18,4%)
Tokens 1.938.830 139.029 (7,17%) 142.315 (7,34%)
Table 2. TABELA 1 Características gerais do corpus de fala adulta (Corpus ABG) Fonte:  elaboração própria

Na Tabela 1 acima nota-se que o percentual de itens lexicais contendo sílabas CCV (types) é mais expressivo que aquele reportado às ocorrências contendo sílabas CCV (tokens), indicando que a maior parte das palavras contendo CCV não se repete no corpus. Deste total, 155 palavras apresentaram dois CCVs concomitantes, como em ‘problema’, ‘próprio’, ‘progresso’, ‘programa’, enquanto 2 apresentaram três CCVs, ‘blablablá’ e ‘brabrabrá’.

A Tabela 2 abaixo descreve a distribuição segmental dos CCVs coletados, procurando por possíveis tendências distintas a C/ɾ/V e C/l/V ou às diferentes consoantes em C1. Na última coluna da tabela, tem-se a palavra mais frequente em cada combinação segmental:

Figure 2. TABELA 2 Características segmentais de CCV na fala adulta – composição consonantal Fonte: elaboração própria

Nos dados acima nota-se, inicialmente, a maior proporção de C/ɾ/V em comparação a C/l/V: não há nenhuma combinação com lateral que apresente percentual superior à sua contraparte com tepe, tanto em types quanto em tokens. Observa-se também que a combinação C/l/V de maior percentual de uso, /pl/, é mais frequente apenas se comparada às três combinações consonantais menos frequentes de C/ɾ/V, /fɾ, dɾ, vɾ/. Esses números indicam uma clara preferência fonotática da língua por sílabas CCV contendo tepes em detrimento de laterais – o que pode ser notado no próprio percurso diacrônico do Latim ao Português, que registrou tendência a transformar sílabas C/l/V em C/ɾ/Vs ou fundi-las em consoantes palatais, como em ecclesia > igreja, plaga > praia; apicula > abelha, flamma > chama (MATTOS E SILVA, 2006).

A qualidade da obstruinte, por sua vez, tem proporções concentradas principalmente nas consoantes /t, p, b/ em C/ɾ/V, tanto na contagem de types quanto de tokens, e nas consoantes /p, b, f, k/ em C/l/V. Observa-se também que as consoantes bilabiais apresentam maior proporção de types e tokens tanto nas combinações C/ɾ/V quanto C/l/V, mostrando-se bastante produtivas nos dados. Em seguida temos as consoantes alveolares, cuja alta proporção é representada majoritariamente pelas ocorrências de /tɾ/, já que /dɾ/ apresenta baixa frequência de uso e /tl, dl/ são raros no Português. Quanto às sílabas CCV menos frequentes, nota-se que aquelas formadas por fricativas apresentam menor proporção de uso na língua oral. Desse modo, podemos afirmar que as sílabas CCV que contêm fricativas labiodentais são as menos frequentes no Português Brasileiro, e aquelas que contêm oclusivas bilabiais são as mais frequentes – uma observação interessante considerando que, do ponto de vista fonológico, tanto as mais frequentes quanto as menos frequentes são classificadas como pertencentes à classe natural labial, e do ponto de vista articulatório, ambas configuram contextos maximamente distantes, em que C1 e C2 são produzidas com articuladores distintos. A distribuição consonantal de CCV é resumida no ranqueamento abaixo:

.

Types C/ɾ/V: /t/>/p/>/b/>/g/>/k/>/f/>/d/>/v/

Types C/l/V: /p/>/k/>/f/>/b/>/g/>/t/>/v/>/d/

Tokens C/ɾ/V: /p/>/t/>/b/>/g/>/k/>/f/>/d/>/v/

Tokens C/l/V: /p/>/k/>/b/>/f/>/g/>/t/>/v/>/d/

.

Passando a caracterizar a distribuição prosódica de CCV, trazemos nas Tabelas 3 e 4 a seguir os percentuais acentuais e posicionais de cada combinação segmental CCV (agrupadas em classes naturais), observando se determinadas combinações C1C2 podem ser consideradas como prosodicamente mais salientes. Os dados são apresentados em percentuais, calculados sobre o total de contextos de cada classe segmental (cada linha), listados na coluna Total n. Na última linha, tem-se as palavras mais frequentes em cada categoria acentual:

Figure 3. TABELA 3 Características prosódicas e segmentais de CCV na fala adulta – tonicidade Fonte: elaboração própria

Tratando primeiramente de descrever os totais C/ɾ/V e C/l/V, é possível observar na tabela acima que existem diferenças importantes entre a proporção de tônicas e átonas formadas por tepes ou laterais, tanto nos valores de types como de tokens: enquanto a proporção de tokens apresenta marcante concentração de C/l/V em posição de acento tônico, os tokens C/ɾ/V encontram-se mais bem distribuídos entre tônicas, pretônicas iniciais e postônicas finais. Já a contagem de types indica uma maior diversidade lexical para C/ɾ/V e C/l/V em posições tônicas e pretônicas, com grande diferença percentual entre estas e as posições postônicas. Essas diferenças podem ser mais bem visualizadas a seguir:

.

Types C/ɾ/V: Pretônica inicial > Pretônica medial > Tônica > Postônica final > Postônica não-final Types C/l/V: Pretônica medial > Tônica > Pretônica inicial > Postônica final > Postônica não-final Tokens C/ɾ/V: Tônica > Pretônica inicial > Postônica final > Pretônica medial > Postônica não-final Tokens C/l/V: Tônica > Pretônica medial > Postônica final > Pretônica inicial > Postônica não-final

.

O ranqueamento acima salienta a diferença na proporção de tônicas e átonas entre as sílabas C/ɾ/V e C/l/V. É importante notar, entretanto, que a diferença mais marcada entre essas sequências consonantais se encontra no âmbito pretônico: a medida de tokens sugere uma tendência às combinações C/ɾ/V em posição pretônica inicial (‘trabalho’), e à C/l/V em posição pretônica medial (‘inclusive’).

Já sobre a relação entre combinação consonantal e tonicidade, nota-se grande concentração dos dados das 4 classes segmentais entre as posições tônica, pretônica inicial e pretônica medial, com leve tendência às combinações labial+tepe a concentrarem-se na posição pretônica inicial (‘precisa’, ‘francês’), e em menor escala, às alveolares a concentrarem-se na posição pretônica medial (‘entrevista’, ‘madrugada’). As combinações velar+tepe, por sua vez, encontram-se distribuídas de forma bastante homogênea entre as posições tônica e pretônicas. Em relação às combinações laterais, novamente tem-se as velares distribuídas de maneira uniforme, enquanto combinações labiodental+lateral tendem a se concentrar em posição pretônica inicial (‘floresta’) e combinações bilabial+lateral concentram-se em posição pretônica medial (‘complicado’, ‘publicidade’). Observa-se, com isso, que a tendência a types C/l/V em posição pretônica medial remete principalmente às combinações bilabial, enquanto a concentração dos tokens laterais na posição tônica remete majoritariamente à classe velar (‘claro’, ‘inglês’). A concentração de tokens tônicos contendo tepe, por sua vez, pode ter seu peso atribuído principalmente a consoantes velares e labiodentais, em palavras como ‘frente’ e ‘grande’, e de types às combinações bilabiais em pretônica inicial (‘Brasil’).

Para analisar a posição prosódica majoritariamente ocupada pelas diferentes combinações CCV, apresentamos abaixo a Tabela 4:

Figure 4. TABELA 4 Características prosódicas e segmentais de CCV na fala adulta – posição prosódica Fonte: elaboração própria

Sobre os totais C/ɾ/V e C/l/V listados na tabela, nota-se importante concentração das combinações laterais na posição medial (types e tokens, como em ‘problema’), enquanto as combinações C/ɾ/V apresentam distribuição mais homogênea em relação à proporção de sílabas em posição inicial e medial no quesito types – no entanto, os tokens concentram-se principalmente na posição inicial e final, em palavras como ‘trabalho’, ‘sempre’. Os monossílabos também apresentam expressivas diferenças ao comparar-se C/l/V e C/ɾ/V – esses últimos representados principalmente pelas contrações ‘pra’, ‘pro’, mas também por palavras lexicais como ‘três’, ‘traz’. Elencando a posição lexical das sílabas CCV, temos:

.

Types C/ɾ/V: Medial, Inicial > Final > Monossílabos

Tokens C/ɾ/V: Inicial > Final > Monossílabos > Medial

Types C/l/V: Medial > Inicial > Final > Monossílabos

Tokens C/l/V: Medial > Inicial > Final > Monossílabos

.

Ainda sobre a Tabela 4, a proporção de posições prosódicas ocupadas pelas diferentes classes segmentais aponta que a grande concentração de sílabas C/l/V em posição medial é carregada não só por combinações bilabiais (como em ‘problema’), mas também por velares (‘inclusive’, ‘Inglaterra’). Combinações labiodental+lateral, por outro lado, concentram suas ocorrências principalmente em posição inicial (somando-se às velares no quesito tokens), embora essa não seja uma posição de frequência total destacada nos dados gerais. Já em relação às combinações com tepe, observa-se que bilabiais e labiodentais concentram metade de seus tokens na posição inicial, enquanto alveolares e velares concentram-se em posição medial, causando a divisão uniforme observada nos dados da Tabela 4, no quesito types. O quesito tokens, por outro lado, apesar da alta quantidade de ocorrências de palavras como ‘outros’, com CCV em posição final, acaba sendo diluído pela predominância inicial das demais consonantes.

Resumindo os dados trazidos acima, referentes à proeminência prosódica e segmental de CCV na fala adulta, as Tabelas 2 a 4 apontam que a distribuição dos ataques ramificados se mostra assimétrica: enquanto as ocorrências C/ɾ/V tendem a ocupar posições salientes em relação à borda da palavra (sílabas iniciais e monossílabos tônicos), concentradas principalmente nos segmentos /p, b, t/, sílabas C/l/V tendem a ocupar posições de saliência em relação à acentuação, com maior proporção de sílabas tônicas se comparadas a C/ɾ/V, em geral concentradas em /p, b, k/ em posição medial. Cabe destacar, no entanto, que tanto a proeminência acentual quanto a proeminência posicional de C/ɾ/V e C/l/V abrangem menos da metade do total de CCVs do corpus – um número bastante inferior à marca de 90% observada à saliência das sílabas ØV em PE por Vigário et al. (2012). Tendo isso em vista, não é possível afirmar que CCV pode contar com a saliência prosódica como um propulsor à sua aquisição.

Tendo descrito as características prosódicas e segmentais das sílabas de ataque ramificado CCV coletadas na fala espontânea entre adultos, estabelecendo as principais características da língua-alvo sendo adquirida pela criança, passemos agora a descrever as características próprias do ambiente linguístico infantil, cotejando suas semelhanças e diferenças à fala entre adultos.

3.2 Frequência lexical na fala dirigida à criança

A Tabela 5 a seguir traz as características gerais do Corpus de Fala Dirigida à Criança:

Palavras Palavras contendo CCV Sílabas contendo CCV
Types 12.036 1.441 (11,97%) 1.459 (12,12%)
Tokens 396.678 19.835 (5%) 19.985 (5,03%)
Table 3. TABELA 5 Características gerais do corpus de fala dirigida à criança Fonte: elaboração própria

Descrevendo em linhas gerais o corpus a ser analisado na presente seção, tem-se que em média 12% do total de types e 5% do total de tokens presentes na fala materna contêm sílabas do tipo CCV – uma proporção semelhante aos cerca de 17% types e 7% tokens observados no Corpus ABG de fala adulta. A semelhança na proporção de sílabas CCV presentes na fala dirigida à criança, coletada em situações de interação espontânea entre cuidadores e criança, e na fala entre adultos, coletada em entrevistas sociolinguísticas, indica que o ambiente linguístico disponível à criança e o modelo de língua a ela dirigido não tendem a evitar estruturas linguísticas tardias, como CCV, sugerindo que a fala dirigida pode ser tomada como uma amostra regular do sistema alvo sendo adquirido. Uma ressalva pode ser feita, no entanto, em relação ao número de palavras contendo mais de um CCV nos dados: somente 18 itens lexicais como ‘problema’, ‘quadro-negro’, ‘programa’ foram encontrados na fala materna, contra 157 na fala adulta – o que pode ser atribuído, talvez, à própria natureza menos frequente e mais específica de tais palavras contendo CCVs concomitantes (como ‘hidrelétrica’, ‘infraestrutura’, ‘progresso’, ‘propriedade’). Vejamos, na tabela a seguir, a discriminação das características segmentais de CCV na fala materna:

Figure 5. TABELA 6 Características segmentais de CCV na fala dirigida à criança – composição consonantal Fonte: elaboração própria

As proporções segmentais observadas na tabela acima apontam que, tal como na fala adulta, as contrapartes laterais nunca são mais frequentes que suas contrapartes róticas, também apresentando /t, p, b/ como os segmentos mais frequentes em C/ɾ/V e /p, b, k, f/ em C/l/V, como ilustrado abaixo:

.

Types C/ɾ/V: /t/>/p/>/b/>/g/>/k/>/f/>/d/>/v/

Types C/l/V: /p/>/k/>/f/>/b/>/g/>/t/>/v/, /d/

Tokens C/ɾ/V: /p/>/t/>/b/>/g/>/k/>/v/>/f/>/d/

Tokens C/l/V: /p/>/f/>/b/>/k/>/g/>/t/, /v/, /d/

.

É interessante destacar no ranqueamento acima que, embora a lateral seja a primeira líquida a surgir na fala da criança – sendo também a líquida mais associada ao “falar” infantil –, não há na fala das mães e cuidadoras uma preferência por ataques complexos contendo /l/ – ou, ao contrário, uma evitação aos ataques contendo /ɾ/. Nota-se, ainda, a ausência de palavras contendo /tl/ e /vl/: diferentemente da Tabela 2 apresentada na seção anterior, que contêm 24 ocorrências de palavras como ‘Nestlé’, ‘atleta’ e ‘atlas’, além do nome próprio ‘Vlanir’, não há na fala dirigida à criança nenhuma ocorrência de palavras contendo /tl/, /vl/ ou /dl/ – talvez pela própria baixa aderência destas palavras ao universo infantil.

Tratando da relação entre saliência prosódica e composição segmental, trazemos as Tabelas 7 e 8:

Figure 6. TABELA 7 Características prosódicas e segmentais de CCV na fala dirigida à criança – tonicidade Fonte: elaboração própria

Observando a distribuição acentual das sílabas CCV na fala dirigida à criança, tem-se que types e tokens C/l/V e C/ɾ/V apresentam proporções distintas em sílabas tônicas e átonas. Tratando primeiramente de C/ɾ/V, nota-se que contextos tônicos e pretônicos iniciais (‘pronto’, ‘brincar’) apresentam proporções semelhantes, concentrando 70% das produções dirigidas à criança – tanto em types quanto em tokens. Postônicas finais contendo sílabas C/ɾ/V mostram ocorrências também produtivas na fala materna, carregadas principalmente pelas palavras ‘outro’, ‘outra’. Já em relação às sílabas C/l/V, tem-se concentração de types e tokens principalmente em sílabas tônicas (‘problema’), tal como na fala adulta observada anteriormente. Os dados da Tabela 7 são elencados tal como se segue:

.

Types C/ɾ/V: Pretônica inicial, Tônica > Pretônica medial > Postônica final > Postônica não-final

Types C/l/V: Tônica > Pretônica inicial, Pretônica medial > Postônica final > Postônica não-final

Tokens C/ɾ/V: Tônica > Pretônica inicial, Postônica final > Pretônica medial > Postônica não-final

Tokens C/l/V: Tônica > Pretônica inicial > Pretônica medial, Postônica final > Postônica não-final

.

Já sobre os padrões de tonicidade observados entre as diferentes combinações segmentais que podem compor CCV, observa-se que contextos bilabiais são os principais responsáveis pela proporção de pretônicas em C/ɾ/V (‘precisa’, ‘brincar’), enquanto as demais combinações alveolares, velares e labiodentais concentram-se principalmente na posição tônica. Já em contextos C/l/V tendem a se concentrar em posição tônica, seguidos pelas posições pretônica inicial e medial em igual proporção – mas a Tabela 7 acima indica que majoritariamente bilabiais ocupam a posição pretônica medial (‘problemaço’, ‘explicar’), enquanto a posição pretônica inicial não remete a classes segmentais específicas, diluindo-se entre as combinações bilabial, velar e labiodental, e as tônicas refletem principalmente palavras contendo bilabiais e velares (‘blusa’, ‘claro’).

Passando a caracterizar a posição prosódica de CCV, trazemos a Tabela 8:

Figure 7. TABELA 8Características prosódicas e segmentais de CCV na fala dirigida à criança – posição prosódica Fonte: elaboração própria

Os dados apresentados acima apontam uma distribuição muito próxima entre types C/l/V e C/ɾ/V em posição inicial e em posição medial, concentrando mais de 80% do total de sílabas CCV do corpus. C/l/V e C/ɾ/V distinguem-se, no entanto, em relação à proporção de tokens: diferentemente de C/l/V, que concentra suas ocorrências em posição inicial e medial, C/ɾ/V apresenta altas taxas de realização em sílabas iniciais e finais, novamente carregado pelas ocorrências de ‘outro’, ‘outra’.

.

Types C/ɾ/V: Inicial > Medial > Final > Monossílabos

Types C/l/V: Inicial > Medial > Final > Monossílabos

Tokens C/ɾ/V: Inicial > Final > Monossílabos, Medial

Tokens C/l/V: Inicial, Medial > Final > Monossílabos

.

Quanto à posição prosódica das diferentes combinações CCV, nota-se que cerca de metade dos dados concentra-se na posição inicial, tanto em contextos C/l/V quanto C/ɾ/V – o que em parte decorre da maior proporção de dissílabos presente na fala materna e infantil (Silveira, 2006). Essa maior concentração em posições iniciais não reflete, no entanto, as palavras contendo consoantes alveolares em C/ɾ/V, que se distribuem entre as categorias inicial, medial e final (‘trocar’, ‘estrela’, ‘outro’), e nem às combinações bilabial+lateral, que se concentra majoritariamente em posição medial (‘problema’). Essa é uma distribuição que difere parcialmente da observada na fala entre adultos.

Resumindo as características prosódicas e segmentais de CCV, nota-se que o quesito saliência é bastante similar na comparação C/l/V versus C/ɾ/V – as diferenças residem no total de tokens tônicos, mais concentrado em C/l/V que em C/ɾ/V; no total de tokens mediais, mais frequentes em C/l/V; e de tokens finais, mais frequentes em C/ɾ/V. Além disso, as ocorrências monossilábicas concentram-se principalmente em C/ɾ/V – mesmo descontando-se as preposições ‘pra’, ‘pro’. Se comparadas às características prosódicas observadas na fala adulta, tem-se que a assimetria acentuação-posição se encontra menos proeminente na fala materna, aproximando as proporções de realização de C/l/V e C/ɾ/V – guardadas as diferenças em relação à quantidade absoluta de sílabas contendo tepes e sílabas contendo líquidas laterais. Em relação à qualidade segmental, a mesma convergência em /p, b, t/+/ɾ/ e /p, b, k, f/+/l/ observada na FA é observada na FDC. Vejamos, na próxima seção, a distribuição prosódica e segmental da FI.

3.3 Frequência lexical na fala infantil

Os dados tratados nesta seção referem-se aos alvos lexicais almejados7 pelas crianças do Corpus FI. Suas características gerais são descritas na Tabela 9:

Palavras Palavras contendo CCV Sílabas contendo CCV
Types 10.274 622 (0,6%) 629 (0,66%)
Tokens 198.917 7.531 (3,79%) 7.562 (3,8%)
Table 4. TABELA 9 Características gerais do corpus de fala infantil Fonte: elaboração própria

A tabela acima assinala que do total de cerca de 10 mil types coletados na fala infantil, somente 622 representam palavras contendo ataques ramificados CCV – um percentual de apenas 0,6% dos dados, bastante inferior ao observado na fala dirigida à criança e no alvo adulto. No entanto, o percentual de tokens CCV, cerca de 4%, pouco difere dos 5% observados na fala dirigida à criança, indicando que embora a diversidade linguística do vocabulário infantil seja drasticamente menor que a de seus cuidadores, o emprego total de palavras contendo sílabas CCV é bastante semelhante – o que aponta que as mesmas palavras repetem-se mais na fala da criança que na fala do adulto. Destas 622 palavras, 7 apresentam CCVs concomitantes, tais como ‘problema’, ‘problemaço’, ‘quadro-negro’, ‘próprio’ e ‘nicrodaplo’/‘niclodaplo’ – o nome inventado por Ar. a um de seus dinossauros de brinquedo. Tanto o percentual de tokens CCV quanto a criação de palavras como ‘nicrodaplo’/‘niclodaplo’ – e de outras como ‘braquiossauro’, ‘trissolcar’, ‘triceraptor’ (todos nomes de dinossauros de Ar.), além de ‘blixa’, ‘foclos’, ‘pleima’, piteublã’, ‘blugui’, ‘flugui’, e mesmo nomes de personagens como ‘Grúfalo’, ‘Pancrácio’, ‘Mogli’, ‘Bruxonilda’ – indicam que, apesar de sua baixa frequência, sílabas CCV não parecem ser ativamente evitadas pela criança em sua fala. É válido notar ainda que a alta proporção de combinações C/l/V observadas nas invenções lexicais infantis listadas acima também sugere que a baixa frequência de uso não parece influenciar a produtividade e gramaticalidade destas construções no sistema fonológico sendo construído pela criança.

Tratando de examinar as características segmentais da fala da criança, trazemos a Tabela 10, que contém uma discriminação do percentual de combinações obstruinte+líquida:

Figure 8. TABELA 10 Características segmentais de CCV na fala infantil – composição consonantal Fonte: elaboração própria

Os percentuais listados na Tabela 10 acima apontam, novamente, uma preferência pelas combinações CCV róticas em relação às suas contrapartes laterais, com concentração das produções em /pɾ, bɾ, tɾ/ para C/ɾ/V – como em ‘brincar’, ‘outro’, ‘pra’, ‘pronto’ – e em /pl, kl, fl/ para C/l/V – como em ‘planeta’, ‘flor’, ‘chiclete’. Tal como observado na fala dirigida à criança e na fala adulta, as produções almejadas infantis apresentam mais CCVs com consoantes bilabiais, seguidas por alveolares, dorsais e, por fim, labiodentais, tanto no quesito types quanto em tokens. O ranqueamento a seguir elenca as preferências segmentais CCV na fala infantil, e adiante, na Tabela 10, tem-se a distribuição via classes naturais.

.

Types C/ɾ/V: /t/>/p/>/b/>/g/>/k/>/f/>/d/>/v/

Types C/l/V: /p/>/k/>/f/>/b/>/g/>/t/, /v/, /d/

Tokens C/ɾ/V: /t/>/b/>/p/>/g/>/k/>/d/>/f/>/v/

Tokens C/l/V: /f/>/p/>/k/>/b/>/g/>/t/, /v/, /d/

.

Passemos a analisar os contextos prosódicos de CCV na fala infantil:

Figure 9. TABELA 11 Características prosódicas e segmentais de CCV na fala infantil – tonicidade Fonte: elaboração própria

A tabela acima traz os dados referentes à distribuição acentual de CCV na fala da criança. Tal como na fala dirigida, nota-se maior concentração C/l/V e C/ɾ/V nos types tônicos, com os tokens C/l/V concentrados principalmente em sílabas acentuadas e os tokens C/ɾ/V mais bem distribuídos entre sílabas tônicas, pretônicas iniciais e postônicas finais – estas últimas lideradas pelas palavras ‘outro’, ‘outra’. Nota-se, também, que mesmo posições postônicas não-finais, pouco frequentes no alvo adulto, podem ser encontradas na fala infantil. O ranking abaixo resume os dados trazidos na Tabela 11:

.

Types C/ɾ/V: Tônica > Pretônica inicial > Pretônica medial, Postônica final > Postônica não-final

Types C/l/V: Tônica > Pretônica medial, Pretônica inicial > Postônica final > Postônica não-final

Tokens C/ɾ/V: Tônica, Postônica final > Pretônica inicial > Pretônica medial > Postônica não-final

Tokens C/l/V: Tônica > Pretônica inicial > Pretônica medial > Postônica final > Postônica não-final

.

Quanto à qualidade segmental, observa-se que os contextos que compõem as tônicas C/ɾ/V derivam-se principalmente de combinações alveolares e labiodentais (‘três’, ‘frio’), enquanto combinações do tipo bilabiais e velares distribuem-se em proporções semelhantes entre tônicas e pretônicas iniciais (‘brinca’, ‘brincar’, ‘grande’, ‘grandão’). Já a proporção de tokens postônicos finais é majoritariamente carregada por combinações alveolar+tepe e labiodental+tepe, como em ‘outro’, ‘livro’. Por sua vez, a concentração de C/l/V em posição tônica dá-se principalmente com consoantes velares (‘claro’).

Vejamos na Tabela 12 a distribuição posicional de CCV na fala infantil:

Figure 10. TABELA 12Características prosódicas e segmentais de CCV na fala infantil – posição prosódica Fonte: elaboração própria

Na Tabela 12 observa-se concentração de cerca de metade das produções CCV em posição inicial da palavra, tanto em combinações C/l/V quanto C/ɾ/V, em types e tokens – tal como na fala dirigida à criança. Diferenças maiores entre combinações róticas e laterais são notadas nas posições medial e final, com C/ɾ/V sendo mais frequente em final de palavra e C/l/V em meio de palavra. Essas diferenças são elencadas abaixo:

.

Types C/ɾ/V: Inicial > Medial > Final > Monossílabos

Types C/l/V: Inicial > Medial > Final > Monossílabos

Tokens C/ɾ/V: Inicial > Final > Monossílabos, Medial

Tokens C/l/V: Inicial > Medial > Final > Monossílabos

.

Descrevendo, por fim, a composição consonantal das posições prosódicas C/l/V e C/ɾ/V, tem-se que somente combinações alveolar+tepe distribuem-se uniformemente nas posições inicial, medial e final da palavra (‘trocar’, ‘estrela’, ‘outro’) – os demais contextos consonantais tendem a se concentrar em posição inicial, como em (‘pronto’, ‘grande’, ‘frente’, ‘flores’), à exceção das sequências bilabial+lateral, concentrada em posição medial (‘problema’) e velar+lateral, distribuída entre as posições inicial e medial (‘claro’, ‘inclusive’).

Resumindo as características prosódicas e consonantais observadas nos dados infantis, poucas são as diferenças notadas entre a distribuição acentual e posicional de CCV na fala da criança e na fala de seus cuidadores: tem-se concentração de cerca de metade dos dados CCV em posição inicial, sem distinção quanto à qualidade da líquida, e uma maior tendência a tokens laterais em sílabas tônicas mediais, e tokens róticos mais bem distribuídos entre as categorias tônica, pretônica inicial e postônica final. Quanto aos padrões segmentais, nota-se concentração nas sequências /p, b, t/+/ɾ/ e /p, b, k, f/+/l/, em congruência com a FDC e a FA. Vê-se, com isso, que não parece haver uma seleção, evitação ou preferência por posições prosodicamente salientes ou por determinadas combinações consonantais à produção CCV na FI.

4. Comparando as produções infantis e a frequência da fala adulta

As seções 3.1 a 3.3 acima tiveram como objetivo caracterizar o input linguístico CCV disponível à criança e sua presença nas tentativas e alvos da produção infantil. Remetendo novamente aos estudos de Levelt e Van der Vijver (1998) e Vigário et al. (2012) apresentados na introdução, visamos descrever a proporção de sílabas CCV prosodicamente salientes na FA, FDC e FI, identificando possíveis padrões intrassilábicos e também observando se determinadas combinações consonantais (tipo de líquida, tipo de obstruinte) apresentariam maior frequência e/ou maior proeminência que as demais. Além disso, as seções acima visaram também reconhecer possíveis diferenças entre a FI e os modelos adultos em FA e FDC, ou mesmo diferenças entre a fala entre adultos e a fala entre adulto e criança – diferenças que poderiam ser causadas por estratégias de evitação ou seleção, visando simplificar a língua ambiente da criança (na FDC) ou mesmo visando evitar a produção de estruturas complexas (na FI). Guardadas as disparidades quantitativas advindas do tamanho de cada corpus, destacamos que tanto os dados da fala adulta como os dados da fala dirigida à criança e da fala infantil apresentaram padrões lexicais bastante semelhantes, com tendências distribucionais e prosódicas majoritariamente convergentes – o que refuta a hipótese de que estratégias de seleção ou evitação de CCV poderiam se aplicar na FI (como defendido por Freitas, 1997) ou na FDC (como já discutido por Richards, 1994). O conjunto de gráficos a seguir visa ilustrar a congruência desses corpora nas diferentes categorias prosódicas e segmentais apresentadas nas seções anteriores, fazendo um cotejo direto entre FA, FDC e FI:

Figure 11. GRÁFICO 1 Comparação da qualidade segmental de CCV na FA, FDC e FI Fonte: elaboração própria

O gráfico acima ilustra uma forte congruência segmental entre as sílabas CCV dos dados de adultos, crianças e seus cuidadores: embora a fala entre adultos apresente menos types e tokens contendo combinações /bɾ/ – proporção majoritariamente carregada por palavras como ‘brincar’, ‘brinquedo’, ‘brincadeira’, ‘bruxa’ na FI e FDC – e mais tokens /pɾ/ – carregado principalmente pela maior recorrência de preposições na fala entre adultos –, as demais combinações segmentais /t, d, k, g, f, v/ + /l, ɾ/ mostram-se altamente congruentes. Considerando que os resultados apontam grande tendência percentual à formação C/ɾ/V, com proporção de 6 a 8 vezes maior que sílabas C/l/V nos três corpora, e considerando também que que as líquidas laterais são estabilizadas mais precocemente na fala infantil que os tepes (/l/: 3;0 anos; /ɾ/: 4;2 anos (LAMPRECHT, 2004)), observa-se que não há quaisquer tentativas na FI ou na FDC de evitar a produção de alvos contendo sequências segmentais de aquisição tardia – e mesmo sequências consideradas como articulatoriamente mais complexas, como /tɾ, dɾ/ (pois utilizam os mesmos articuladores e pontos de articulação na produção das consoantes em C1 e C2 (GOLDSTEIN, 2003)), não são evitadas nos alvos lexicais da criança e de seus cuidadores. Faz-se notar, ainda, que embora mais de 75% das ocorrências CCV coletadas no ambiente linguístico infantil (FA e FDC) representem apenas combinações do tipo /tɾ, pɾ, bɾ/, a fala infantil não se restringe à produção dessas únicas sequências segmentais (uma hipótese plausível considerando a baixíssima representatividade de /gl/ ou /dɾ/ no corpus e no input disponível à criança).

Passando a comparar a distribuição prosódica da FA, FDC e FI, temos a seguir o Gráfico 2, que traz informações sobre a tonicidade de CCV e sua posição na palavra:

Figure 12. GRÁFICO 2 Comparação prosódica de CCV na FA, FDC e FI Fonte: elaboração própria

O Gráfico 2 acima compara as propriedades prosódicas das sílabas CCV nas diferentes amostras analisadas. No geral, nota-se um padrão acentual ligeiramente diferente em FA, FDC e FI, com maior percentual de sílabas tônicas em FDC e FI e maior percentual de pretônicas mediais em FA. A maior distinção entre a fala infantil e os modelos adultos encontra-se nas categorias pretônica medial (que tem menor diversidade lexical na FI) e na categoria postônica final (que tem maior diversidade lexical, mas menor uso na FI). Analogamente, em relação à posição de CCV dentro da palavra – se na borda inicial, na borda final ou em posição medial –, nota-se que FA apresenta maior diversidade lexical em posição medial que a FI e a FDC. Tal diferença entre FA versus FDC e FI em relação a CCVs mediais pode se justificar pela própria preferência por dissílabos comumente observada na fala infantil e em seu universo lexical (Silveira, 2006) – um formato de palavra que naturalmente não apresenta posições mediais.

No âmbito prosódico nota-se, portanto, que existem diferenças na distribuição acentual e posicional entre os corpora (concentração em posições mediais e acento pretônico inicial/medial na FA; concentração em posições iniciais e acento tônico/postônico final na FI e tônico/pretônico inicial na FDC). Estas diferenças mostram-se principalmente na contagem de types, no geral indicando maior variedade lexical na fala entre adultos que na fala dos cuidadores e da criança. A frequência de ocorrência de palavras nestas categorias prosódicas mostra-se, no entanto, bastante congruente entre os dados, indicando que ainda que a FI e a FDC apresentem maior proporção de palavras repetidas, estas palavras não fogem ao padrão prosódico observado na FA.8 Um ponto importante a se destacar sobre a distribuição prosódica das sílabas CCV é que menos da metade do total de sílabas CCV encontra-se em posição tônica ou na borda inicial da palavra. Somando ambos os aspectos posição e tonicidade (tônica + pretônica inicial), contudo, tem-se que 50%-60% das sílabas CCV na FA e 60%-80% na FDC e FI podem ser consideradas como prosodicamente proeminentes – uma proporção já mais robusta e mais próxima do observado a ØV no PE. Ainda assim, esta proeminência não se mostrou suficiente para alavancar a aquisição CCV perante os demais tipos silábicos do PB nos termos de Levelt e Van der Vijver (1998) e Vigário et al. (2012), já que como observado por Santos (1998), Lamprecht (2004) e Ribas (2006), dentre outros autores, o tipo silábico CCV é o último a ser adquirido por crianças brasileiras. Tal resultado inesperado questiona, então, até que ponto a saliência prosódica pode influenciar a aquisição fonológica: por que a frequência de sílabas prosodicamente salientes pode explicar a aquisição precoce de ØV, mas não a aquisição tardia de CCV? Existiria uma frequência mínima à ação da saliência prosódica, ou outros fatores relacionados ao input? Se a presença de sílabas CCV é tão esparsa na língua-alvo, como observado acima, faz-se necessário questionar como e quando a criança percebe que os ataques ramificados são produtivos9 em PB apesar de exíguos na língua em uso – devendo, portanto, ser incorporados ao seu sistema fonológico em construção. Mas se existe um período em que CCV não é funcionalmente percebido/computado pela criança, como esta estrutura seria fonologicamente classificada e interpretada? Como uma variante aceitável de CV?10 Embora não afete a ordem de desenvolvimento silábico, a saliência prosódica poderia afetar a acurácia das produções infantis? Essas são questões discutidas na seção 5 a seguir.

5. Analisando os fatores frequência e saliência prosódica no desenvolvimento de CCV

Tendo estabelecido as semelhanças e diferenças entre a fala adulta, a fala dirigida à criança e os alvos almejados na fala infantil, uma questão imediatamente se coloca quanto às produções concretas da criança e seus graus de acurácia: seria possível observar menos estratégias de reparo nas categorias prosódicas e/ou segmentais que se mostraram mais frequentes nos dados aqui apresentados? Em outras palavras, seria possível considerar que contextos distribucionalmente ou prosodicamente proeminentes poderiam atuar como facilitadores à produção típica infantil? Podemos pensar que os diferentes contextos silábicos CCV podem tornar-se proeminentes durante a aquisição fonológica tanto por uma via “qualitativa”, via saliência prosódica (nas posições tônicas e/ou iniciais) quanto por uma via “quantitativa”, via saliência distribucional (pela frequência de determinadas combinações segmentais, como /ɾ/ em C2 ou /b, p/ em C1). Tendo isso em vista, apresentamos a seguir um cotejo entre a descrição distribucional acima delineada e os dados naturalísticos de Toni (2016), que analisam a produção correta e as estratégias de reparo aplicadas na fala das mesmas crianças Lz., Am. e Ar. do banco de dados de Santos (2005), cuja frequência foi descrita nos gráficos anteriores.11 Ou seja, apresentamos em 3.3 as características dos alvos almejados pela criança, e nesta seção apresentaremos a forma como esses alvos foram de fato produzidos: se simplificados a CV (/pɾato/→[ʹpa.tʊ]); se produzidos como na fala adulta (/pɾato/→[ʹpɾa.tʊ]); ou se modificados por outros reparos (/pɾato/→[ʹpla.tʊ], [ʹpa.tɾʊ], [ʹpaɾ.tʊ], [ʹfɾa.tʊ]). Em seguida, discutiremos as implicações trazidas pelo estudo da frequência e do input à aquisição.

A tabela a seguir traz as produções infantis divididas em relação à sua tonicidade – se tônicas, pretônicas (iniciais e mediais) ou postônicas (finais e não-finais).12 Monossílabos átonos não foram analisados dada sua alta tendência a truncamentos e simplificações mesmo na fala adulta.

Figure 13. TABELA 13 Realizações concretas de CCV por tonicidade Fonte: dados de Toni (2016)

Para analisar a possível influência da saliência prosódica nas produções CCV da tabela acima, compare-se a proporção de produções acuradas e simplificadas em cada faixa etária. Nota-se que os percentuais observados nos diferentes contextos acentuais em 2;0-2;11 e em 3;0-3;11 são bastante semelhantes: os contextos tônico, pretônico e postônico apresentam cerca de 95% de simplificações CCV>CV aos 2 anos, e cerca de 80% a 90% de simplificações aos 3 anos. Nas faixas 4;0-4;11 e 5;0-5;6, no entanto, esse cenário deixa de se manter: aos 4 anos observa-se que os contextos tônico e pretônico apresentam cerca de 60% de suas produções CCV simplificadas a CV, mas os contextos postônicos ainda apresentam proporção CCV>CV próxima dos 80%; já aos 5 anos tem-se que cerca de 75% das produções CCV da criança realizam-se tal como na forma adulta quando em contexto tônico, mas não em contextos pretônicos e postônicos, que ainda beiram os 50%. Esses dados sugerem que as sílabas tônicas CCV passam a se destacar de seu contexto linguístico somente a partir da faixa etária 4;0-4;11 – diferentemente das sílabas pretônicas, que embora alinhem-se às tônicas na faixa etária 4;0-4;11, demonstram comportamento semelhante às postônicas na faixa etária seguinte (e considerando a baixa proporção de pretônicas mediais, não se faz possível afirmar que estas seriam responsáveis pela baixa proporção de formas corretas pretônicas na fala infantil). Este padrão às pretônicas difere do observado ao PE, já que no estudo de Vigário et al. (2012) as pretônicas iniciais são as principais responsáveis por alavancar a saliência prosódica de ØV. Já o passo mais lento observado às postônicas pode ser atribuído à sua propensão a processos de simplificação mesmo na fala adulta, como observado na variação [ˈo.tɾʊ]~[ˈo.tʊ]~[ˈo.tʊ̥] ‘outro’, [ˈkʷa.tɾʊ]~[ˈkʷa.tʊ]~[ˈkʷa.tʊ̥] ‘quatro’, interagindo também com processos como a haplologia, em que se observa uma equivalência entre sílabas CCV e CV: ‘den(tro) de casa’→‘den[dʒɪ] casa’; ‘Ma(dre) Teresa de Calcutá’ → ‘Ma[te]resa de Calcutá’. Estes são processos que tornam o contraste fonológico/funcional entre CCV e CV menos transparente, aproximando-os a uma relação “alofônica”.

Vejamos a seguir os dados na perspectiva segmental em cada faixa etária:

Figure 14. TABELA 14 Realizações concretas de CCV por composição segmental Fonte: dados de Toni (2016)

Nota-se na tabela acima um salto na acurácia das produções CCV a partir de 4;0-4;11 anos, tal como observado na divisão por tonicidade. Cabe destacar, no entanto, que esse salto aplica-se principalmente a sílabas do tipo bilabial+tepe e velar+tepe, mas não a combinações alveolar+tepe, que ainda mantêm percentual de simplificações CCV>CV acima de 90% aos 4 anos. Dado que as combinações alveolares mostraram frequência semelhante à de combinações bilabiais e bastante superior à das velares nos gráficos da seção anterior, não se faz possível mobilizar a proeminência distribucional como o fator que motiva a assimetria observada na Tabela 14, pois baseado na frequência segmental de types e tokens, o esperado seria observar comportamentos semelhantes entre bilabiais e alveolares, e não entre bilabiais e velares.

Desse modo, os resultados das Tabela 13 e 14 mostram-se em relativa consonância com o observado por Vigário et al. (2012): a saliência prosódica – especificamente, a tonicidade – apresenta papel mais destacado que a frequência, afetando não a ordem de aquisição, mas sim a acurácia das produções CCV infantis em PB. Cabe notar, contudo, que os efeitos da saliência prosódica se mostram ativos somente a partir de determinados momentos do percurso de aquisição CCV, sugerindo que outros fatores além da proeminência e da frequência também afetam a aquisição silábica. Considerando que, durante o percurso de construção do seu sistema fonológico, a tarefa da criança perpassa não só pelo domínio das propriedades acústico-articulatórias e pela identificação dos padrões combinatórios e restrições fonotáticas que regem a organização dos segmentos nas sílabas, mas também pela própria determinação do valor funcional dos segmentos e sequências de segmentos (tomando valor numa acepção saussuriana), defendemos ser necessário também investigar o reconhecimento/estabelecimento do valor funcional de CCV perante os demais tipos silábicos da língua – especialmente perante os demais tipos de ataque permitidos no PB. Faz-se inicialmente necessário, assim, que a criança perceba que empregar CV em lugar de CCV, por exemplo, pode modificar o significado de uma palavra – um contraste que não se mostra naturalmente transparente, considerando a aplicação de processos fonológicos como a redução CCV→CV e a haplologia citadas acima, que tornam a diferenciação CCV-CV mais opaca, além dos processos de rotacismo e lambdacismo (‘p[ɾ]anta’, ‘f[l]uta’), que tornam a própria distinção entre C/ɾ/V e C/l/V também opaca. Consequentemente, sem reconhecer o valor funcional de CCV, é possível que a criança cogite uma relação não contrastiva entre ataques simples e ataques ramificados (ou entre C/ɾ/V e C/l/V), de modo que estas duas estruturas poderiam ser consideradas, num primeiro momento, como funcionalmente equivalentes – ou seja, ainda que a criança perceba a diferença fonética entre essas estruturas, sua distinção fonológica pode ainda não ter sido estabelecida na língua. Sem uma clara distinção fonológica entre CCV e CV, os esparsos dados contendo ataques ramificados diluem-se na abundância dos ataques simples – diluindo, também, possíveis influências da proeminência prosódica de CCV. Após estabelecer este contraste, faz-se então coerente observar uma “influência prosódica tardia”, como constatado na Tabela 13.

Podemos traçar um paralelo, aqui, com a distinção entre ditongos falsos e ditongos verdadeiros, como ‘peixe’ e ‘peito’: ditongos falsos apresentam forma subjacente /V/, mas às vezes realizam-se como [VV], enquanto ditongos verdadeiros são /VV/ e sempre se realizam como [VV]; já sílabas CCV apresentam forma subjacente /CCV/, mas às vezes realizam-se como [CV] (em palavras como [ʹo.tʊ] ‘outro’, ‘precisa’ [pɪʹsi.zɐ], [pɐ] ‘pra’), enquanto sílabas CV são /CV/ e sempre se realizam como [CV]. Durante o percurso de aquisição dos ditongos analisado por Bonilha (2000), a produção infantil revelou que nenhuma das ocorrências de ditongos [ej] falsos foi produzida como VV pela criança (‘peixe’ foi categoricamente produzido como [ʹpe.ʃɪ]), mas cerca de metade das ocorrências de ditongos [ej] verdadeiros sofreu monotongação (‘sei’ foi produzido como [ʹse] ~ [ʹsej]). Interessantemente, ditongos verdadeiros que não apresentam contrapartes falsas, como [oj] e [ew], sofreram expressivamente menos monotongações que [ej], majoritariamente orbitando entre 80% a 100% de produções corretas. Essa assimetria sugere que o estabelecimento do contraste fonológico entre ditongos verdadeiros e falsos afeta a produção infantil – o que é corroborado pela observação de que ditongos não ambíguos apresentam aquisição mais estável e precoce. No caso de CCV, cogitamos que a ambiguidade fonológica advém não só da variação CCV ~ CV, mas também de sua baixa produtividade no input e, ainda, do baixo número de pares mínimos CV vs. CCV (‘prato’ vs. ‘pato’, ‘placa’ vs. ‘paca’).13 Para ilustrar estes últimos pontos, trazemos abaixo a Tabela 15, que representa um método para quantificar (ainda que de forma idealizada) o estímulo linguístico recebido pela criança com base nos types mais frequentes a ela dirigidos (YANG, 2016). A segunda, terceira e quarta colunas da tabela indicam o total de estruturas CCV, V e CV contidas nos 50, 100, 200 types mais frequentes da FDC, até a marca das 6 mil palavras mais frequentes. Essas marcas representam, idealmente, os estágios do vocabulário receptivo infantil:

Figure 15. TABELA 15 Total de sílabas CCV, V e CV contidas nas palavras mais frequentes da fala dirigida à criança Fonte: elaboração própria.

A tabela acima representa uma quantificação aproximada da evidência positiva disponível à criança nas palavras mais frequentes de seu meio linguístico, tomando como base a lista FDC. A discrepância quanto à exposição infantil a CCV é evidente: enquanto boa parte das 50 palavras mais frequentes dirigidas à criança apresentam uma ou mais sílabas CV, e cerca de metade apresentam sílabas V, somente 1 apresenta sílaba CCV – a saber, a preposição ‘pra’, altamente suscetível a processos de redução. Ampliando-se para 100 o conjunto de palavras mais frequentemente dirigidas à criança, tem-se os primeiros itens de conteúdo: ‘brincar’, ‘outro’, ‘outra’ e ‘pronto’. Os primeiros substantivos e adjetivos surgem, no entanto, somente entre as 200 palavras mais frequentes, com itens como ‘livro’ e ‘grande’ – mas mesmo considerando o maior conjunto de palavras da tabela, 6.000, nota-se que sílabas V representam mais que o dobro de CCVs, e CVs apresentam frequência quase vinte vezes maior que CCV – o que pode explicar não só a aquisição tardia de CCV, mas também a aquisição precoce de ØV.

Um segundo ponto a se destacar na quantificação acima reside na carga funcional observada à estrutura CCV na língua: enquanto é possível coletar pares mínimos V vs. CV já nas primeiras 50 palavras mais frequentes da fala dirigida à criança, como ‘que’ vs. ‘e’, ‘na’ vs. ‘a’, ‘aí’ vs. ‘aqui’, ‘é’ vs. ‘né’ – pares que evidenciam o valor contrastivo das estruturas silábicas por meio da adição/subtração de sons –, o primeiro par CCV vs. CV observado no corpus FDC surge somente entre as 400 palavras mais frequentes, com os itens ‘tem’ vs. ‘trem’ e ‘for’ vs. ‘flor’. Vê-se, assim, que tanto numa perspectiva de construção de contrastes fonológicos via pares mínimos (como defendido por CUI, 2020) quanto numa perspectiva via distribuição (DRESHER, 2004), estabelecer o valor de CCV perante CV mostra-se bastante desafiador. Adicione-se a isso a baixa frequência deste tipo silábico na FA, FDC e FI e sua suscetibilidade a processos fonológicos neutralizadores e tem-se uma pequena constelação de fatores advindos do input – excluindo ainda aqueles relacionados aos âmbitos fonético e fonológico – que explicam por que CCV se mostra uma sílaba de percurso aquisitivo tão longo, que surge antes dos 2 anos na fala da criança e se estabiliza somente aos 5 ou 6 anos. Tal constelação só se revela, contudo, por um estudo detalhado das frequências CCV na fala adulta, infantil e dirigida à criança.

6. Considerações finais

O presente artigo teve dois objetivos principais: apresentar a metodologia de compilação dos corpora FI e FDC, disponibilizando-os à comunidade científica e, em especial, aos pesquisadores da área da Aquisição da Linguagem; e ilustrar o uso da Linguística de Corpus e de dados do tipo lista de frequências no estudo do desenvolvimento linguístico infantil – ferramentas muito úteis, por exemplo, à caracterização da FI em comparação à FA e à FDC, e à observação dos impactos que a frequência de uso e a diversidade lexical associados à saliência prosódica podem causar na produção de fala da criança. Para tanto, tomamos como objeto de estudo as sílabas de ataque ramificado CCV – uma estrutura de aquisição tardia e pouco frequente na língua, cujo desenvolvimento incita discussões, em última análise, sobre os efeitos da pobreza de estímulos na aquisição fonológica.

Com base na observação detalhada e na comparação dos padrões distribucionais e prosódicos das sílabas de ataque ramificado CCV na FA, na FDC e na FI, foi possível constatar que os três corpora apresentam características bastante semelhantes, não havendo evitação ao uso de uma estrutura silábica tardia, considerada como articulatória e fonologicamente complexa tanto nos alvos lexicais da criança quanto na fala de seus cuidadores. Por outro lado, comparando-se a FA, a FDC e os dados de Toni (2016), foi possível observar que sílabas tônicas (não necessariamente mais frequentes) apresentam maior acurácia na produção infantil. Observamos também que a criança generaliza sua produção CCV para além das combinações segmentais mais frequentes nos dados, a despeito de sua baixíssima representatividade no ambiente linguístico infantil. Passando a considerar o impacto desta baixa representatividade no percurso de aquisição, defendemos que as sílabas CCV passam a ser consideradas como um objeto linguístico independente e de valor fonológico próprio apenas a partir de um momento específico do desenvolvimento silábico infantil (a faixa etária 4;0-4;11), e não desde os primeiros momentos da aquisição fonológica.

Os resultados e comparações acima delineados asseveram a validade científico-metodológica dos corpora aqui promovidos. Esperamos que os dados do Corpus FI e do Corpus FDC sejam utilizados para investigar diversos outros tópicos sobre o desenvolvimento linguístico da criança e as propriedades do ambiente linguístico sobre o qual seu sistema gramatical é construído.

Agradecimentos

Agradeço à Profª Drª Raquel Santana Santos por disponibilizar seu banco de dados naturalístico-longitudinal à construção dos corpora FI e FDC e pelos seus comentários em uma versão prévia deste artigo. Agradeço também a Aline de Lima Benevides e Bruno Ferrari Guide por disponibilizarem publicamente os scripts para a compilação destes corpora.

Referências

BENEVIDES, A.; GUIDE, B. Corpus ABG (2016). Disponível em https://github.com/SauronGuide/corpusABG (acesso em 1/05/2020).

BONILHA, G. F. G. Aquisição dos ditongos orais decrescentes: uma análise à luz da Teoria da Otimidade. Dissertação (Mestrado em Letras), Faculdade de Letras, UCPel, 2000.

CLEMENTS, G.. The role of features in phonological inventories. In: RAIMY; CAIRNS (orgs.) Contemporary Views on Architecture and Representations in Phonology. Cambridge: MIT Press, 2009, p. 19-68.

CUI, A. The Emergence of Phonological Categories. Tese (Doutorado em Linguística) – Universidade da Pensilvânia, Filadélfia, EUA, 2020.

DRESHER, E. On the Acquisition of Phonological Contrasts. In: van KAMPEN; BAAUW (eds.), Proceedings of GALA 2003, Volume 1 (LOT Occasional Series 3), Utrecht: LOT, 2004, p. 27-46.

ESTIVALET, G. L.; MEUNIER, F. The Brazilian Portuguese Lexicon: An Instrument for Psycholinguistic Research. PLOS ONE, v. 10, n. 12, 2015, p. 1-24. Disponível em: http://www.lexicodoportugues.com/ (acesso em 29/12/2020)

FREITAS, M. J. Aquisição da estrutura silábica no Português Europeu. Tese (Doutorado em Linguística) – Universidade de Lisboa, Lisboa, Portugal. 1997.

GAMALLO, M. G. FreeLing e TreeTagger: um estudo comparativo no âmbito do Português, ProLNat Technical Report, vol. 01, 2013, p. 1-20. Disponível em: http://gramatica.usc.es/~gamallo/artigos-web/PROLNAT_Report_01.pdf.

GOLDSTEIN, L. Emergence of discrete gestures. Proceedings of the 15th International Congress of Phonetic Sciences. Barcelona, Espanha, 3-9 de Agosto 2003. Universidade Autônoma da Barcelona.

LAMPRECHT, R. et al. Aquisição fonológica do Português: perfil de desenvolvimento e subsídios para terapia. Porto Alegre: Artes Médicas, 2004.

LANY J., AND SAFFRAN J.R. Statistical Learning Mechanisms in Infancy. In: RUBENSTEIN J. L. R. and RAKIC P. (ed.) Comprehensive Developmental Neuroscience: Neural Circuit Development and Function in the Brain, volume 3, Amsterdam: Elsevier, 2013, p. 231-248.
LEVELT, C.C.; VIJVER, R., van de. Syllable types in cross-linguistic and developmental grammars. In KAGER, R., PATER, J., ZONNEVELD, W. (Eds.) Constraints in phonological acquisition. Cambridge: Cambridge University Press, 2004. p. 204-218.

MATTOS E SILVA, R. O Português Arcaico - fonologia, morfologia e sintaxe. São Paulo: Contexto, 2006.

NEWPORT, E.; GLEITMAN, H.; GLEITMAN, L. Mother, Id rather do it myself: Some effects and non-effects of maternal speech style. In: SNOW & FERGUSON (eds.), Talking to Children. Cambridge University Press, 1977, p. 109-149.

PESSOA, L. F.; MOURA, M. L. S.. Fala materna dirigida à criança em cenários comunicativos específicos: um estudo longitudinal. Psicologia: Teoria e Pesquisa, Brasília, v. 27, n. 4, p. 439-447, 2011.

PIERREHUMBERT, J. B. Exemplar dynamics: Word frequency, lenition and contrast. In: BYBEE & HOPPER (Eds.), Typological studies in language, John Benjamins Publishing Company, 2001, p. 137-157.

RASO, T., & MELLO, H. (Eds.). (2012). C-oral-Brasil I: corpus de referência do português brasileiro falado informal. Belo Horizonte: Editora UFMG. Disponível em: http://www.c-oral-brasil.org/ (acesso em 29/12/2020)

RIBAS, L. Aquisição do Ataque Complexo. Dissertação (Mestrado em Letras), Porto Alegre: PUCRS, 2002.

RICHARDS, B. J. Child-directed speech and influences on language acquisition: Methodology and interpretation. In: GALLAWAY & RICHARDS (Eds.), Input and interaction in language acquisition. Cambridge University Press, 1994, p. 74–106.

SANTOS, R.S.. Aquisição da estrutura silábica. Letras de Hoje, Porto Alegre, n. 112, 1998, p. 91-98.

___________. A aquisição do ritmo em português brasileiro. Projeto USP, 2005

___________. (2017). A aquisição do padrão acentual e o input. Revista Matraga, v. 24, n. 41, p. 310-340.

SARDINHA, T. B. Linguística de Corpus: Histórico e Problemática. DELTA, v. 16, n. 2, 2000. p. 323-67.

SILVEIRA, K. A. Padrões segmentais, lexicais, silábicos, intra-silábicos e inter-silábicos em crianças falantes de PB. Tese (Doutorado em Letras), Universidade Federal da Bahia, 2006.

TANG, K. A 61 million word corpus of Brazilian Portuguese film subtitles as a resource for linguistic research. UCL Working Papers in Linguistics, n. 24, 2012, p.208–214. Disponível em: http://meshugga.ugent.be/open-lexicons/interfaces/pb-subtitles-unigram/ (acesso em 29/12/2020)

TONI, A. Representação subjacente do ataque ramificado CCV na aquisição fonológica. Dissertação (Mestrado em Letras). Universidade de São Paulo, 2016.

________. Sílabas de ataque ramificado CCV em Português Brasileiro: produtivas ou lexicalizadas?. Quintú Quimün, n. 4, 2020, p. 1-37.

VIGÁRIO, M., S. FROTA, F. MARTINS & M. CRUZ. Frequência na Fonologia do Português: recursos e aplicações. In: COSTA & DUARTe (eds.). Nada na linguagem lhe é estranho. Estudos em homenagem a Isabel Hub Faria. Porto: Edições Afrontamento, 2012, p. 613-631.

YANG, C. The price of linguistic productivity: How children learn to break the rules of language. Cambridge, MA: The MIT Press. 2016. 280p.