<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.2 20190208//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:ali="http://www.niso.org/schemas/ali/1.0">
  <front>
    <journal-meta>
<journal-id journal-id-type="nlm-ta">Revista da Abralin</journal-id>
<journal-title-group>
<journal-title>Revista da Abralin</journal-title>
</journal-title-group>
<issn pub-type="epub">2178-7603</issn>
<publisher>
<publisher-name>Associação Brasileira de Linguística</publisher-name>
</publisher>
</journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.25189/RABRALIN.V20I2.1914</article-id>
      <article-categories>
        <subj-group>
          <subject content-type="Tipo de Contribuição">Tutorial</subject>
        </subj-group>
      </article-categories>
      <title-group>
        <article-title>Introdução à estatística bayesiana aplicada à linguística</article-title>
      </title-group>
      <contrib-group content-type="author">
        <contrib id="person-a06039612f94cae18f9a58545502e166" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Garcia</surname>
            <given-names>Guilherme Duarte </given-names>
          </name>
          <email>gdgarcia@bsu.edu</email>
          <xref ref-type="aff" rid="affiliation-8fe50dc7e96745eba648928ee1c3fac7" />
        </contrib>
        <contrib id="person-46e6325cc50720250a466e6b2446bf67" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Lima Jr.</surname>
            <given-names>Ronaldo Mangueira </given-names>
          </name>
          <email>ronaldojr@letras.ufc.br</email>
          <xref ref-type="aff" rid="affiliation-0e18e4f4a4e3e0c9e9d0c65b4138a2fc" />
        </contrib>
      </contrib-group>
      <contrib-group content-type="editor">
        <contrib id="person-42f98bd9235c5d6211491881ed57601d" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Freitag</surname>
            <given-names>Raquel</given-names>
          </name>
          <email>rkofreitag@uol.com.br</email>
          <xref ref-type="aff" rid="affiliation-e0afba7d5ad9febe6269abfd58bf7e77" />
        </contrib>
      </contrib-group>
      <aff id="affiliation-8fe50dc7e96745eba648928ee1c3fac7">
        <institution content-type="orgname">Ball State University (BSU)</institution>
      </aff>
      <aff id="affiliation-e0afba7d5ad9febe6269abfd58bf7e77">
        <institution content-type="orgname">Universidade Federal de Sergipe (UFS)</institution>
      </aff>
      <aff id="affiliation-0e18e4f4a4e3e0c9e9d0c65b4138a2fc">
        <institution content-type="orgname">Universidade Federal do Ceará (UFC)</institution>
      </aff>
      <pub-date date-type="pub" iso-8601-date="21/12/2021" />
      <volume>20</volume>
      <issue>2</issue>
      <issue-title>Publicação Contínua 2021</issue-title>
      <elocation-id>10.25189/rabralin.v20i2.1914</elocation-id>
      <history>
        <date date-type="accepted" iso-8601-date="08/12/2021" />
        <date date-type="received" iso-8601-date="05/09/2021" />
      </history>
      <abstract>
        <p id="_paragraph-1">Neste artigo, apresentamos os conceitos fundamentais de uma análise estatística bayesiana e demonstramos como rodar um modelo de regressão utilizando a linguagem R a partir de códigos comentados em detalhe e de pacotes amigáveis que otimizam a implementação de modelos completos. Ao longo do artigo, comparamos estatística bayesiana e estatística frequentista, destacamos as diferentes vantagens apresentadas por uma abordagem bayesiana, que dispensa valores de <italic id="italic-1">p </italic>e estima distribuições <italic id="italic-2">a posteriori </italic>de efeitos estatisticamente plausíveis com base nos dados modelados. Por fim, demonstramos como rodar um modelo simples e visualizar efeitos de interesse em gráficos intuitivos. Ao longo do artigo, sugerimos leituras adicionais aos interessados neste tipo de análise</p>
      </abstract>
      <abstract abstract-type="executive-summary">
        <title>Abstract</title>
        <p id="_paragraph-4">In this paper, we introduce the basics of Bayesian data analysis and demonstrate how to run a regression model in R using linguistic data. We provide commented code and employ user-friendly packages that optimize the implementation of full-fledged statistical models. Throughout the paper, we compare Bayesian and Frequentist statistics, highlighting the different advantages of a Bayesian approach, which dispenses with the notion of <italic id="italic-7dca853a44a4779614767d56673e61c7">p-</italic>values and instead focuses on parameter estimation using posterior distributions of credible effect sizes given the data. We also show how to run a simple model and how to visualize effects of interest. Finally, we suggest additional readings to those interested in Bayesian analysis more generally</p>
      </abstract>
      <kwd-group>
        <kwd content-type="">Análise quantitativa de dados</kwd>
        <kwd content-type="">Estatística bayesiana</kwd>
        <kwd content-type="">Modelos de regressão</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body id="body">
    <sec id="heading-4735dddf6badda6642ec9d0b4897b5b2">
      <title>Introdução</title>
      <p id="heading-4848badfe1042603d59bc07ba2114b0b">Em uma trágica noite de maio de 2009, o voo Air France AF 447 desapareceu entre Rio de Janeiro e Paris com 228 pessoas de 33 nacionalidades a bordo. O acidente, que chocou o mundo, iniciou uma maratona de Brasil e França na busca pelos destroços da aeronave em uma região de difícil acesso, a aproximadamente 1.200 quilômetros de Fortaleza, CE. Depois de dois anos de buscas sem nenhum sucesso, a esperança de encontrar a caixa-preta do voo era mínima—aparentemente, o mistério do voo AF 447 não seria solucionado. Além de ser uma tragédia sem resolução para centenas de famílias, a indústria aérea nunca entenderia o que exatamente levou o Airbus A330 ao fundo do mar naquela noite. Foi então que, em abril de 2011, uma nova busca foi iniciada. Desta vez, o método utilizado envolveria o teorema de Bayes, que utilizaria todos os dados de antes e depois do acidente, e geraria mapas de probabilidades sobre a possível localização dos destroços do Airbus. Em uma semana, o local do acidente foi encontrado, e a investigação sobre as causas do acidente pôde finalmente ser iniciada. </p>
      <p id="paragraph-2">Há diversos exemplos de solução de problemas complexos com análise bayesiana na história, como a máquina de Turing, precursora dos computadores, e utilizada para decifrar códigos secretos alemães durante a Segunda Guerra Mundial, possivelmente salvando as tropas aliadas. Foram análises bayesianas também que permitiram à marinha americana encontrar uma bomba de hidrogênio perdida, assim como submarinos soviéticos. São ainda mais numerosos os casos de solução de problemas em curso, uma vez que a análise bayesiana é central na aprendizagem de máquinas e, consequentemente, na inteligência artificial. Alguns exemplos são os sistemas <italic id="italic-d0262ff4742db91c1d61baf9c98b038e">antispam</italic> de serviços de e-mail, os sistemas que possibilitam carros autônomos, a previsão de resultados de eleição em tempo real, e a definição de preços por empresas de seguros. McGrayne (2011) narra alguns desses exemplos em detalhe, mas todos têm um aspecto central: resolver problemas que envolvem incerteza à medida em que novos dados são adquiridos e atualizam esse grau de (in)certeza.</p>
      <p id="paragraph-3">Existem basicamente duas grandes escolas de pensamento quando o assunto é análise de dados. De um lado, temos a estatística frequentista,<xref id="xref-26b3ee601ba9e3d5ac690de75281946c" ref-type="fn" rid="footnote-e8dfd9f141aa6f0ffd84a9eeca568949">1</xref> que vê a noção de probabilidade<italic id="italic-5688d486dbc83a7eab1bae42e1f2f584"> </italic>com base na <italic id="italic-3">frequência</italic> de ocorrência de um dado evento a longo prazo. Ou seja, após observarmos diversos dias ensolarados, nublados, e chuvosos em uma dada cidade (nossa <italic id="italic-4">amostra</italic>), podemos calcular a probabilidade de cada um dos três cenários para essa cidade. Um frequentista ortodoxo, portanto, entende probabilidades somente a partir de eventos que podem ser repetidos. Além disso, em uma análise frequentista, nossa conclusão se resume à probabilidade dos dados. Afinal, valores de <italic id="italic-5">p</italic> nos dão a probabilidade de observarmos os dados coletados se partimos do princípio de que a hipótese nula<xref id="xref-7989fef49d44453d63b3da4f07dc9d1a" ref-type="fn" rid="footnote-6db6389c211994c0ba39d196ea68afda">2</xref> é verdadeira. Em outras palavras, toda vez que você lê um artigo que utiliza valores de <italic id="italic-6">p</italic>, está diante de uma análise frequentista, entre as mais comuns o teste de qui-quadrado, o teste <italic id="italic-7">t</italic>, correlações, ANOVAs, e diversos modelos de regressão.</p>
      <p id="paragraph-4">A segunda grande escola de análise de dados é a estatística bayesiana, apoiada no teorema de Bayes, que vê probabilidades como uma combinação de expectativa <italic id="italic-8">a priori </italic>e dados coletados. Diferentemente de uma análise frequentista, uma análise em Bayes utiliza probabilidades tanto para os dados quanto para as hipóteses—algo que foi essencial nas buscas do voo AF 447. Neste caso, embasamos nossas expectativas em nosso conhecimento de área, elaboramos uma hipótese inicial, e incorporamos nosso grau de certeza sobre essa hipótese em nossos modelos analíticos. Diferente de um frequentista, um analista bayesiano não requer eventos repetidos para gerar uma dada probabilidade. Sendo assim, podemos definir probabilidades de um dia ensolarado, nublado, ou chuvoso mesmo que não tenhamos observado dias com essas condições na cidade hipotética mencionada acima—algo impossível em uma análise frequentista, que exige a observação de eventos reais. Poderíamos, por exemplo, analisar essas probabilidades com base na localização da cidade, na estação do ano, no índice de umidade do ar, e no conhecimento prévio que temos sobre a influência dessas variáveis sobre previsões climáticas. Frequentistas, por exemplo, não conseguiram calcular a probabilidade de um acidente quando usinas nucleares começaram a ser construídas, já que não tinham observado nenhum acidente ainda; por isso, a <italic id="italic-9">RAND Corporation</italic> precisou utilizar métodos bayesianos para avaliar a probabilidade de acidentes nucleares antes de acontecer um (MCGRAYNE, 2011).</p>
      <p id="paragraph-5">Você talvez nunca tenha lido um artigo que utilize uma análise bayesiana em linguística. Não se surpreenda: há relativamente poucos estudos que utilizam esse método em linguística quando o comparamos ao método frequentista (IDSARDI, 2006; HAYES ET AL, 2009; GARCIA, 2019)—embora Bayes seja um método relativamente comum em áreas como psicolinguística e cognição (e.g., inúmeros trabalhos de Edward Gibson, Roger Levy, Steven Piantadosi, Joshua Tenenbaum, dentre vários outros). Contudo, a cada dia a estatística bayesiana ocupa o centro da análise de dados em diversos campos. Como veremos abaixo, análises bayesianas oferecem diversas vantagens sobre análises frequentistas, e o poder computacional disponível atualmente permite uma transição frequentista- bayesiana sem grandes problemas. </p>
      <p id="paragraph-6">Nosso objetivo neste artigo é apresentar noções básicas de estatística bayesiana para análise de dados. É preciso salientar que há, também, diversas implementações de modelos bayesianos aplicados à cognição (e.g., CHATER et al, 2006; TENENBAUM et al, 2006; LEE e WAGENMAKERS, 2014). Além disso, devemos esclarecer que há diferentes formas de implementar modelos em Bayes (e.g., em uma linguagem de programação como Python ou em um pacote estatístico como Stata). Aqui, contudo, utilizaremos a linguagem R (R CORE TEAM, 2021) no aplicativo RStudio (RSTUDIO TEAM, 2021). Ao fim deste artigo, você conseguirá rodar, interpretar, e reportar um modelo bayesiano simples. Disponibilizamos o script utilizado no link <ext-link id="external-link-3" xlink:href="https://osf.io/bvj4w/">https://osf.io/bvj4w/</ext-link>. Os leitores ainda não familiarizados com o R poderão ignorar esses trechos e, mesmo assim, se beneficiar do conteúdo e das discussões propostas. </p>
      <p id="paragraph-7">Naturalmente, discutiremos apenas o básico neste artigo, e recomendaremos diversos materiais para que você de fato entre no mundo bayesiano. Por fim, este artigo é uma sequência natural de Lima Jr. e Garcia (2021), e tem como público-alvo pessoas que tenham um conhecimento mínimo de análise quantitativa de dados frequentista, em especial de modelos de regressão.</p>
      <p id="paragraph-dedb98f4fc3df1a6074fe21488f61d2f" />
    </sec>
    <sec id="heading-ff0a46d99723f51d66ca0806c9c8e922">
      <title>1. O teorema de Bayes</title>
      <p id="paragraph-f27d088f99345e11910ef6eaa3389321">O teorema de Bayes (equação 1) foi proposto pelo reverendo britânico Thomas Bayes em algum momento da década de 1740 (BAYES, 1763). Contudo, foi o matemático francês Pierre-Simon Laplace que, de forma independente e aproximadamente na mesma época, desenvolveu o potencial do teorema—não seria estranho, portanto, se falássemos em teorema de Laplace. Em sua essência, o princípio de Bayes é simples: aprendemos com a experiência, ajustando nossas conclusões proporcionalmente às evidências que encontramos—um conceito tão avançado para o século XVIII que hoje, quase três séculos depois, ainda temos dificuldade em internalizar.</p>
      <fig id="figure-panel-96cdfe43905e3f4257878c4fc310ecc3">
        <label>Figure 1</label>
        <caption>
          <title>EQUAÇÃO 1 - Teorema de Bayes. H = hipótese; E = experimento</title>
          <p id="paragraph-fd9b853bbd965e7478b6f998905c8dcc" />
        </caption>
        <graphic id="graphic-6a47e3e719c7ce704ec3ff77e654d376" mimetype="image" mime-subtype="png" xlink:href="Equação 1.png" />
      </fig>
      <p id="paragraph-10">De acordo com a equação 1, coletamos dados a partir de um experimento e calculamos a probabilidade de uma dada hipótese (H) com base nesses dados (E), ou seja, P(H|E)—conhecida como <italic id="italic-8a1fb75a2044d9ebb7aa3ae4b68e340b">a posteriori</italic>. Perceba que estamos calculando a probabilidade de uma <italic id="italic-5ee5afe6ab25549154eb1af4a3e4edec">hipótese</italic> de trabalho diante dos dados observados, e não a probabilidade dos dados diante de uma hipótese nula, como é feito no cálculo do valor de <italic id="italic-1f9116c1e41ae7fa21d8625556c3ca27">p</italic>. Além disso, incorporamos ao cálculo nossa expectativa da probabilidade da hipótese <italic id="italic-14e56919ff2e5ea1fce57a681e300037">a priori</italic>, P(H), com base em conhecimento e experimentos prévios. No caso de querermos investigar o efeito da estação do ano sobre a quantidade de dias chuvosos em uma cidade, imagine que foram registrados 40 dias chuvosos no outono e 47 no inverno nessa cidade. Um frequentista calcularia a probabilidade de se observar essa quantidade de dias chuvosos em cada estação caso <italic id="italic-21042064cfceae7ac7f68e1f292e79e0">não</italic> houvesse diferença entre as estações (probabilidade dos dados frente à hipótese nula). Um bayesiano, por outro lado, calcularia a probabilidade de as estações terem efeito sobre a quantidade de chuva uma vez que foram observados 40 dias de chuva no outono e 47 no inverno (probabilidade da hipótese diante dos dados observados), e incorporaria ao cálculo a expectativa do efeito dessas estações com base em conhecimento prévio sobre o clima nessa cidade ao longo do ano.</p>
      <p id="paragraph-aeb1485047869bad757ab712ef69f692">Para vermos o teorema em ação, vamos imaginar uma situação bastante simples, em que temos uma hipótese binária. Imaginemos dois grupos de participantes em um estudo qualquer. Ambos os grupos, A e B, possuem falantes monolíngues de português ou de inglês. No grupo A, 80% dos participantes são lusófonos; no grupo B, 40% (tabela 1). Se selecionarmos aleatoriamente um falante e verificarmos que ele é falante de português (E = Por), qual é a probabilidade de este falante pertencer ao grupo A, ou seja, qual o valor de P(A|Por)? Responderemos essa pergunta utilizando o teorema de Bayes.</p>
      <table-wrap id="table-figure-c4ccebb0f86c95c6aaf0f02284b6e994">
        <label>Table 1</label>
        <caption>
          <title>TABELA 1 - Dois grupos hipotéticos com falantes monolíngues de português ou inglês</title>
          <p id="paragraph-f164a6689379d5529281491982ce7067" />
        </caption>
        <table id="table-0dd2469d16f0414c8a6e9d4193e6389c">
          <tbody>
            <tr id="table-row-b1b5dd4290af048720299133126a9ece">
              <th id="table-cell-c7a0131e61fe5ed9821ab29208e3a9c0" />
              <th id="table-cell-4911d837350ca8fc73b34f2e526d7717">A</th>
              <th id="table-cell-d84528b0acfc4ea4206d54bb7b930918">B</th>
            </tr>
            <tr id="table-row-27e285f82bc928f82458940d89bd015e">
              <td id="table-cell-ce3df92c246028552748644637cb24da">Português</td>
              <td id="table-cell-0db6a198374903b17170b99052d0a9c1">80%</td>
              <td id="table-cell-3ba7c6a5d9514cb5b78099b025eb6de6">40%</td>
            </tr>
            <tr id="table-row-834136746a5b6c90914ac47cabc4224f">
              <td id="table-cell-05bf04af6addfe0812e9222d60ab611a">Inglês</td>
              <td id="table-cell-6710b7cdc35dc650aa48ce7758f5d240">20%</td>
              <td id="table-cell-076607ced0d5a7ad0991b9e85750baec">60%</td>
            </tr>
            <tr id="table-row-8520b6d1aa77e3557bc7cce787f8002e">
              <td id="table-cell-ab27cf6d4eef18a56012bdce370c58ae">P(A) = P(B) = 0.5 
P(Por|A) = 0.8 
P(Ing|A) = 0.2 
P(Por|B) = 0.4 
P(Ing|B) = 0.6</td>
              <td id="table-cell-cce65780f91ef0c69d4fc1e00e0d0fe7" />
              <td id="table-cell-983cacb3125c499afcc502881732c2a2" />
            </tr>
          </tbody>
        </table>
      </table-wrap>
      <p id="paragraph-c015bc6f22a0102136dd7a859ca12081">Substituindo o (H) e (E) da equação 1 por (A) e (Por) da tabela 1, temos:</p>
      <fig id="figure-panel-502821e8403bf269b16e18bba3fdcc0d">
        <label>Figure 2</label>
        <caption>
          <title>EQUAÇÃO 2 – Teorema da Bayes aplicado ao exemplo de falantes de português ou inglês</title>
          <p id="paragraph-a4c565e89ed17d9b99eee23bdcacfdc8" />
        </caption>
        <graphic id="graphic-23e10d31e72c1f9ade611dec358460f7" mimetype="image" mime-subtype="png" xlink:href="Equação 2.png" />
      </fig>
      <p id="paragraph-5abdcd787fdb429dd376ec467ab458f9">O P(A|Por) é a probabilidade <italic id="italic-292b599b267727abd50d676e4b0505ed">a posteriori</italic> que queremos descobrir, a probabilidade de o falante aleatório ser do grupo A uma vez que observamos que ele é falante de português. O P(Por|A), primeiro elemento do numerador, é 80%, a probabilidade na primeira célula da tabela 1. O P(A), segundo elemento do numerador, é a probabilidade <italic id="italic-a4e77fedc84e266864f9975610c46628">a priori </italic>de que um falante aleatório pertença ao grupo A, que é igual à probabilidade <italic id="italic-f4743fcd7d675c6a06c93f197d208056">a priori </italic>de ser do grupo B, já que ambos têm o mesmo número de participantes, ou seja, P(A) = P(B) = 50%. O P(Por), no denominador, requer uma breve explicação: neste caso, as duas hipóteses (ser do grupo A ou ser do grupo B) são mutuamente exclusivas, ou seja, um participante pertence ao grupo A <italic id="italic-e701f8c1ce85a63c1ddedfe0dd346ebf">ou</italic> ao grupo B, ninguém pertence a um terceiro grupo, e nenhum participante pertence a ambos os grupos simultaneamente. Consequentemente, podemos reescrever P(Por) como P(A)P(Por|A) + P(B)P(Por|B), a partir da lei de probabilidade total. Como todos esses valores são conhecidos (estão na tabela 1), basta colocá-los na equação e proceder com o cálculo. </p>
      <p id="paragraph-3045ac4539afe2a65933848907a4d1d5">No cálculo abaixo, vemos que a probabilidade de um sujeito aleatório que é falante de português vir do grupo A é de aproximadamente 67%. Intuitivamente, faz sentido que o valor esteja acima de 50%, uma vez que o grupo A possui uma maior proporção de falantes de português. </p>
      <fig id="figure-panel-9bebe56388b689858bb0aa1d5534b067">
        <label>Figure 3</label>
        <caption>
          <title>EQUAÇÃO 3 - Probabilidade condicional usando o teorema de Bayes</title>
          <p id="paragraph-846d108fb2d3316a8ef28610c52fe8b6" />
        </caption>
        <graphic id="graphic-894803ce576af8e6b9d4ad0ac27adac5" mimetype="image" mime-subtype="png" xlink:href="Equação 3.png" />
      </fig>
      <p id="paragraph-1f216bf3b652f8abfac9354b4dc532f4">O exemplo acima é bastante simples, mas já nos mostra que o teorema de Bayes combina probabilidades condicionais e probabilidades totais, tendo papel fundamental em lógica indutiva (e.g., HACKING, 2001). Imagine agora que o grupo B tenha mais participantes do que o grupo A. Isso afetaria os valores P(A) e P(B), que não seriam mais idênticos. Por exemplo, se o grupo A tiver 50 participantes e o grupo B tiver 75 participantes, a probabilidade de um participante aleatório vir do grupo A vai de 0.5 para 0.4, o que afetaria nosso cálculo. No mundo real, nosso conhecimento de área e pesquisas anteriores podem nos informar sobre o que esperar de um dado experimento. Usando Bayes, podemos incorporar esse conhecimento ao definirmos a distribuição <italic id="italic-b4f72360ad38bacbc0cce08de921145a">a priori</italic>, da mesma forma que podemos ajustar P(A) e P(B) no exemplo hipotético acima. Você pode interagir com o teorema de Bayes visitando a página <ext-link id="external-link-1" xlink:href="https://guilhermegarcia.github.io/resources">https://guilhermegarcia.github.io/resources</ext-link> e, em seguida, clicando em “Bayesian statistics”.</p>
      <p id="paragraph-a5cd43b329177eb3d5b5555e98c9a2d3">Apesar de instrutivos, exemplos simples raramente nos ajudam diretamente em aplicações reais. Quando desejamos descobrir o tamanho do efeito de um fator, nossas hipóteses não são binárias. Lidamos, nesses casos, com um <italic id="italic-199350ea007235e8527414c86a73818c">continuum</italic> de valores plausíveis. Além disso, modelos realistas geralmente têm diversos parâmetros (variáveis preditoras), o que torna o cálculo impraticável (e quase sempre impossível). Por exemplo, imagine que queiramos examinar a probabilidade de 1.000 valores plausíveis para um dado efeito em nosso experimento. Se tivermos 5 variáveis em nosso modelo, teremos uma distribuição conjunta de 1.000<sup id="superscript-1">5</sup>, um valor complicado demais para nossos computadores. Essa é a principal razão técnica por que métodos frequentistas dominaram a análise de dados no século XX: simplesmente não havia poder computacional suficiente para que conseguíssemos utilizar modelos bayesianos de forma realista (KRUSHKE, 2013; MCELREATH, 2020).</p>
      <p id="paragraph-f8b0e111d40988a2da95b18ddadbe104" />
      <sec id="heading-0e9e2f8486599401a458f71d1a537bc9">
        <title>1.1 Amostragem do <italic id="italic-9addb4b1be93b01b770e52a25c7227d8">a posteriori</italic></title>
        <p id="paragraph-8a909c1db2051b3510c1ec533a532715">Felizmente, em vez de calcularmos P(H|E) analiticamente, utilizamos algoritmos que compilam amostras <italic id="italic-5732083b447b47b16625b93579663000">a posteriori</italic>. O princípio de amostragem é essencial para tornar a análise de dados em Bayes possível: em vez de lidarmos com a matemática, lidamos com amostras. Um método bastante utilizado de amostragem é o Markov Chain Monte Carlo, ou MCMC. Markov Chain é um método estocástico que consiste em uma cadeia onde a probabilidade de um evento <italic id="italic-6e015fa31eb3e0bd7d0904b61ce24201">n </italic>depende apenas da probabilidade do evento <italic id="italic-a93be0962c6af1d5e7455a6ee6b08045">n </italic>– 1. O modelo que utilizaremos neste artigo é baseado em um método mais recente chamado de Hamiltonian Monte Carlo, ou HMC.<xref id="xref-adef5e914e10f1c5b286ea96ef174190" ref-type="fn" rid="footnote-7b806313ae67e041aa240ad52f6c59a1">3</xref></p>
        <p id="paragraph-27063b8352e38d19636a1cb9feab7405">Os detalhes desses algoritmos de amostragem são bastante complexos e fogem do escopo deste artigo<xref id="xref-214127f5c2515caa1f45f9992ce3e1bb" ref-type="fn" rid="footnote-84afc3265513ab38eac5191182f11f76">4</xref>. Contudo, para entendermos intuitivamente o funcionamento do algoritmo MCMC, por exemplo, podemos pensar em uma “caminhada” aleatória no espaço de possíveis valores de parâmetros plausíveis. Vamos entender o que isso significa com um exemplo simples. </p>
        <p id="paragraph-2e63c47a9ea65d4bfc7650aadc293965">Imagine novamente os grupos A e B do exemplo anterior. Coletamos alguns dados, como notas em um teste, e queremos saber se os grupos são diferentes. Ou seja, o parâmetro que mais nos interessa é a diferença das médias das notas das populações A e B, ou seja . Naturalmente, essa diferença real (desconhecida) pode ser qualquer número racional . O algoritmo escolhe um valor candidato e calcula a probabilidade desse valor considerando-se os dados do experimento—seguindo o teorema de Bayes discutido acima. Em seguida, o algoritmo escolhe outro valor e faz o mesmo cálculo. A decisão de ir do primeiro para o segundo valor é a chave do algoritmo. Ao final de uma longa caminhada, em que um alto número de valores é considerado, teremos uma cadeia de valores plausíveis e podemos criar um histograma para verificar a distribuição dos valores mais confiáveis a partir dos dados que temos, ou seja, P(H|E), o nosso <italic id="italic-7ea268e9cae29e615db10d3e7e2b7ac7">a posteriori</italic>. Quanto mais provável for um dado valor, mais vezes o algoritmo visitará esse valor (o mesmo pode ser dito sobre valores bastante próximos ao valor em questão). Consequentemente, os valores mais frequentes nessa caminhada aleatória são os valores mais prováveis para , nosso efeito de interesse. A figura 1 ilustra essa distribuição. Como a distribuição <italic id="italic-5a4d267e03a74e30cff84719aa59044d">a posteriori </italic>neste caso segue uma distribuição normal, podemos utilizar a média dessa distribuição como “valor simbólico representativo” do efeito em questão, mas sem nenhum impedimento para que se utilize a mediana ou a moda, por exemplo. Neste caso, o valor mais provável para a diferença de médias entre A e B é aproximadamente 7—linha pontilhada na figura. Note que esse valor está bastante longe de zero. De fato, a distribuição inteira está acima de zero, o que nos mostra que há uma diferença positiva entre os grupos neste caso: o grupo A tem uma média superior à do grupo B, portanto.</p>
        <fig id="figure-panel-a13b2cd7b565f35489968cd98b594054">
          <label>Figure 4</label>
          <caption>
            <title>FIGURA 1 – Distribuição <italic id="italic-c8bc2bd03183914d1cca3dd847615f9f">a posteriori </italic>para                                                   </title>
            <p id="paragraph-45ba7f60be0ea982256056c309386ed6" />
          </caption>
          <graphic id="graphic-0933a257b299f0312db8953630f400a0" mimetype="image" mime-subtype="jpeg" xlink:href="Figura 1.jpg" />
        </fig>
        <p id="paragraph-4335c70c600675fa32b52d2dc572af94"> Em uma análise frequentista, poderíamos rodar um teste <italic id="italic-1b36b9ba4c0125c4021cfda5b6ca766f">t</italic> e encontraríamos um valor de <italic id="italic-26e241f806d58186449c1b72104963b7">p </italic>abaixo de 0,05. Lembre-se, no entanto, de que valores de <italic id="italic-a9d72de4d506ea0e80599fdc52efba64">p </italic>nos dão a probabilidade dos dados a partir de uma hipótese nula. Nosso <italic id="italic-8bd3d366a4b553ad1c7f291df079d296">a posteriori</italic>, por outro lado, nos dá a probabilidade de um efeito com base nos dados. Consequentemente, não veremos valores de <italic id="italic-905235fb28add2d0e713636e057f371b">p </italic>em uma análise bayesiana. Além disso, no resultado de nosso teste <italic id="italic-8c6933b85c105b7b3233e1e109b8339d">t</italic>, teríamos <italic id="italic-20a65f7821df9f604264fdb071412361">um único valor </italic>para a diferença das duas amostras, uma estimativa pontual (<italic id="italic-8292f5519bb121568a3f9dbf7c2c497e">point estimate</italic>). Uma análise em Bayes, por outro lado, nos proporciona uma distribuição de efeitos plausíveis (de diferenças entre A e B neste caso). A diferença real entre A e B pode ser qualquer valor da distribuição <italic id="italic-3ca537f66f001f8f2797c4d708a76707">a posteriori</italic>, sendo que os valores mais frequentes (neste caso, aqueles mais ao centro da distribuição da figura 1, por exemplo) são os mais prováveis. O resultado da análise bayesiana adiciona uma camada de incerteza ao resultado, algo desejável ao se inferir parâmetros desconhecidos da população com base em uma amostra.</p>
        <p id="paragraph-439adf921335706259b0520e4095e262">Por fim, um teste <italic id="italic-10">t </italic>geraria um intervalo de confiança. Na figura 1, poderíamos facilmente gerar um intervalo de credibilidade cuja interpretação seria bastante intuitiva: valores mais próximos do centro de tal intervalo são mais prováveis do que valores às margens desse intervalo—algo que não podemos concluir a partir de intervalos de confiança tradicionais, uma vez que não são distribuições.<xref id="xref-9328339a6fbca3e1549e84856daba1f7" ref-type="fn" rid="footnote-e5e3c58f9705cf7f033673f70b428360">5</xref> Ou seja, nossa distribuição <italic id="italic-11">a posteriori</italic> nos proporciona um intervalo que consiste em uma distribuição de probabilidades.</p>
        <p id="paragraph-0b13354f15d176adf5982e7a3b9ad37e">Na comparação acima, utilizamos testes <italic id="italic-12">t </italic>como referência. Naturalmente, podemos efetuar um procedimento equivalente utilizando Bayes (e.g., KRUSHKE, 2013). Ao longo deste artigo, não utilizaremos testes <italic id="italic-13">t</italic>, já que há métodos muito superiores para analisarmos respostas contínuas. Nosso exemplo será uma regressão linear, que nos ajudará a entender diferenças importantes sobre como rodamos modelos e interpretamos resultados em estatística bayesiana.</p>
        <p id="paragraph-449adf5f620ddb8059a92e6f29ffc237" />
      </sec>
    </sec>
    <sec id="heading-398744c7927e34a1f5e8f4b53599cd1f">
      <title>2. Por que migrar para uma análise bayesiana?</title>
      <p id="paragraph-674eb603eecd5a4ed4e2b7ee2d812168">Existem diversas razões por que deveríamos migrar de uma análise frequentista para uma análise bayesiana. Primeiramente, como vimos acima, o teorema de Bayes nos dá probabilidades sobre hipóteses, e não sobre dados. Ou seja, temos P(H|E) e não P(E|H). A probabilidade de um efeito é quase sempre mais relevante do que a probabilidade de um dado. Afinal, coletamos dados com o intuito de descobrirmos um efeito. Conceitualmente, portanto, Bayes nos proporciona um resultado mais relevante.</p>
      <p id="paragraph-c96f0864f47c21dc1b2828e1f16b5b6f">Uma consequência importantíssima de acessarmos P(H|E) e não P(E|H) é o abandono de valores de <italic id="italic-d2254d33e874a84b2866606ba977ae95">p</italic>. Há uma literatura bastante ampla sobre os problemas inerentes ao foco em significância estatística (e.g., NUZZO, 2014; ver também o capítulo 11 de Kruschke, 2015). Lima Jr. e Garcia (2021), por exemplo, demonstram como as intenções de um pesquisador podem afetar a significância estatística quando temos comparações múltiplas. De fato, um grande problema conceitual sobre valores de <italic id="italic-98c8d228bacd821048c3d2cdb768ed66">p </italic>é sua natureza simplista e binária: a ideia de que efeitos “existem ou não existem” é bastante ingênua quando temos acesso limitado a dados e quando nosso desenho experimental está longe da perfeição. Uma análise em Bayes nos fornece mais nuance, e é, portanto, muito mais realista e apropriada às complexidades envolvidas em análise de dados.</p>
      <p id="paragraph-28f9d8bbdbdb88cfd4fa2bccfe01718f">Em segundo lugar, uma análise bayesiana nos fornece uma fotografia muito mais completa sobre os efeitos de interesse, uma vez que temos acesso a uma distribuição <italic id="italic-8729e9c3587a2cdde98a9124876ad490">a posteriori</italic> de efeitos plausíveis, como mencionado acima. Ou seja, em vez de termos apenas um valor (estimativa pontual) para um dado efeito, temos uma distribuição inteira. Uma consequência adicional dessa distribuição é a facilidade com que definimos e interpretamos intervalos de credibilidade—algo que veremos em mais detalhe abaixo. Essa facilidade de interpretação é uma vantagem adicional de modelos bayesianos, embora possuam uma implementação computacionalmente muito mais complexa.</p>
      <p id="paragraph-a2d8776a34eed18db1f638b53436b8b6">Uma terceira grande vantagem de modelos bayesianos é o alto poder de personalização oferecido. Se temos dados que seguem uma distribuição não normal, podemos configurar nosso modelo com diferentes distribuições (<italic id="italic-16b40e2acc95d3f48f41abb5614f9d1f">t</italic>, por exemplo). Naturalmente, customizar um modelo exige um conhecimento relativamente avançado de estatística. Podemos traçar um paralelo entre modelos bayesianos e fotografia: uma câmera profissional quase sempre oferece os melhores resultados em seu modo manual, que exige maior conhecimento por parte de quem utiliza a câmera. Contudo, uma câmera profissional também possui um modo automático e fácil, que já proporcionará bons resultados na maioria das situações. Da mesma forma, podemos utilizar modelos em Bayes no seu “modo automático”. Embora deixemos de utilizar todo o potencial desses modelos, nossos resultados ainda se beneficiarão das vantagens discutidas acima.</p>
      <p id="paragraph-95a333300b40b4ed0b9789beeff4369c">Em quarto lugar, modelos bayesianos são muito mais robustos quando o assunto é convergência, algo que pode ser um problema em modelos tradicionais frequentistas, especialmente quando possuem uma estrutura mais complexa—comum em modelos de efeitos mistos. Por mais complexo que um modelo bayesiano seja, se sua especificação for adequada, ele convergirá—basta esperarmos a compilação e amostragem terminarem.</p>
      <p id="paragraph-94cd768599ef550dc590ad7927e218da">Em quinto lugar, como mencionamos acima, modelos bayesianos permitem que incorporemos nosso conhecimento de área em nossas análises estatísticas a partir de distribuições <italic id="italic-80170584fb2ae9bfd18c5d40d55e9297">a priori—</italic>lembre-se do exemplo do voo AF 447. A possibilidade de unirmos teoria e análise estatística abre um leque riquíssimo de estudos. Por exemplo, em aquisição de segunda língua, sabemos que aprendizes não começam do zero, e que dependem em parte de suas gramáticas nativas. Um modelo tradicional é incapaz de incorporar esse fato em sua análise. Em Garcia (2020), por exemplo, distribuições <italic id="italic-979bfe31a11a0242161b1a2b45d34bc5">a priori </italic>informativas são utilizadas na simulação de diferentes premissas teóricas na transferência de padrões fonológicos entre primeira e segunda línguas. Naturalmente, você pode escolher não utilizar uma distribuição <italic id="italic-f739c06fe953a479434b9def5821ecc3">a priori </italic>informada. O modelo simplesmente utilizará um <italic id="italic-7fea87910410ba7982fa91625a8b6cb6">a priori </italic>bastante vago, e seus resultados serão relativamente similares àqueles que você teria em uma análise frequentista equivalente—é isso que mostraremos abaixo. Exemplos com diferentes distribuições <italic id="italic-91abaf1211a9f3b252bd711df03d8b83">a priori </italic>aplicados a dados linguísticos podem ser vistos em Garcia (2020; 2021) e Arantes e Lima Jr. (2021).</p>
      <p id="paragraph-181bc4bc9a89e25e1599de864a949df6">Por fim, modelos bayesianos têm a vantagem de lidar bem com dados ausentes ou com dados desbalanceados, quando há quantidade diferente de dados para participantes ou grupos. Infelizmente, um tratamento comum para casos de dados ausentes ou desbalanceados acaba sendo a exclusão parcial ou total dos dados de certos participantes (BARKAOUI, 2014), algo que não precisa ser feito, já que esses dados podem trazer informações importantes para o modelo. McElreath (2020) dedica um capítulo inteiro (capítulo 15) sobre como lidar com dados ausentes de maneira bayesiana.</p>
      <p id="paragraph-8003def4f0a1688b79a3092ed75b3b14">Reconhecemos que as vantagens acima têm um custo. É preciso entender as desvantagens envolvidas na utilização de modelos em Bayes. Por exemplo, há uma curva acentuada de aprendizado, uma vez que há aspectos conceituais e técnicos que são distintos de análises frequentistas. Além disso, estimar efeitos usando amostragens do <italic id="italic-de64565df74b4cbe176aa6aea4b0f52a">a posteriori </italic>é um processo computacionalmente exigente, o que demandará mais tempo de processamento, especialmente para modelos de efeitos mistos mais complexos—não é raro que um modelo em Bayes leve uma hora ou mais para rodar. </p>
      <p id="paragraph-088322ba33505b58283784235218f5aa">Pesquisadores que utilizarem métodos bayesianos em linguística também precisarão lidar com pareceristas que, muitas vezes, não estarão familiarizados com o método. Em muitos casos, haverá desconfiança sobre distribuições <italic id="italic-5e92d2ff50493a21ad5cb82f936629b2">a priori </italic>informativas e sobre a ausência de valores de <italic id="italic-f953d933bc2f2a9b8d5eb3c0a5d78791">p</italic>. O argumento costuma ser o seguinte: se podemos escolher a distribuição <italic id="italic-551e40235a78cf2951c5afe52d311dbc">a priori</italic>, e se sabemos que nossos resultados podem consequentemente ser afetados, uma escolha informada de distribuição <italic id="italic-814589a638794c991a23a64f2610097d">a priori </italic>pode enviesar nossos resultados a favor do argumento feito pelo estudo em questão. </p>
      <p id="paragraph-a5364cee4bc3dd8ec970bbd3124d9ed7">A crítica acima está embasada em algo real: de fato, se escolhermos uma distribuição alinhada com os resultados que desejamos, e se utilizarmos um desvio-padrão minúsculo para essa distribuição, certamente nossas conclusões serão basicamente a imagem de nossas expectativas. Essa relação faz sentido, e é bastante conhecida: se acreditamos cegamente em algo, nenhuma evidência nos fará mudar de ideia. Ou seja, se o nosso <italic id="italic-69e18d311f2070a6896efba1caf32882">a priori</italic> for absolutamente intransigente, nossos dados serão virtualmente irrelevantes: nosso <italic id="italic-09b955226ecec49f48fb0405f85c5e63">a posteriori </italic>simplesmente imitará nosso <italic id="italic-eb5eb13529df7b4944f87b985f616992">a priori. </italic>O problema, contudo, é que nenhum <italic id="italic-14">a priori </italic>é escolhido com base em nossa própria vontade (GELMAN, 2008), e essa aparente subjetividade sem critérios é um exemplo da famosa falácia do espantalho. </p>
      <p id="paragraph-8545e530ef12a96663ca84b912fd9a8e">Além disso, modelos frequentistas também trazem expectativas <italic id="italic-c924d4d1d809340adb9777b986d336a5">a priori</italic>. Neles, entretanto, todos os valores dos parâmetros são igualmente prováveis a priori. Em uma análise da diferença de altura entre homens e mulheres, por exemplo, um modelo frequentista parte do <italic id="italic-dcee6170f6a827330be1ce107ac55134">a</italic> <italic id="italic-b8fe27dbb274fb038cc6f18402276f99">priori</italic> de que uma diferença de 3 km é tão provável quanto uma diferença de 10 centímetros ou de 1 milímetro (BÜRKNER, 2018a). Em dados linguísticos, modelos frequentistas iniciam suas análises com a expectativa de que tempos de reação de identificação lexical de 500 milissegundos e de 3 minutos são igualmente prováveis; ou que diferenças de 1, 30 ou 90 pontos entre dois grupos em um exame de proficiência são igualmente prováveis.</p>
      <p id="paragraph-38f8767353fefb1157c3327b596be27f">Em ciência, todo e qualquer estudo está embasado em estudos anteriores—essa cumulatividade de conhecimento está no cerne do fazer científico. A possibilidade de incorporarmos conhecimento de área em nossos modelos a partir de distribuições <italic id="italic-f47d8bd56d7285486f209953ee6fdbd3">a priori </italic>informadas é, portanto, uma característica não apenas desejável, mas essencial a qualquer estudo. Evidentemente, a escolha de distribuições <italic id="italic-92ed97937bc3d1f883be48f6a4476616">a priori</italic> precisa ser criteriosa e estar embasada no corpo de conhecimento de área a partir de estudos anteriores, que alimentarão, assim, estudos atuais e futuros.</p>
      <p id="paragraph-7882ecff358115eae6d98ccaea052b53" />
    </sec>
    <sec id="heading-211b2f52b28cce556ad0729937e27ac3">
      <title>3. Demonstração em R</title>
      <sec id="heading-f501559dacf1559730e343a5cf55e294">
        <title>3.1. Pacotes</title>
        <p id="paragraph-1">Para rodarmos modelos bayesianos em R utilizaremos indiretamente uma linguagem chamada Stan, que foi criada para a implementação de modelos bayesianos (CARPENTER et al., 2017). Faremos isso a partir de um pacote que “traduz” para Stan as especificações de modelos já familiares em R. Antes de prosseguirmos, portanto, você precisará instalar o pacote brms (BÜRKNER, 2018b), que, por sua vez, instalará alguns pacotes adicionais necessários<xref id="xref-6878059da772063c73bf8990105d5291" ref-type="fn" rid="footnote-fbe5d96e00ecf1929846d5062c64bb3a">6</xref>. Também será necessário instalar o pacote languageR (BAAYEN, 2007), que contém os dados danish, que utilizaremos abaixo—os mesmos dados utilizados em Lima Jr. e Garcia (2021). Por fim, também usaremos o pacote tidyverse (WICKHAM et al., 2019), que você já deve ter instalado se utiliza R em suas análises de dados.</p>
        <p id="paragraph-88a9f3d791cca111f352b4e44a792784" />
      </sec>
      <sec id="heading-b0218f519383023a4e40993d1a259242">
        <title>3.2. Exemplo de modelo bayesiano em R</title>
        <sec id="heading-1347ce7257c240db85d626baf7b6a75d">
          <title>3.2.1. Importando, simplificando, e visualizando os dados</title>
          <p id="paragraph-dd60c9b87e32d782ce561651b84a014b">Primeiramente, carregaremos os pacotes e os dados mencionados acima (linhas 1–3 do quadro 1). Os dados em questão vêm de uma tarefa de decisão lexical do dinamarquês. Nos dados, temos diferentes sufixos. Em seguida, a fim de tornar nossa demonstração comparável a Lima Jr. e Garcia (2021), simplificaremos o número de variáveis (linhas 4–6) e filtraremos nossos dados para que tenhamos apenas cinco sufixos: “bar”, “ende”, “ede”, “ere”, e “lig” (linhas 7–8).</p>
          <fig id="figure-panel-2f60898d8807522e07111093eb5226b8">
            <label>Figure 5</label>
            <caption>
              <title>QUADRO 1 - Linhas de comando para carregar pacotes, carregar e filtrar os dados a serem analisados.</title>
              <p id="paragraph-bf8f675a1fa6ba14cf229d3dff073ac2" />
            </caption>
            <graphic id="graphic-5615eec2df8d21a6707ab2bf58e9ebba" mimetype="image" mime-subtype="png" xlink:href="Quadro 1.png" />
          </fig>
          <p id="paragraph-764b7b89f850a1773db07ea3811411d1"> Em nossa análise, queremos descobrir se diferentes afixos afetam o tempo de reação dos participantes. Mais importante do que definirmos se há um efeito ou não é quantificarmos o <italic id="italic-e0afd4692dd54b9f69c201b9fd9cd0a6">tamanho do efeito </italic>de cada sufixo relativo a um nível de referência. Como sabemos, o nível de referência de um dado fator em uma regressão linear é escolhido alfabeticamente ao rodarmos um modelo—esse nível pode ser facilmente alterado, mas não entraremos nessa discussão aqui. Aqui, portanto, todos os sufixos serão comparados a “bar”. Naturalmente, poderíamos alterar esse nível, mas nenhuma escolha será mais justificável ou menos arbitrária do que “bar” para o exemplo de análise a seguir. </p>
          <fig id="figure-panel-8aaa165e07ca4d0af1a4f3967cce808f">
            <label>Figure 6</label>
            <caption>
              <title>FIGURA 2 – Tempo de reação (log) para palavras com diferentes sufixos. A barra de erro em preto no interior de cada distribuição representa o erro-padrão.</title>
              <p id="paragraph-64735415e7b5a9572f153eb24e88fc19" />
            </caption>
            <graphic id="graphic-6c5432e63d6c8fb1d1dd8b36c1f15a72" mimetype="image" mime-subtype="jpeg" xlink:href="Figura 2.jpg" />
          </fig>
          <p id="paragraph-09e629ef5630510370696254cd6ec561">A figura 2<xref id="xref-c87f320c7035417f789b6178f532c2f9" ref-type="fn" rid="footnote-95cdbeb041060a5185969261d0adeb00">7</xref> apresenta três informações sobre os sufixos com base nos tempos de reação dos participantes (em escala logarítmica para reduzir a assimetria das caudas em uma típica distribuição de tempos de reação). Temos a dispersão dos dados (círculos cinzas semitransparentes), a distribuição dos dados (em laranja), e o erro-padrão de cada sufixo (pequena barra preta no interior de cada distribuição). Esse tipo de visualização permite uma checagem visual rápida sobre o grau de normalidade dos dados e, é claro, sobre qualquer possível efeito (ou diferença) dos sufixos em questão. Com base na inspeção visual dos erros-padrão, podemos prever um efeito de sufixo, dada a distância entre “lig” e “ende” — o gráfico ordena os sufixos em ordem crescente de média de tempo de reação com o uso do argumento fct_reorder.</p>
          <p id="paragraph-fb15897ab32c773303ae5f32a90a3c22" />
        </sec>
        <sec id="heading-43bd1b3d07c0bb3a7f4d384ee9ca5655">
          <title>3.2.2. Rodando uma regressão linear bayesiana</title>
          <p id="paragraph-3f53c763d0d1160393fe725f4080fd64">Teoricamente, para rodarmos uma regressão linear em Stan, precisaríamos aprender a linguagem Stan, que possui uma sintaxe otimizada para modelos estatísticos—veja exemplo no apêndice, quadro A1. Contudo, graças a pacotes como brms, não precisamos definir manualmente nossos modelos com Stan. Em vez de escrevermos um modelo como no quadro A1, simplesmente usaremos a conhecida sintaxe de regressões em R: y ~ x. Ou seja, do ponto de vista técnico, você precisa de muito pouco para conseguir rodar um modelo em Bayes nos dias de hoje—desde que você já esteja familiarizado com regressões e R.</p>
          <p id="paragraph-abac732fe6b85b4544c513ba72cfd32f">O modelo que rodaremos, diferentemente do exemplo do quadro A1, tem um preditor categórico. Ou seja, não estamos diante de . Estamos diante de , em que cada representa um de nossos sufixos e representa nosso nível de referência, “bar”. O princípio, é claro, é exatamente o mesmo, embora <italic id="italic-7c05b95080e2ed352c41c65a861d054b">x </italic>aqui possa representar apenas 0 ou 1. </p>
          <fig id="figure-panel-4478376784db6a769926e58523e98ea3">
            <label>Figure 7</label>
            <caption>
              <title>QUADRO 2 – Regressão linear com Stan via brms.</title>
              <p id="paragraph-10f6802bfde3d98d3209cf9991700df5" />
            </caption>
            <graphic id="graphic-2c90c2866ac3c857b8d1f6adda1576cc" mimetype="image" mime-subtype="png" xlink:href="Quadro 2.png" />
          </fig>
          <p id="paragraph-55fa3d01f7eff5f671b90b986db91202">No quadro 2, rodamos nossa regressão com a função brm(). Utilizamos essa função para rodar <italic id="italic-a479e8d585f09791ca08dbc0fabb8967">qualquer modelo </italic>com o pacote em questão (regressões linear, logística, ordinal etc.), inclusive versões com efeitos mistos utilizando a mesma sintaxe que já usamos em modelos frequentistas. O que especifica o tipo de modelo que estamos rodando está no argumento family, que em uma regressão linear tradicional será definido como “Gaussian”, e em uma regressão robusta será definido como “student” (para a distribuição <italic id="italic-a3eb8c0c467efa51e0564fb85eafebc6">t</italic>)<xref id="xref-cb220a91b7b45aed7f0f51bf5f22d006" ref-type="fn" rid="footnote-ad9d5ed1f0c2dc668187345d2d347134">8</xref>. Perceba que o “coração” do modelo é apenas LogRT ~ Affix, que é bastante familiar. Em seguida, estipulamos o número de núcleos que desejamos utilizar com o argumento cores: como dissemos acima, modelos em Bayes são computacionalmente intensos, e fazer uso de múltiplos núcleos ajuda consideravelmente a acelerar o processo de amostragem. A maioria dos computadores atuais tem pelo menos 4 núcleos, e rodar um script com 4 núcleos em um computador com menos núcleos não causará nenhum problema. Alternativamente, pode-se substituir a linha 27 por mc.cores = parallel::detectCores()-1,<xref id="xref-7d996722aafd1c50c2add45f6ede5608" ref-type="fn" rid="footnote-941bd37e75da1aeb687da16b17b62bd0">9</xref> para garantir que apenas um núcleo não seja utilizado. </p>
          <p id="paragraph-8a73f8fac80bfaeddd2b232fc7bd73e4">Em seguida, definimos quantas cadeias desejamos (<italic id="italic-b20194453062850650126b15b7786003">default</italic> = 4). Lembre-se de que nosso modelo está realizando uma “caminhada” aleatória no espaço de parâmetros mais plausíveis. Como saber se uma caminhada acabou chegando aonde deveria? Simples: realizamos múltiplas caminhadas simultaneamente. Se elas atingirem aproximadamente o mesmo espaço, nosso modelo convergiu com sucesso e temos estimativas confiáveis. Por essa razão, precisamos de, pelo menos, <italic id="italic-ae0f37a82150be782ef13d29bd056d1b">duas </italic>cadeias. Aqui, utilizamos quatro, o valor padrão (ou seja, cada núcleo será responsável por uma cadeia, otimizando o processo como um todo). Por fim, salvamos nosso modelo em um arquivo Stan. Você pode abrir o arquivo mais tarde no próprio RStudio para verificar o grau de complexidade da especificação via Stan, traduzida pelo pacote brms. Existem diversos outros argumentos que podem ser passados à função brm(), especialmente priors, onde podemos especificar nossas expectativas sobre parâmetros de interesse, mas naturalmente não teremos espaço neste artigo para explorarmos todos.</p>
          <p id="paragraph-d2a5b3eaf1a847d63f94b6161278c7cc">Após rodarmos as linhas 25–28, a primeira grande diferença perceptível será o tempo necessário até que o modelo termine de compilar e de amostrar o <italic id="italic-ab255d7a3eb01991a290361f6ff4e49a">a posteriori</italic>. Regressões frequentistas sem efeitos mistos rodam instantaneamente em praticamente qualquer computador nos dias de hoje. Uma regressão simples em Bayes, contudo, não será instantânea, e poderá levar até alguns minutos dependendo do seu computador. </p>
          <p id="paragraph-7fecb0cf89a8be6c3e9f2b827db51822">Quando o modelo estiver concluído, podemos simplesmente rodar fit para termos acesso ao output (i.e., não é necessário utilizar a função summary()). O quadro 4 traz o output completo do nosso modelo. Em “Samples”, vemos que o modelo possui quatro cadeias, cada uma com 2.000 iterações, sendo 1.000 delas iterações de <italic id="italic-98aea70aa2f89b8145e2765f5d03a9b2">warmup</italic>. Pense nas iterações como “passos” que cada cadeia dará na caminhada aleatória em busca dos valores mais plausíveis para nossos parâmetros. Ou seja, desejamos 2.000 amostras do <italic id="italic-cb8533e46da150664df6ea76e0b2582b">a posteriori</italic> de cada cadeia. O modelo automaticamente inclui <italic id="italic-d55bb8e107d6ed6a64efaa5e14c7adca">warm-up </italic>e <italic id="italic-7d2ad4750c7ccd4d84b97409eaeff10a">thinning</italic>, e apenas amostras tiradas <italic id="italic-ff60c0cffc587c10ca29d0723aea0acc">após </italic>ambos os processos são consideradas. Cada cadeia precisa de um certo tempo até que se aproxime dos valores de parâmetros mais estáveis (i.e., plausíveis)—esse tempo é chamado de <italic id="italic-b07b34cc329abd044d7f07eb94354676">warm-up</italic>. Sendo assim, é recomendável que não sejam consideradas as amostras iniciais das cadeias (neste caso, as primeiras 1.000 são ignoradas). Como temos quatro cadeias, teremos um total de 4.000 amostras válidas (<italic id="italic-a85005d6687a5950ddc0a3a169a52daf">post warm-up samples</italic>). Além disso, a amostra <italic id="italic-f825fcbe11088b0bc3564e98398509b2">n+</italic>1 é tipicamente correlacionada com a amostra <italic id="italic-4b3a8b7da61a2d18c2a159bb5ddd5397">n</italic>. Para reduzir esse grau de autocorrelação, podemos “pular” um número <italic id="italic-7470f9b652ce17e4574be30eaacc67ee">x </italic>de amostras. Esse processo é chamado de <italic id="italic-9f3ed58cac29ee62d1ef3edbd6ed8808">thinning</italic>. Para o presente exemplo, utilizamos os valores <italic id="italic-1495fdac3ef35ef7817bced229339980">default </italic>para ambos os processos. <italic id="italic-f7330d411aa3a44601637fcb78744d48"/></p>
          <fig id="figure-panel-d983aeec4b785f403ee3f9cab97f23c6">
            <label>Figure 8</label>
            <caption>
              <title>QUADRO 3 – Output de regressão linear em Bayes.</title>
              <p id="paragraph-f19b9c43f65e781dcb261d8e0797cd00" />
            </caption>
            <graphic id="graphic-da6f42fc3d58a5941537cd3ee2630239" mimetype="image" mime-subtype="png" xlink:href="Quadro 3.png" />
          </fig>
          <p id="paragraph-8aa6f57d953395db7cf06271cb72f9f4">O principal componente de nosso output está em <italic id="italic-51a4812702eda4b06d355021951dcfa5">Population-Level Effects</italic>, que são relativamente familiares a quem já rodou regressões frequentistas—a coluna <italic id="italic-31403ee9b9965af763fd269f0395aad9">Est.error</italic> representa o desvio-padrão do <italic id="italic-7008f8c09918b058045f09a5013c2689">a posteriori</italic>. A diferença, naturalmente, é que não temos valores de <italic id="italic-53007036119a770fe211a679cde90a61">p</italic>, mas temos (“Rhat” no <italic id="italic-be5d2a5efb829464c0b07c3f23fc1eb3">output</italic>), também conhecido como diagnóstico de Gelman-Rubin, e duas colunas para ESS (<italic id="italic-85272e20926b3b162b89345e7c932e94">Effective Sample Size</italic>). Idealmente, precisamos de um , que indica convergência do modelo–valores acima de 1 indicam a não convergência. As colunas para ESS simplesmente nos mostram quantas amostras reais (pós <italic id="italic-fdad514a969772282f5bbfb8dc3b9132">warmup</italic>/<italic id="italic-240310ab0e870a3f7cb29040850780f2">thinning</italic>) o modelo conseguiu extrair do <italic id="italic-cd007a0c02491b746d95ccb7efe736d9">a posteriori </italic>após levarmos em conta que algumas amostras estão autocorrelacionadas e, portanto, são menos/pouco informativas.<xref id="xref-c51e7847c9b11c1be81d054f92589c52" ref-type="fn" rid="footnote-27122a5fdc3ce6c642211f12363cc53b">10</xref> Não há um número mágico que devemos almejar para ESS: quanto maior, melhor, pois teremos mais amostras. Diferentes autores recomendarão diferentes valores, dependendo dos dados e do modelo que temos em mãos, mas é seguro dizer que qualquer valor acima de 1.000 é um “bom valor”—independente do número de iterações ou cadeias utilizado no modelo. </p>
          <p id="paragraph-a4bab53bfb86824ec3c39ae41789383c">Como em regressões frequentistas, nosso modelo estima os coeficientes de interesse assim como seus desvios-padrão. Ao contrário de modelos frequentistas, que informam intervalos de 95% de confiança, o nosso modelo informa intervalos de 95% de credibilidade, em l-95% CI (<italic id="italic-948fb118557bf2aeb613fdb0d3fee6d6">lower 95% credible interval</italic>) e u-95% CI (<italic id="italic-4377f0179cb769b35b46ba20fa703307">upper 95% credible interval</italic>). Esse intervalo contém os valores mais prováveis para o parâmetro em questão, e é comumente chamado de <italic id="italic-4953aec0560ef25aff750fdf1271a111">highest density interval</italic>, ou HDI. Por exemplo, o nosso <italic id="italic-4b4b372f67f490d9dce507dbd545b6b8">intercept</italic> de valor indica que 6,8 é o valor mais provável do tempo de reação (em escala log(ms)) para palavras com “bar”, sendo que o valor real desse parâmetro tem 95% de probabilidade de estar entre 6,77 (l-95% CI) e 6,82 (u-95% CI), mas com maior probabilidade dos valores mais próximos a 6,8. Semelhantemente, o afixo “ede” tem um tempo de reação menor que o de “bar”, com 95% de probabilidade de ser entre 0,01 e 0,09 menor, com valores mais próximos a sendo os mais prováveis. Interpretaremos os resultados em maior detalhe a seguir. Por fim, em <italic id="italic-4c14156ba5ed1bd753e005abdcfb470f">Family Specific Parameters</italic>, temos a estimativa de <italic id="italic-15">sigma</italic>, isto é, o desvio-padrão do <italic id="italic-16">a posteriori </italic>de nossa variável resposta (tempo de reação).</p>
          <p id="paragraph-da6be31621872da21b018cc4d2ad6522" />
        </sec>
      </sec>
      <sec id="heading-70fc613272fbae8a6f6dd476caab671c">
        <title>3.3. Interpretando e reportando resultados</title>
        <p id="paragraph-ac4601ac79710c26a7c44c24fe71fe85">A melhor maneira de olharmos para os resultados de um modelo em Bayes é visualizarmos nossos <italic id="italic-e8bc942cc79137ce5b4c7f60ff6c4266">a posteriori</italic>. Antes de fazermos isso, contudo, você deve estar se perguntando como é possível definir se um resultado é estatisticamente plausível ou não (não usamos a palavra “significativo” aqui, uma vez que não temos valores de <italic id="italic-f988ef0374fc6725206d56e625b33f86">p</italic>). Uma maneira simplista e categórica de concluirmos que efeitos são reais envolve verificar se nosso intervalo de credibilidade inclui 0. Por exemplo, o resultado de “ede” é . Aqui, representa a <italic id="italic-1b07782fcc1bbbdf773fb4462ea3255d">média </italic>do <italic id="italic-9f584a8e010f19c974d273c0d3250331">a posteriori</italic> para esse sufixo (relativo ao sufixo “bar”), e seu HDI <italic id="italic-93d0af0216f73fee692af67eebd80863">não inclui</italic> zero. Portanto, concluímos que “ede” é estatisticamente diferente de “bar” no que diz respeito aos tempos de reação que elicita nos participantes. É importante lembrarmos que 95% é um valor <italic id="italic-f5c7d51234c338a4c08b4f96b79dffe5">arbitrário</italic>, e qualquer outro valor seria igualmente justificável para um intervalo. McElreath (2020), por exemplo, utiliza em seu livro, em seus estudos e em seu rethinking package um intervalo de 89%. A justificativa é ser um número primo, motivo tão arbitrário quanto os 95%. A função summary(..., prob = 0.95, ...) permite alterar o intervalo padrão. Também é possível alterar esse valor nas diferentes técnicas de visualização de distribuições <italic id="italic-c36ec72fa983b9c013eeaa82a9a181b6">a posteriori</italic>, assim como nas diferentes formas de avaliar as amostras do <italic id="italic-ddde4a7abd4660626bc88e5e459b8fc1">a posteriori</italic>.</p>
        <p id="paragraph-4474e61c1e96ba7ba8b8226db2f6e7ad">A interpretação acima não está errada, mas é simplista demais, e tenta trazer à análise bayesiana uma maneira frequentista de interpretar resultados: queremos uma resposta categórica. O problema é que, diferentemente de intervalos de confiança, HDIs são distribuições. Ou seja, um zero contido em uma cauda da distribuição é bastante diferente de um zero no centro dessa mesma distribuição. É preciso, portanto, averiguar <italic id="italic-f20b95e91a7c96a1c291f6360f0308bf">onde </italic>o valor zero está na distribuição. Assim, podemos saber o quão plausível é supor um efeito nulo considerando os dados que temos em mãos. Tudo isso reforça a necessidade de <italic id="italic-2786e1c0c2dddc61c6c655cc125a446e">visualizarmos </italic>nossos resultados.</p>
        <p id="paragraph-21b819b76072c7e9655cd02f9e1cb0ea">Primeiramente, verificaremos a convergência do modelo em questão a partir de um gráfico de traços (também conhecido como gráfico de lagartas). Queremos averiguar se todas as quatro cadeias “concordam” ao chegarem no valor mais plausível para cada um de nossos quatro parâmetros, neste caso os sufixos (além do <italic id="italic-26368f4c4cf08dbfac6e3980c4d206df">intercept</italic>). No eixo <italic id="italic-8c07c4679de96b3106a05ed292361ca6">x </italic>da figura 3, vemos as 1.000 amostras úteis (lembre-se de que usamos as primeiras das 2.000 amostras como <italic id="italic-bbe63856ec77ed3dfeccb7571118c7ae">warm-up</italic>). No eixo <italic id="italic-a7b0957c97c0763e184ba3f6e6f09fa7">y</italic>, vemos o valor dos nossos coeficientes ( ). Como podemos ver, todas as cadeias se sobrepõem em torno do mesmo espaço de valores, o que nos mostra que houve convergência de cadeias. Este tipo de gráfico é geralmente omitido de uma publicação real, servindo principalmente como diagnóstico para o analista.</p>
        <fig id="figure-panel-a0dbddc7ea28daf61c880c271b5c4f94">
          <label>Figure 9</label>
          <caption>
            <title>FIGURA 3 – Gráfico de traços para verificar a convergência de cadeias.</title>
            <p id="paragraph-4cca91f65ca368ce85f32221c0e31c4e" />
          </caption>
          <graphic id="graphic-cbc7121da552b3569b1ad70b97a7944c" mimetype="image" mime-subtype="jpeg" xlink:href="Figura 3.jpg" />
        </fig>
        <p id="paragraph-18a41aed0b88c0bacc86bf34c1ac900d"> A figura 4 apresenta dois gráficos com cadeias que não convergem. Veja que há espaços visitados apenas por uma ou duas cadeias, e vários espaços não visitados por nenhuma. Casos assim exigem alguma modificação na especificação do modelo, como um número maior de iterações, um número maior de <italic id="italic-68eead04a117b7135943a959e8211a3b">warm-up</italic> ou a especificação de <italic id="italic-42e23e10553e84ac2720427996cb1b54">priors</italic> minimamente informativos. </p>
        <fig id="figure-panel-0ed19339d5a760fc9427164a7511abf4">
          <label>Figure 10</label>
          <caption>
            <title>FIGURA 4 – Gráfico de traços com cadeias que não convergem.</title>
            <p id="paragraph-6b5bede5aed32397c791c10c762e5100">Fonte: Adaptado de McElreath (2020).</p>
          </caption>
          <graphic id="graphic-810f6340288c4cef361ac93a67bfe495" mimetype="image" mime-subtype="jpeg" xlink:href="Figura 4.jpg" />
        </fig>
        <p id="paragraph-0534606b51a5fffbd0131e23e2ba01ef">Em seguida, visualizaremos o principal gráfico de um modelo, em que observamos as distribuições <italic id="italic-b656674ca643a9deaf4d3dde590fa49d">a posteriori</italic> para cada um de nossos parâmetros (figura 5). O gráfico é bastante intuitivo, uma vez que delimita zero e compila tanto os <italic id="italic-a29f098a35684301b80d79da8f44b151">a posteriori</italic> de interesse quanto seus HDIs (95%)—área cinza clara de cada distribuição. Como podemos ver, apenas um HDI inclui zero (sufixo “ere”). Perceba que, para esse sufixo, zero é um valor relativamente provável, já que está aproximadamente entre a média e o limite inferior do HDI. Com isso, não podemos afirmar que “ere” tem um efeito estatisticamente real relativo a “bar” nos tempos de reação no estudo em questão. As figuras 3 e 5 foram elaboradas com o código do quadro 4, em que ajustamos o tema e o esquema de cores antes de gerarmos as figuras.</p>
        <fig id="figure-panel-e694148ce4de3bd58f6fcba23d03a2b2">
          <label>Figure 11</label>
          <caption>
            <title>FIGURA 5 – Gráfico de com <italic id="italic-9ace050fe253e3a7141622f7a2cac1fd">a posteriori </italic>para afixos.</title>
            <p id="paragraph-e9a223a79df68812759accdc431c62aa" />
          </caption>
          <graphic id="graphic-1366f794fc7a9dcfc6bbcdd21c83e7dd" mimetype="image" mime-subtype="jpeg" xlink:href="Figura 5.jpg" />
        </fig>
        <fig id="figure-panel-5a40413ce4b45929a72c8c866125e652">
          <label>Figure 12</label>
          <caption>
            <title>QUADRO 4 – Gerando figuras para diagnóstico e resultados do modelo em Bayes.</title>
            <p id="paragraph-25a6444db0437a3203706a6f98aa577e" />
          </caption>
          <graphic id="graphic-b7fbc2c7b2ea3bd96732a6a797f9aa5d" mimetype="image" mime-subtype="png" xlink:href="Quadro 4.png" />
        </fig>
        <p id="paragraph-44dc80bc177ad3e73d5bf9d28079901c">O gráfico da figura 5 reforça a vantagem de modelos bayesianos em apresentar os resultados na forma de distribuições de probabilidades em vez de coeficientes pontuais (<italic id="italic-48b2a4848f17d97c20e0a4d3a11fda20">point estimates</italic>). Isso adiciona a dúvida e incerteza que deve ser natural quando se busca inferir parâmetros desconhecidos de uma população com base em uma amostra. </p>
        <p id="paragraph-d2060e482ff9022692eb7d12e3212930">Como os dados que utilizamos envolvem múltiplas coletas dos mesmos participantes e com as mesmas palavras, o ideal é que sua análise inclua efeitos aleatórios para “Subject” e “Word”. Para o pesquisador familiarizado com modelos de efeitos mistos (hierárquicos ou multinível), a tarefa é bastante simples: basta adicionar (1 | Subject) e (1 | Word) para interceptos aleatórios para falantes e para palavras, respectivamente, ao comando da linha 25<xref id="xref-d7a2da17bf1baeed35af701cd2f92cf4" ref-type="fn" rid="footnote-ec8efcb1f16a7947c20a03e74a84d407">11</xref> do quadro 2. O <italic id="italic-4a748786bdeb544b3fb6bd62300b854b">script</italic> completo disponibilizado em <ext-link id="external-link-2" xlink:href="https://osf.io/bvj4w/">https://osf.io/bvj4w/</ext-link> contém esse modelo e, ao rodá-lo, verifica-se que o modelo adiciona um pouco mais de dúvida aos coeficientes, alargando seus intervalos de credibilidade.</p>
        <p id="paragraph-faef7fb8f376ff52ea7db6e32caca215" />
      </sec>
    </sec>
    <sec id="heading-b1ca7d253acc1c3476a0e2664638dc9a">
      <title>4. Considerações finais e sugestões de leitura</title>
      <p id="paragraph-9c91debe5f72472bfd16fec4e29562ba">Neste artigo, introduzimos brevemente uma análise de dados bayesiana a partir de um modelo de regressão linear. Naturalmente, qualquer modelo estatístico pode ser rodado de forma bayesiana—o pacote brms está preparado para rodar os principais modelos de regressão utilizados em estudos linguísticos. Como vimos, modelos bayesianos são superiores a modelos frequentistas porque (i) apresentam um resultando mais relevante, ou seja, P(H|E) ao invés de P(E|H)—o que automaticamente remove a binaridade simplista de valores de <italic id="italic-cfa4ade135485e7814de482270a3e031">p</italic>; (ii) possuem uma interpretação mais intuitiva (e.g., sem valores de <italic id="italic-cb0c70a13583af193c15d22748ec38f1">p</italic> ou intervalos de confiança); (iii) oferecem um alto grau de personalização, especialmente através da especificação de uma distribuição <italic id="italic-5b508dfd1eb7d62ee78b6f767f5844c1">a priori</italic>, que nos permite incorporar à análise estatística nosso conhecimento de área e resultados de estudos anteriores. Além dessas vantagens, amostras do <italic id="italic-10f822bd922c85018cd00e2f0d727f25">a posteriori </italic>proporcionam uma “imagem de alta resolução” sobre tamanhos de efeito, uma vez que temos acesso a uma distribuição inteira sobre os efeitos mais plausíveis a partir dos dados observados (e de nosso <italic id="italic-72c6c9ce81d9519272b1d5704eb50c74">a priori</italic>).</p>
      <p id="paragraph-aa90eba09657e105bfe22ff2c1dd384b">Dadas as vantagens de métodos bayesianos apontadas aqui e pela literatura, por que, afinal, deveríamos utilizar um modelo tradicional frequentista quando há uma alternativa mais vantajosa? Há, pelo menos, duas razões por que uma migração total para modelos em Bayes talvez não seja tão simples—ambas as razões são externas ao método <italic id="italic-ef4a6175c8e84d523e7b872c6603b545">per se</italic>. A primeira, mencionada ao longo deste artigo, é a intensidade computacional envolvida: um modelo bayesiano exige mais tempo para convergir. Esse problema raramente será tão grave, uma vez que não costumamos usar <italic id="italic-ceb0b9231f37a6099f349470b9eef419">big data </italic>com frequência em linguística (compare, por exemplo, com estudos em genética)—além disso, como mencionado acima, podemos utilizar múltiplos núcleos para tirarmos amostras do <italic id="italic-c0f05a42b28422a2377652ac55beed9d">a posteriori</italic>. Ainda assim, o problema pode ser levemente inconveniente. Uma sugestão é iniciar a análise estatística com modelos tradicionais, com o objetivo de explorar efeitos iniciais rapidamente, e, subsequentemente, migrar para um modelo em Bayes quando a definição das variáveis estiver mais clara—leve em conta que um modelo em Bayes com <italic id="italic-4f163b767734260e8a688bdf92e469f9">a priori </italic>não informativo resultará em efeitos bastante similares aos de um modelo equivalente frequentista na maioria das vezes.</p>
      <p id="paragraph-3873639e9b4ad40a6a4be5d77b623d4c">O principal desafio na migração para Bayes, contudo, será a aceitação da área. Como análises bayesianas não são tão comuns em boa parte das subáreas em linguística, especialmente no Brasil, haverá certo estranhamento por parte de pareceristas e leitores, que estarão acostumados a ver valores de <italic id="italic-5a2dcb9fa555fb17271908bd27511d32">p</italic> atrelados a resultados estatísticos. Além disso, o conceito de <italic id="italic-e52c4978d51e5ae2ac00baaa8748e75a">a priori</italic> informativos pode ser visto como problemático por quem não está familiarizado com análises bayesianas—consulte Gelman (2008) sobre objeções comuns. Ou seja, análises em Bayes talvez precisem (a) ser acompanhadas de informações fundamentais sobre o método, e (b) apresentar uma interpretação dos resultados mais detalhada.</p>
      <p id="paragraph-0842e9c394972778c2505a2aea6809fd">Ao migrarmos de modelos frequentistas para modelos bayesianos, é saudável desenvolvermos alguns costumes específicos. Por exemplo, como modelos em Bayes levam consideravelmente mais tempo para rodar, é uma excelente ideia salvarmos o output do modelo em formato RData—afinal, não queremos ter de rodar o mesmo modelo a cada vez que revisitarmos nosso script. Você pode ler mais sobre esse formato de dados em Garcia (2021), capítulo 10.</p>
      <p id="paragraph-08ef6e312e44f84de31c6c46f6327b2e">Por fim, uma dúvida comum é: se a análise bayesiana é superior, ainda devemos estudar ou ensinar métodos frequentistas tradicionais em programas de pós-graduação? Em primeiro lugar, estatística frequentista ainda faz parte da imensa maioria dos estudos linguísticos—no Brasil e fora dele. Em segundo lugar, sempre haverá centenas ou milhares de estudos relevantes publicados com método frequentista, e lê-los criticamente nunca deixará de ser uma habilidade fundamental a qualquer pesquisador. Em terceiro lugar, estudantes de pós-graduação em linguística frequentemente têm uma base frágil em estatística, e um foco em Bayes sem um pilar em estatística tradicional pode ser ineficiente do ponto de vista pedagógico. É preciso entender uma análise de dados bayesiana como um “próximo passo”, ou um método complementar, e não como um substituto de métodos frequentistas. Dominar fundamentos bayesianos e frequentistas é naturalmente a melhor opção.</p>
      <p id="paragraph-239b0fae9d9c393098db91c767ff5b88">Não poderíamos encerrar este artigo sem recomendações adicionais de leitura. Garcia (2021), por exemplo, apresenta um capítulo inteiro dedicado à análise bayesiana. O capítulo parte do zero, contém códigos em R comentados, e, assim como o presente artigo, utiliza o pacote brms—sendo, portanto, bastante amigável. Os dois principais livros inteiramente dedicados à análise bayesiana que recomendaríamos são Kruschke (2015) e McElreath (2020), que detalham minuciosamente conceitos e implementação de modelos em Bayes. Por fim, Gelman et al. (2014) apresentam uma referência completa (embora menos amigável) sobre modelos em Bayes. </p>
      <p id="paragraph-212007b4bd61c00723d535c20eb7b5c7" />
    </sec>
    <sec id="heading-6b0099842ba1d191884410fd84db5e21">
      <title>Apêndice</title>
      <sec id="heading-efbd947b416dd5ea81cfad5c8cc181c7">
        <title>A1. Demonstração de um modelo simples em Stan</title>
        <p id="paragraph-5c1ea29553fb7a59665e1e9d60565366">O quadro A1 mostra um exemplo de uma regressão linear simples com um preditor contínuo: . Aqui, nosso modelo tem três partes: “data”, “parameters”, e “model”. Em “data”, especificamos que tipo de dado queremos modelar. Nossa amostra tem tamanho N (um valor que é sempre positivo, naturalmente). Em seguida, especificamos nossa variável resposta, <italic id="italic-6e8edf60ea50c72de7491421a55f4088">y</italic>, e nossa variável preditora, <italic id="italic-0819c690bd905b6eb4f56fb9d246fab1">x</italic>, ambas contínuas neste exemplo hipotético. Em “parameters”, temos “alpha” (nosso intercept), “beta” (o coeficiente de nosso preditor), e “sigma” (o desvio-padrão). Perceba que, diferentemente de um modelo frequentista, aqui estamos estimando também o desvio-padrão dos nossos dados. Por fim, em “model”, temos a especificação do modelo. Observe como o modelo é especificado: y ~ normal(alpha + beta * x, sigma). Se você já rodou uma regressão linear, essa linha deve fazer sentido: estamos basicamente dizendo que cada observação (resposta) em nossos dados segue uma distribuição normal. A média dessa distribuição normal é exatamente o que queremos estimar com nossa regressão. A diferença aqui é que também estimaremos o desvio-padrão dessa distribuição.</p>
        <fig id="figure-panel-bd33232ddc5464140c4884d4461fb83e">
          <label>Figure 13</label>
          <caption>
            <title>QUADRO A1 – Exemplo simplificado de uma regressão linear em Stan. </title>
            <p id="paragraph-895b427e16af8b53d7a00e1dbbcd62e7" />
          </caption>
          <graphic id="graphic-d73ef333bf97a7b63a12c74e894584fe" mimetype="image" mime-subtype="png" xlink:href="Quadro A1.png" />
        </fig>
        <p id="paragraph-a478ecffc469ec8c941fb434a0beeb91">A sintaxe no quadro A1 é bastante simplificada, e esconde algo muito importante: a linha y ~ normal(alpha + beta * x, sigma) é vetorizada,<xref id="xref-325baf32df8de28154dd71814a0ed09f" ref-type="fn" rid="footnote-1ad24f14c3cc56f7ae0202898a044ba6">12</xref> ou seja, não precisamos adicionar um <italic id="italic-91cee9475d8ef692b7b6e1a62bfd9af5">for-loop</italic>. Naturalmente, a notação de Stan vai muito além do exemplo simples acima.</p>
        <p id="paragraph-f5837db3867804f102fc0ef26b584d49" />
      </sec>
    </sec>
    <sec id="heading-77c215b69bf49514ee0906135284cd21">
      <title>Referências</title>
      <p id="paragraph-47507895ceb21612c563e33b64ab99a0">ARANTES, Pablo; LIMA Jr, Ronaldo Mangueira (2021). Using a Coupled-Oscillator Model of Speech Rhythm to Estimate Rhythmic Variability In Two Brazilian Portuguese Varieties (CE and SP). Cadernos de Linguística, v. 2, n. 4, e577. http://doi.org. 10.25189/2675-4916.2021.V2.N4.ID577</p>
      <p id="paragraph-ef26e297e9a98516c693fafd2e728d20">
        <bold id="bold-80e92674e3b6e0565aaf1291db8791b4" />
      </p>
      <p id="paragraph-a5883d9298e1ca7cccad9fb8bce7fe8d">BAAYEN, Rolf Harald. <italic id="italic-b2e9e659c1c27959f93e45a42999c329">languageR</italic>: v 1.0, 2007a.</p>
      <p id="paragraph-05549f28a252e98750acf81237004336" />
      <p id="paragraph-a94453a4683c7c525fe78f32d8a96ae5">BAYES, Thomas. LII. An essay towards solving a problem in the doctrine of chances. De autoria do falecido reverendo Sr. Bayes, F.R.S. comunicado pelo Sr. Price, em uma carta para John Canton, A.M.F.R.S. <italic id="italic-edb4542e83141d485b39f6e364caa0d2">Philosophical Transactions </italic>(1683–1775), v. 53, pp. 370–418, 1763.</p>
      <p id="paragraph-174747ff51247c47c1570dde93a1f050" />
      <p id="paragraph-8">BÜRKI, Audrey; ELBUY, Shereen; MADEC, Sylvain; VASISHTH, Shravan. What did we learn from forty years of research on semantic interference? A Bayesian meta-analysis. <italic id="italic-3b31995e72899204dbd98f059c70df26">Journal of Memory and Language</italic>, v. 114, pp. 104–125, 2020. http://dx.doi.org/10.1016/j.jml.2020.104125.</p>
      <p id="paragraph-9" />
      <p id="paragraph-ddf2768f78cfba31e834525de3f61510">Bürkner, Paul-Christian. Why not to be afraid of priors (too much). In: Bayes@Lund 2018, Lund: 2018a. Disponível em &lt; <ext-link id="external-link-fea78befff63bab7dce87d57ec47ccb6" xlink:href="https://www.youtube.com/watch?v=Uz9r8eV2erQ">https://www.youtube.com/watch?v=Uz9r8eV2erQ</ext-link>&gt;. Acesso em: 24 ago. 2021.</p>
      <p id="paragraph-11" />
      <p id="paragraph-12">Bürkner, Paul-Christian. Advanced Bayesian multilevel modeling with the R package brms. <italic id="italic-0018dd768b8410efeb290b9f3f219071">The R Journal</italic>, v. 10, n. 1, pp. 395–411, 2018b.</p>
      <p id="paragraph-13" />
      <p id="paragraph-14">Carpenter, Bob; Gelman, Andrew.; HoFFman, Matthew.; Lee, Daniel; Goodrich, Ben; Betancourt, Michael; Brubaker, Marcus; Guo, Jiqiang; Li, Peter; Riddell, Allen. Stan: a probabilistic programming language. <italic id="italic-499b2a6b611b7fd5ac553c7603b32545">Journal of Statistical Software</italic>, <italic id="italic-228272af64baa8272b24ff2e2d943304">Articles</italic>, v. 76, n. 1, pp. 1–32, 2017.</p>
      <p id="paragraph-15" />
      <p id="paragraph-16">CHATER, Nick; TENENBAUM, Joshua B.; YUILLE, Alan. Probabilistic models of cognition: Conceptual foundations. <italic id="italic-40e8bdbd52fcbddf473b1286cb78babb">Trends in Cognitive Sciences</italic>, v. 10, n. 7, pp. 287–344, 2006.</p>
      <p id="paragraph-17" />
      <p id="paragraph-18">GARCIA, Guilherme D. When lexical statistics and the grammar conflict: learning and repairing weight effects on stress. <italic id="italic-43db6a25159ba3b9a10018b19111af7b">Language</italic> 95(4):612–641, 2019. http://doi.org/10.1353/lan.2019.0068.</p>
      <p id="paragraph-19" />
      <p id="paragraph-20">GARCIA, Guilherme D. Language transfer and positional bias in English stress. <italic id="italic-45c6dfa63d143ee3250349802466a282">Second Language Research</italic>, v. 34, n. 6, pp. 445–474, 2020. <ext-link id="external-link-6ea22cd1a842805c0df054001c99f643" xlink:href="http://doi.org/10.1177/0267658319882457">http://doi.org/10.1177/0267658319882457</ext-link> </p>
      <p id="paragraph-21" />
      <p id="paragraph-22">GARCIA, Guilherme D. <italic id="italic-2a137ecb4f83ff2a996b4f51d62ad61d">Data visualization and analysis in second language research</italic>. Routledge, Nova York, NY, 2021.</p>
      <p id="paragraph-23" />
      <p id="paragraph-24">GELMAN, Andrew. Objections to Bayesian statistics. <italic id="italic-769878ac82bf954e26c6f092cb97eac7">Bayesian Analysis</italic>, v. 3, n. 3, pp. 445–449, 2008.</p>
      <p id="paragraph-25" />
      <p id="paragraph-26">Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. <italic id="italic-cec0f7488e7434dda2f44e61bd2264a0">Bayesian data analysis</italic>. 3rd ed. Chapman &amp; Hall/CRC, Boca Raton, 2014.</p>
      <p id="paragraph-27" />
      <p id="paragraph-28">HACKING, Ian. <italic id="italic-f842054699dee5d11f82d092f275e946">An introduction to probability and inductive logic.</italic> Cambridge University Press, 2001.</p>
      <p id="paragraph-29" />
      <p id="paragraph-30">Hayes, Bruce; Siptár, Péter; Zuraw, Kie; &amp; Londe, Zsuzsa. Natural and unnatural constraints in Hungarian vowel harmony. <italic id="italic-6274525a17d1b00f96121d09852ca3a1">Language</italic>, 822-863, 2009. http://www.jstor.org/stable/40492955.</p>
      <p id="paragraph-31" />
      <p id="paragraph-32">IDSARDI, William. A Bayesian approach to loanword adaptations. Poster presented at the <italic id="italic-d0216696dc59c78011e27d7f5fdfd887">Annual Meeting of the Linguistic Society of America</italic>, Albuquerque, NM, 2006.</p>
      <p id="paragraph-33" />
      <p id="paragraph-34">KRUSCHKE, John K. Bayesian estimation supersedes the t test. <italic id="italic-bc37b6b21de55c0330e994071b06c4cb">Journal of Experimental Psychology: General, </italic>v.<italic id="italic-9a3ffebc82b9ca3dd4730a3da0ce6f76"> </italic>142, n. 2, pp. 573–603, 2013. <ext-link id="external-link-ab0cdd13be7c4bae65dac98b2ddd0187" xlink:href="https://psycnet.apa.org/doi/10.1037/a0029146">https://doi.org/10.1037/a0029146</ext-link></p>
      <p id="paragraph-35" />
      <p id="paragraph-36">KRUSCHKE, John K. <italic id="italic-96273d69fac98286724ee85a14fc83b0">Doing Bayesian data analysis</italic>: a tutorial with R, JAGS, and Stan, 2a edição. Elsevier, 2015.</p>
      <p id="paragraph-37" />
      <p id="paragraph-38">LEE, Michael D.; WAGENMAKERS, Eric-Jan. <italic id="italic-19">Bayesian cognitive modeling: a practical course</italic>. Cambridge University Press, Cambridge, 2014.</p>
      <p id="paragraph-39" />
      <p id="paragraph-40">LIMA JR., Ronaldo; GARCIA, Guilherme D. Diferentes análises estatísticas podem levar a conclusões categoricamente distintas. <italic id="italic-20">Revista da ABRALIN</italic>, v. 20, n. 1, pp. 1–19, 2021. https://doi.org/10.25189/rabralin.v20i1.1790</p>
      <p id="paragraph-41" />
      <p id="paragraph-42">MCELREATH, Richard. <italic id="italic-21">Statistical rethinking: A Bayesian course with examples in R and Stan</italic>, 2a edição. Boca Raton &amp; Oxon: CRC press, 2020. </p>
      <p id="paragraph-43" />
      <p id="paragraph-44">MCGRAYNE, Sharon Bertsch. <italic id="italic-22">The theory that would not die</italic>. Yale University Press, 2011.</p>
      <p id="paragraph-45" />
      <p id="paragraph-46">NUZZO, Regina. Scientific method: statistical errors. <italic id="italic-23">Nature News</italic>, v. 506, n. 7487, p. 150, 2014.</p>
      <p id="paragraph-47" />
      <p id="paragraph-48">R CORE TEAM. <italic id="italic-24">R</italic>: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing. Acesso http://www.R-project.org/ Acesso em: 15 jun. 2020.</p>
      <p id="paragraph-49" />
      <p id="paragraph-50">RStudio Team. RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, 2021.</p>
      <p id="paragraph-51" />
      <p id="paragraph-52">TENENBAUM, Joshua B.; GRIFFITHS, Thomas L.; KEMP, Charles. Theory-based Bayesian models of inductive learning and reasoning. <italic id="italic-25">Trends in Cognitive Sciences</italic>, v. 10, n. 7, pp. 309–318, 2006.</p>
      <p id="paragraph-53" />
      <p id="paragraph-54">Wickham, Hadley; Averick, Mara; Bryan, Jennifer; Chang, Winston; McGowan, Lucy D.; François, Romain; Grolemund, Garrett; Hayes, Alex; Henry, Lionel; Hester, Jim; Kuhn, Max; Pedersen, Thomas L.; Miller, Evan; Bache, Stephan M.; Müller, Kirill; Ooms, Jeroen; Robinson, David; Seidel, Dana P.; Spinu, Vitalie; Takahashi, kohske; Vaughan, Davis; Wilke, Claus; Woo, Kara; Yutani, Hiroaki. Welcome to the tidyverse. <italic id="italic-26">Journal of Open Source Software</italic>, 4(43), 1686, 2019. <ext-link id="external-link-4" xlink:href="https://doi.org/10.21105/joss.01686">https://doi.org/10.21105/joss.01686</ext-link>.</p>
      <p id="paragraph-55" />
      <p id="paragraph-56">ZHAN, Meilin; LEVY, Roger; KEHLER, Andrew. Pronoun Interpretation in Mandarin Chinese follows principles of Bayesian inference. <italic id="italic-27">PLoS One</italic>, v. 15, n. 8, pp. 1–42, 2020. https://doi.org/10.1371/journal.pone.0237012.</p>
    </sec>
  </body>
  <back>
    <fn-group>
      <fn id="footnote-e8dfd9f141aa6f0ffd84a9eeca568949">
        <label>1</label>
        <p id="paragraph-7cd2387612e96ffa4139a686beea2ac1">Antes de prosseguir, recomendamos ver Lima Jr. e Garcia (2021) para uma breve revisão de conceitos frequentistas utilizando os mesmos dados do presente artigo.  </p>
      </fn>
      <fn id="footnote-6db6389c211994c0ba39d196ea68afda">
        <label>2</label>
        <p id="paragraph-0cdf26fb5641465652eb42fb8d7c46c0">A hipótese nula expressa o contrário da hipótese real de trabalho (hipótese alternativa), e normalmente afirma que não há efeito da variável preditora. Por exemplo, se investigamos uma possível diferença entre dois grupos de falantes, a hipótese nula é a de que não há diferença entre os grupos. A estatística frequentista se baseia fortemente na avaliação da hipótese nula.      </p>
      </fn>
      <fn id="footnote-7b806313ae67e041aa240ad52f6c59a1">
        <label>3</label>
        <p id="paragraph-a5ccd9597db386c8968690431232ee82">A principal diferença prática entre HMC e MCMC é o método usado para explorar o espaço de parâmetros: enquanto MCMC utiliza distribuições de probabilidades, HMC utiliza dinâmica hamiltoniana, um método que reduz a correlação de valores propostos e que, portanto, torna o algoritmo mais eficiente na busca de valores plausíveis para parâmetros de interesse. </p>
      </fn>
      <fn id="footnote-84afc3265513ab38eac5191182f11f76">
        <label>4</label>
        <p id="paragraph-1084d6f7ee7d5408dacc304afa334a54">Veja o capítulo 7 de Kruschke (2015) ou o capítulo 9 de McElreath (2020) para explicações didáticas sobre o funcionamento dos principais algoritmos.   </p>
      </fn>
      <fn id="footnote-e5e3c58f9705cf7f033673f70b428360">
        <label>5</label>
        <p id="paragraph-9b30bda9ca30e33a09f8aa4bb8e7ecb7">Intervalos de confiança apenas demarcam dois pontos limítrofes, e não são, portanto, uma distribuição em princípio. Parece intuitivo concluir que valores que estão mais próximos do centro de um intervalo de confiança são “mais robustos”, ou mais “confiáveis”. Essa conclusão, contudo, é incorreta. Para mais informações, sugerimos a leitura de Kruschke (2015, pp. 323–324).    </p>
      </fn>
      <fn id="footnote-fbe5d96e00ecf1929846d5062c64bb3a">
        <label>6</label>
        <p id="paragraph-da90bbbf215cbaafbbd3a0a35cf48119">O brms roda nos bastidores o Rstan, que é uma interface do R para a linguagem Stan. O Stan, por sua vez, é construído na linguagem de programação C ++. Sendo assim, é preciso primeiramente configurar o computador para que possa usar C ++. Isso deve ser feito apenas uma vez, e o procedimento depende do sistema operacional. As instruções podem ser encontradas em https://github.com/stan-dev/rstan/wiki/RStan-Getting-Started.   </p>
      </fn>
      <fn id="footnote-95cdbeb041060a5185969261d0adeb00">
        <label>7</label>
        <p id="paragraph-1f8673c3f05bb56f4a2e4fdb90025dba">O gráfico em questão é conhecido como “<italic id="italic-1b57a79b40470141565a0e83a904ee9d">half violin plot</italic>”, uma vez que representa a metade de um <italic id="italic-e03a35ac6fe0d31a58c10c0462c2ee38">violin plot</italic>. Consulte o script que acompanha este artigo para ter acesso ao código que gerou a figura.   </p>
      </fn>
      <fn id="footnote-ad9d5ed1f0c2dc668187345d2d347134">
        <label>8</label>
        <p id="paragraph-63cf96fc556248ff5e29a43feac409b6">Para uma regressão logística, será “bernoulli” ou “binomial”, para regressão ordinal “cumulative”, e para regressão multinomial “multinomial”, por exemplo. A documentação do pacote apresenta diversas outras famílias possíveis.  </p>
      </fn>
      <fn id="footnote-941bd37e75da1aeb687da16b17b62bd0">
        <label>9</label>
        <p id="paragraph-577b5e0033a61b0a5772a56098a89961">É necessário primeiramente instalar o pacote parallel com install.packages(“parallel”).    </p>
      </fn>
      <fn id="footnote-27122a5fdc3ce6c642211f12363cc53b">
        <label>10</label>
        <p id="paragraph-122d0b80d028dbdaccf25cfa6a372d0b">A autocorrelação do <italic id="italic-17">a posteriori </italic>avalia a correlação entre valores de amostragem do <italic id="italic-18">a posteriori</italic>. Portanto, não se trata de uma medida de colinearidade entre variáveis.   </p>
      </fn>
      <fn id="footnote-ec8efcb1f16a7947c20a03e74a84d407">
        <label>11</label>
        <p id="paragraph-be0e8520c86f46456c1f53c660d2b7bc">Ou (Affix | Subject) para interceptos e <italic id="italic-698708ee6a02d430238d8fbd9f79f5f8">slopes</italic> aleatórios para falantes.  </p>
      </fn>
      <fn id="footnote-1ad24f14c3cc56f7ae0202898a044ba6">
        <label>12</label>
        <p id="paragraph-4e6fc341d65737de0dceb0f1815c30ee">Especificações mais atuais utilizarão a função especialmente criada para regressões normal_id_glm() em vez de normal(). </p>
      </fn>
    </fn-group>
  </back>
</article>