<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.2 20190208//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:ali="http://www.niso.org/schemas/ali/1.0">
  <front>
     <journal-meta>
<journal-id journal-id-type="nlm-ta">Revista da Abralin</journal-id>
<journal-title-group>
<journal-title>Revista da Abralin</journal-title>
</journal-title-group>
<issn pub-type="epub">2178-7603</issn>
<publisher>
<publisher-name>Associação Brasileira de Linguística</publisher-name>
</publisher>
</journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.25189/RABRALIN.V19I2.1525</article-id>
      <article-categories>
        <subj-group>
          <subject content-type="Tipo de contribuo">Resenha</subject>
        </subj-group>
      </article-categories>
      <title-group>
        <article-title>Contribuições da linguística de <italic id="italic-1">corpus</italic> em diferentes domínios</article-title>
      </title-group>
      <contrib-group content-type="author">
        <contrib id="person-65b9d42c151b6c0db1cce43a77138180" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Sousa</surname>
            <given-names>Marta Deysiane Alves Faria </given-names>
          </name>
          <email>professoramarta2018@outlook.com</email>
          <xref ref-type="aff" rid="affiliation-33e3d358c95c6b196c84f0a557a44d75" />
          <xref ref-type="aff" rid="affiliation-7c52fe0536e96fcb4b423f5f527b6170" />
          <xref ref-type="aff" rid="affiliation-70fc13828396dec0dcc9b15f49e82057" />
        </contrib>
      </contrib-group>
      <contrib-group content-type="editor">
        <contrib id="person-3fbd27dbc1c8de3dc34131087dee1e22" contrib-type="person" equal-contrib="no" corresp="no" deceased="no">
          <name>
            <surname>Freitag</surname>
            <given-names>Raquel</given-names>
          </name>
          <email>rkofreitag@uol.com.br</email>
          <xref ref-type="aff" rid="affiliation-70fc13828396dec0dcc9b15f49e82057" />
        </contrib>
      </contrib-group>
      <aff id="affiliation-176fd67a99fbd83781a056cea43cbc8c">
        <institution content-type="orgname">Universidade Federal do Rio de Janeiro (UFRJ) </institution>
      </aff>
      <aff id="affiliation-70fc13828396dec0dcc9b15f49e82057">
        <institution content-type="orgname">Universidade Federal de Sergipe (UFS)</institution>
      </aff>
      <pub-date date-type="pub" iso-8601-date="29/07/2020" />
      <volume>19</volume>
      <issue>2</issue>
      <issue-title>Resenhas Abralin ao Vivo</issue-title>
      <elocation-id>10.25189/rabralin.v19i2.1525</elocation-id>
      <history>
        <date date-type="accepted" iso-8601-date="12/07/2020" />
        <date date-type="received" iso-8601-date="16/06/2020" />
      </history>
      <permissions id="permission">
        <license>
          <ali:license_ref>http://creativecommons.org/licenses/by/4.0/</ali:license_ref>
        </license>
      </permissions>
      <abstract>
        <p id="_paragraph-3">Resenha-se, neste texto a conferência <italic id="italic-62f2ca7cd358118e1d24e57d9fb9ff24">A versatilidade da linguística de corpus quantitativa: exemplos de ortografia, fonologia e linguística forense</italic> proferida pelo Professor Stefan Th. Gries, no evento Abralin Ao Vivo – <italic id="italic-2">Linguists Online</italic> no dia 08 de junho de 2020, e mediada pela Doutora Fernanda Canever. O objetivo principal da conferência foi o de demonstrar como a linguística de <italic id="italic-3">corpus</italic> quantitativa pode ser utilizada em diferentes domínios do conhecimento. Para tanto, empregando diversos recursos estatísticos e de visualização gráfica, o conferencista faz uma explanação de cinco estudos de caso: os dois primeiros relacionados ao <italic id="italic-4">corpus</italic> Ortografia da Internet Espanhola (OIE), o terceiro sobre como os falantes sinalizam o final de turnos para os ouvintes e, os dois últimos, na área de linguística forense, como fundação de sua argumentação.</p>
      </abstract>
      <abstract abstract-type="executive-summary">
        <title>Abstract</title>
        <p id="paragraph-01ddd8c7286e4d48ba028144da13e94c">This text is a review of the lecture <italic id="italic-546fa6c1629a82f3a9e0efe1db6447c6">The Versatility of Quantitative Corpus Linguistics: examples from orthography, phonology, and legal/forensic linguistics</italic> delivered by Professor Stefan Th. Gries at the Abralin Ao Vivo – Linguists Online event on June 8<sup id="superscript-1">th</sup> 2020 and mediated by Dr. Fernanda Canever. The main objective of this lecture was to demonstrate how quantitative <italic id="italic-390272322eaaaece5a323ef00e270e81">corpus</italic> linguistics may be used in different domains. In order to do so, the lecturer used a wide range of statistical resources and graphics, he also explained five case studies: the first two related to the <italic id="italic-497b3d439a58defe523d616e1f35be89">corpus</italic> Spanish Internet Orthography, the third on how speakers signals the end of turn for the hearers, and the last two ones on legal/forensic linguistics. These cases were the basis for his claim.</p>
      </abstract>
      <kwd-group>
        <kwd content-type="">Linguística de <italic id="italic-0a9318b60392aeb7ee666929e9b7ac8b">corpus</italic> quantitativa</kwd>
        <kwd content-type="">Análise Estatística</kwd>
        <kwd content-type="">Linguística</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body id="body">
    <sec id="heading-79e4d4387473d10b38aff632a025a59c">
      <title>Texto</title>
      <p id="paragraph-17a8c64c4c207ab4cf40f5104990200a">Pretende-se com este texto resenhar a conferência <italic id="italic-f5883840bd7982d979213d3fe17fba6a">A versatilidade da linguística de corpus quantitativa: exemplos de ortografia, fonologia e linguística forense</italic> proferida pelo Professor Stefan Th. Gries<xref id="xref-1c33de19dc6e4ea7382aa66c0b0651cf" ref-type="bibr" rid="webpage-ref-7db469295c672a27e76c93740d0c8943">[1]</xref>, no evento Abralin Ao Vivo – <italic id="italic-5b400190e485a8bd9b0ff5e1b715bc40">Linguists</italic> <italic id="italic-e76bc56761a0b7744464956715daaf53">Online</italic> no dia 08 de junho de 2020, e mediada pela Doutora Fernanda Canever. O propósito da conferência foi oferecer à audiência uma visão de como a linguística de <italic id="italic-f1c9ddbdd41dffc57b8268c41cf8364c">corpus</italic> quantitativa pode ser útil para diferentes domínios. O conferencista faz, então, sua argumentação baseada em cinco estudos de caso, os dois primeiros relacionados ao <italic id="italic-5">corpus</italic> Ortografia da Internet Espanhola (OIE), o terceiro sobre como os falantes sinalizam o final de turnos para os ouvintes, e os dois últimos, na área de linguística forense.</p>
      <p id="paragraph-2">Gries inicia sua fala relatando a pesquisa sobre o apagamento de “-d” no seguimento “-ado” no <italic id="italic-6">corpus</italic> OIE. Neste estudo, foram utilizados testes de qui-quadrado, para comparar a frequência de apagamento de “-d” no OIE e no <italic id="italic-7">corpus</italic> baseado em conversas de <italic id="italic-8">chat </italic>do estudo de Llisterri (2002), e um teste de correlação entre esse apagamento e a vulgaridade das palavras. No primeiro teste, o conferencista observou que não houve diferença na frequência do apagamento nos dois <italic id="italic-9">corpora</italic> (p=0,75), não havendo efeito do tipo de interação (<italic id="italic-10">chat</italic> ou comentários e descrição). O segundo teste confirmou a correlação entre o apagamento e a vulgaridade das palavras (p <sub id="subscript-1"><italic id="italic-11">binomial test </italic></sub>&lt;0,001), sendo uma forte correlação.</p>
      <p id="paragraph-3">Ao comparar 50 <italic id="italic-12">tokens</italic> mais frequentes de palavras com as duas realizações, uma sem e a outra com o apagamento, com o <italic id="italic-13">Corpus</italic> do Espanhol Padrão, Gries fez um gráfico de dispersão para visualizar o efeito de frequência na ocorrência do apagamento, indicando que quanto maior a frequência de uma palavra, menor é o apagamento. Para Gries, existem três justificativas para esse efeito: frequência da palavra (quanto maior o grau de entrincheiramento, maior a probabilidade de o falante recorrer à variante padrão); ausência de tonicidade na penúltima sílaba e, efeito pragmático da deleção, explicado com maior ênfase. Para ele, o apagamento de “-d” em palavras que são mais frequentes demonstraria certo desprestígio social. Por outro lado, se a palavra já tiver sido modificada de alguma forma, a chance de o apagamento ocorrer é três vezes maior, demonstrando que a modificação prévia e o apagamento se agrupam.</p>
      <p id="paragraph-4">Após discorrer sobre o apagamento de “-d”, Gries relata sua pesquisa com a repetição de caracteres para indicar atitudes e emoções de forma similar à prosódia na fala. O conferencista aponta como explicação para a utilização de repetição o princípio de iconicidade da quantidade (no qual “a quantidade de material fonético reflete a qualidade/intensidade ou a quantidade/pluralização”). Para Gries, este princípio cognitivo já foi estudado em outras línguas e lida melhor com o fenômeno da repetição por não tentar justificá-la por meio de uma frase que tenta remontá-la. </p>
      <p id="paragraph-5">A hipótese de Gries é de que existe relação entre o efeito desejado no uso da prosódia e a repetição de caracteres. O conferencista encontrou três formas de repetição: no início e no fim das palavras, e quando a repetição é a palavra toda. Em sua explanação, ele se atém somente à repetição no início das palavras.</p>
      <p id="paragraph-6">Fazendo um teste de correlação, Gries descobriu que existe uma correlação forte entre o tamanho da repetição e sua frequência no <italic id="italic-14">corpus</italic> (T=-0,86***). Em seguida, utilizando um diagrama de barras agrupadas, o conferencista demonstrou que também há efeito fonológico, pois os caracteres mais frequentemente repetidos correspondiam a vogais e glides e os menos, a consoantes. Marcadores discursivos, palavras que expressam emoções, palavras usadas para se referir as pessoas, construções como “Eu + sintagma verbal”, adjetivos positivos são as classes de palavras nas quais o fenômeno ocorreu com maior frequência. </p>
      <p id="paragraph-7">Para Gries, os dados encontrados revelam tendências que podem ser relevantes para uma representação de exemplares. Isso porque, no apagamento, há diferentes fatores interagindo para que ele ocorra como efeitos pragmáticos, sociolinguísticos, semânticos, fonológicos e de frequência, e, na repetição, a iconicidade e fatores articulatórios. Gries acredita que a comunicação mediada por computadores apresenta características motivadoras de mudança, além de ser uma área que comporta bastante inovação.</p>
      <p id="paragraph-8">O terceiro caso citado pelo conferencista observa se os falantes dão pistas de que terminaram o turno de fala. O pesquisador levanta duas hipóteses para explicar como os falantes sabem que o turno de fala terminou: a lexical e a taxa de elocução. Contudo, Gries excluiu a primeira hipótese baseado em estudos dialetais, nos quais foi concluído que os ouvintes se ajustam às características específicas dos falantes. Para seu estudo, Gries, extraiu uma amostra aleatória (800 turnos de fala com dez palavras) do <italic id="italic-15">Corpus</italic> Nacional Britânico (CNB) e controlou as seguintes variáveis: duração da palavra (variável dependente); posição no turno (preditor principal); posição da palavra nuclear; frequência de <italic id="italic-16">type</italic>; tamanho fonético do <italic id="italic-17">type</italic>; <italic id="italic-18">surprisal</italic> (grau de informatividade da palavra no turno); diferença da média anterior (mudança na média da duração da palavra no turno). O conferencista ressaltou a existência de efeito de outros fatores aleatórios como: arquivo/ falante, palavra e classe de palavra. </p>
      <p id="paragraph-9">Gries optou por fazer um modelo de regressão linear misto, com eliminação passo atrás (<italic id="italic-19">backwards</italic>). Nesse modelo, incorporam-se todas as variáveis e depois, por etapas, cada uma pode ser eliminada, até chegar ao modelo final. Os resultados revelaram que, mesmo havendo um grande volume de dados confusos e idiossincrasias, a correlação entre a posição no turno e a duração foi encontrada, sendo ela mediada pelo núcleo, corroborando a hipótese da taxa de elocução. Em outras palavras, a posição do núcleo pode acelerar ou diminuir a velocidade na fala. Se ele está no início, a velocidade diminui linearmente, se está no meio, diminui-se a aceleração e depois ela volta a subir, fazendo um efeito curvilíneo que pode ser visualizado durante a conferência.</p>
      <p id="paragraph-10">O penúltimo caso, Smith contra os Estados Unidos, refere-se a uma pena judicial agravada porque o condenado estava “usando uma arma de fogo” como moeda de troca e o juiz, baseando-se no significado dicionarizado da palavra “usar”, entendeu que “usar” também abarcaria o sentido de “troca”. Gries esclarece que, se o significado de uma palavra não estiver descrito na lei, a Suprema Corte Norte-Americana prescreve que deve ser considerado o significado “comum” ou “ordinário” de tal palavra. </p>
      <p id="paragraph-11">No entanto, as palavras não são opacas, seus significados fazem parte de um <italic id="italic-20">continuum</italic>. Gries acredita que a Suprema Corte, quando menciona significado ordinário, deve querer dizer respeito à frequência relativa de tal significado dentro do espectro “possível -&gt; comum -&gt; mais frequente -&gt; prototípico -&gt; exclusivo”. </p>
      <p id="paragraph-12"> A partir desse caso, Gries e colaboradores usaram um <italic id="italic-21">script</italic> do R para pesquisar o lema “usar” com contexto seguinte composto de palavras relacionadas a armas no <italic id="italic-22">Corpus</italic> Contemporâneo do Inglês Americano. Os resultados evidenciaram que “usar” não foi empregado como “trocar” em nenhum dos casos válidos, levando à conclusão de que a corte norte-americana não estava realmente considerando o significado “comum” da palavra, mas o possível. </p>
      <p id="paragraph-13">Para o conferencista, a área jurídica pode ser um vasto campo para aplicação da linguística de <italic id="italic-23">corpus</italic>. Além disso, demonstra a necessidade de especialistas da linguística para lidar com o espaço multidimensional dos significados ditos comuns de uma palavra nesse contexto.</p>
      <p id="paragraph-14">O último caso explorado é de atribuição de autoria, no qual um cliente processou um restaurante por alegar que este lhe deu tratamento discriminatório. Uma das linhas de argumentação do advogado do restaurante era provar que o cliente tinha histórico de processar pessoas e negócios e utilizar contas falsas na internet para acusá-los de discriminação ou de má prestação de serviço. </p>
      <p id="paragraph-15">Gries explicou que para verificar a autoria foram necessários os textos aos quais seriam atribuídos a autoria e um material de treinamento (textos do cliente e textos reconhecidamente de outras pessoas). Foram observadas características lexicais, sublexicais, morfológicas, sintáticas e combinações de fatores (frequência de certas palavras em certos contextos e múltiplas medidas das características citadas). A partir de todo o material, a frequência relativa de cada item foi calculada por meio de um <italic id="italic-24">script</italic> do R em cada arquivo de texto.</p>
      <p id="paragraph-16">Em seguida, o modelo de Floresta Aleatória foi treinado com o material para distinguir o suspeito de todos os outros autores e posteriormente aplicado aos textos os quais a autoria seria atribuída. Os resultados do modelo evidenciaram que todos os textos que não tinham autoria eram provavelmente de autoria do cliente, com um grau de precisão de mais de 90%.</p>
      <p id="paragraph-17">Esses dois últimos casos, conforme Gries, exploram como ferramentas da linguística de <italic id="italic-25">corpus</italic> podem ser usadas para tornar a interpretação de textos jurídicos mais objetiva e justa. Ademais, demonstra como métodos da análise da linguística de <italic id="italic-26">corpus</italic> puderam oferecer uma análise de especialista para atribuir autoria em um caso.</p>
      <p id="paragraph-18">Gries foi bem-sucedido em realizar seu objetivo de demonstrar as contribuições da linguística de <italic id="italic-27">corpus</italic> quantitativa em diversos domínios. Embora não tenha conseguido pormenorizar os dois últimos casos, durante toda a conferência foi vista a relevância de análises estatísticas (desde as mais simples, como testes de correlação, às mais complexas como o modelo de regressão linear misto) para justificar a refutação de hipóteses, exclusão de variáveis, a modelagem dos dados per si. O conferencista apresentou também diversos meios de visualização gráfica dos resultados, mesmo quando várias e diferentes variáveis estavam envolvidas (diagrama de barras agrupadas, gráfico de dispersão, entre outros). Essa variedade contribui e motiva sociolinguistas a refletir sobre a utilização de recursos estatísticos diferentes para embasar as análises de dados, principalmente, aqueles que possuem diversidade de tipos de variáveis.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="webpage-ref-7db469295c672a27e76c93740d0c8943">
        <element-citation publication-type="webpage">
          <day>08</day>
          <month>06</month>
          <uri>https://www.youtube.com/watch?v=HuOc6AzQ4Ig&amp;t=757s</uri>
          <date-in-citation iso-8601-date="08/06/2020">08/06/2020</date-in-citation>
          <year>2020</year>
          <source>https://www.youtube.com/watch?v=HuOc6AzQ4Ig&amp;t=757s</source>
          <article-title>THE Versatility of Quantitative <italic id="italic-87df17bcd61218a6b246a6f101b82a5f">Corpus</italic> Linguistics: examples from orthography, phonology, and legal/forensic linguistics. Conferência apresentada por Stefan Th. Gries. [s.l., s.n], 2020. 1 vídeo (1h 47min 24s). Publicado pelo canal da Associação Brasileira de Linguística</article-title>
        </element-citation>
      </ref>
    </ref-list>
  </back>
</article>