A comediante que pode mudar toda a história da Inteligência Artificial

Por Roberta Ribeiro
07/09/2023 às 20:58

A comediante Sarah Silverman com o senador AI Franken durante convenção democrata em 2016 (Foto: A.Shaker / Voa / Wikicommons)

Ouça este conteúdo

Sarah Silverman, a comediante progressista que já estreou um show homônimo na TV americana e que já foi convidada do lendário Saturday Night Live, pode mudar os rumos do uso de aplicações de Inteligência Artificial (IA) como o ChatGPT.

No dia 10 de julho, Silverman, que além de recém-lançar um disco também já publicou livros, se juntou aos escritores Richard Kadrey e Christopher Golden para entrar com uma ação coletiva contra a OpenAI, empresa dona do ChatGPT, e a Meta, dona do Facebook e Instagram, por violação de direitos autorais.

No processo, a comediante e os escritores alegam que as empresas violaram seus direitos autorais e os de milhares de outros autores ao utilizarem suas obras para o treinamento das ferramentas de IA, conforme reportado pela agência de notícias Reuters.

Caso ganhe a causa, Silverman pode mudar toda a forma como as empresas de IA treinam seus sistemas. Além disso, pode abrir uma jurisprudência que leve à remuneração de escritores, roteiristas e jornalistas, entre outros profissionais, pelo uso de seus textos para a alfabetização e geração das respostas dos chatbots.

A comediante não está só

O processo de Silverman é similar ao que os escritores Paul Tremblay e Mona Awad, ambos de Massachusetts, deram entrada no mesmo tribunal em 29 de junho deste ano. Eles afirmam que os livros são elementos-chave para o treinamento das IAs por oferecerem os melhores exemplos com amplo volume de escrita de altíssima qualidade.

Na denúncia, os autores estimaram que os dados de mais de 300.000 livros foram utilizados para o treinamento dos sistemas da OpenAI. Inclusive, afirmam que a empresa teria incorporado obras de bibliotecas ilegais que oferecem o conteúdo de livros sem autorização.

Além de acusarem a empresa de violar os direitos autorais ao utilizar a íntegra de livros para treinamento de seus sistemas, os processos trazem outras alegações. Uma delas, de que as respostas das ferramentas representam uma "violação vicária dos direitos de autor", pois são trabalhos derivados de suas obras sem a devida referência.

O contra-ataque da OpenAI

Mas o caminho de Sarah e dos demais autores até a vitória nos tribunais pode não ser simples. Nesta segunda-feira (4), a OpenAI, que conta com investimentos de mais de US$ 10 bilhões [R$ 49,8 bilhões, na cotação de 6 de setembro] da Microsoft, solicitou ao tribunal federal de San Francisco, na Califórnia, que rejeite ambos os processos.

A empresa argumentou que seus sistemas fazem uso justo de trabalhos protegidos por direitos autorais para o treinamento de suas ferramentas, e que esse ponto será tratado mais especificamente pela defesa em um momento posterior do processo.

Por hora, um dos principais objetivos da OpenAI é convencer o tribunal de que a 'alegação vicária de violação de direitos autorais' é errônea, independentemente de haver alguma semelhança entre os resultados apresentados pelo ChatGPT e as obras utilizadas para o treinamento da ferramenta, conforme reportado pela revista eletrônica Ars Technica.

Para tanto, a defesa argumenta que cada resposta do ChatGPT não pode ser seriamente considerada um trabalho derivado, como respostas objetivas a perguntas como, por exemplo: qual é o nome do presidente dos EUA? Já os resultados que têm convergências com as obras dos autores, seriam semelhantes a “relatórios ou resenhas de livros”, que tampouco violam os direitos autorais.

Lei de direitos autorais não protege ideias, mas a expressão delas

Nesse sentido, a empresa argumentou que o objetivo da lei de direitos autorais é "promover o progresso da ciência e das artes úteis" e que, portanto, protege a maneira como os autores expressam ideias, mas "não a ideia subjacente em si, os fatos incorporados na mensagem articulada do autor ou outros blocos de construção de criativo", que são indiscutivelmente "os elementos dos trabalhos dos autores que seriam úteis para o modelo de treinamento do ChatGPT”.

Mas há normas e interpretações que divergem dessa posição. A Dra Flavia Murad Mansur Schaad, professora de Direito Digital do CEU Law School, da Faculdade Belavista e sócia do escritório Mansur Murad Advogados, cita, por exemplo, o artigo 9 do TRIPS (Aspectos Relacionados ao Comércio dos Direitos de Propriedade Intelectual).

Essa normativa internacional assegura que a proteção dos direitos de autor realmente não protege as ideias em si, mas suas "expressões, procedimentos, métodos de operação e conceitos matemáticos", divergindo do posicionamento da OpenAI.

“A máquina não cria nada do zero, não tem cérebro, julgamento ou discernimento. A IA seleciona suas respostas a partir dos materiais, textos, desenhos, menções, obras protegidas, expressões contidas em suportes digitalizados, discursos, matérias e uma infinidade de assuntos que estão nela imputados na forma de dados”, afirmou a advogada.

“Com base em tudo isso e sem citar fontes ou conceder autoria, a máquina absorve essas informações protegidas ou não e as repete em reprodução ou imitação de forma a violar os direitos daquele humano que as criou”, disse.

Dados são a gramática ou as ideias das IAs

Segundo Marcos Rogério Estevão, gerente de projetos pela FGV e especialista em IA, os Large Language Models (LLM) [grandes modelos de linguagem, em livre tradução), que são usados em aplicações de IA generativa como o ChatGPT, têm por base a predição da próxima palavra para formar frases e textos. “Isto é, o modelo aprende, estatisticamente, qual é a palavra mais provável de aparecer na sequência de uma frase”.

O treinamento para essa predição ocorre em duas etapas: um pré-treino, onde o modelo é apresentado a um gigantesco conjunto de dados sem classificação prévia, em geral retirados da internet. E um segundo momento, quando é realizado um ajuste fino, quando o modelo é treinado para realizar atividades específicas, a partir de dados ‘marcados’ em uma área específica de conhecimento.

Rogério afirma que o upload e a apresentação dos livros para os LLMs ocorrem nessa segunda fase, para que os sistemas de IA aprendam a gerar os textos de acordo com as convenções e conteúdos relacionados à área em questão. “No meu entendimento, usar livros ou textos para treinar um modelo, ou seja, fazê-lo aprender as regras de formação de frases e gramática, não me parece uma violação de direitos autorais.”

Outras alegações e os argumentos da OpenAI

Mas essas não são as únicas alegações das quais a OpenAI precisa se defender. Os processos ainda acusam a empresa de remover de modo intencional as informações sobre a autoria tanto dos textos gerados por meio do ChatGPT, quanto dos dados utilizados para o treinamento das IAs.

Murad afirma que, no caso das respostas geradas pelo chatbot, a citação das referências é uma alternativa plausível. “Uma das soluções discutidas hoje para se minimizar essa infração conduzida pela máquina, seria de perguntar ao próprio sistema a fonte da afirmação”.

Por seu lado, a OpenAI afirma que a lei americana não proíbe a distribuição de trabalhos derivados sem as informações de direitos de autor, apenas proíbe a remoção dessas informações para a distribuição de obras originais ou de suas cópias.

Sobre a exclusão intencional das referências dos dados de treinamento de sistemas, a empresa disse que não há quaisquer evidências dessa ação. Inclusive, afirma que algumas das próprias alegações dos escritores contradizem essa teoria, principalmente quando declaram que os livros utilizados para o treinamento foram copiados pela OpenAI em sua totalidade.

Exclusão intencional e enriquecimento ilícito

Ainda sobre a remoção intencional das referências autorais, os processos afirmam que o objetivo da OpenAI é "lucrar injustamente e receber crédito pelo desenvolvimento de um produto comercial cujo produto são reproduções não atribuídas de escritos e ideias roubadas".

Em sua defesa, a OpenAI afirma que seu objetivo é “ensinar seus modelos a derivar as regras subjacentes à linguagem humana” para auxiliar as pessoas a “economizarem tempo no trabalho”, a “tornar a vida diária mais fácil, " ou simplesmente "divertirem-se digitando instruções no ChatGPT".

A empresa argumenta que, portanto, sua atividade e objetivos são contrários aos de plagiadores, que lucram diretamente com a reprodução e venda não autorizada de materiais protegidos por direitos autorais.

A Dra Murad discorda. “Sem citar fontes ou conceder autoria, a máquina absorve essas informações protegidas ou não e as repete em reprodução ou imitação de forma a violar os direitos daquele humano que o criou. Sem remunerar o real criador e sem dar a sua paternidade[...], acaba por concorrer com ele. No final do dia, o sistema de incentivo do direito autoral é totalmente deturpado. Todo mundo perde”, afirma.

Do ponto de vista da parte operativa da IA, Rogério afirma que nada impede que os chatbots aprendam a plagiar os textos. “A questão surge quando falamos de plágio, uso do texto sem fontes. Mas daí, temos que mudar o foco do ChatGPT para o usuário (humano) que está fazendo uso dele, já que a ferramenta pode ser conduzida a produzir textos, baseados em outros autores, e o resultado ser usado de forma fraudulenta pelo usuário”.

Murad acredita que a legislação americana e que, portanto, a decisão do tribunal, é mais propensa a "prestigiar a criação do espírito humano", o que poderia levar Silverman a realmente mudar os rumos da história da IA.

VEJA TAMBÉM: