O laboratório treinou um robô de conversa autónomo, um chatbot, para aprender a partir de avaliações humanas e realizar pesquisas na internet por informação que sustente as suas afirmações.
De acordo com um novo artigo do Laboratório de Inteligência Artificial (IA) da empresa DeepMind, parte do conglomerado Alphabet, o truque para fazer um bom chatbot baseado em IA talvez seja ter seres humanos a dizerem para este como deve se comportar, forçando o modelo a sustentar as suas alegações usando a internet.
Num artigo sem revisão por pares publicado no final de setembro, o time apresenta o Sparrow, um chatbot de IA treinado com o grande modelo de linguagem Chinchila, desenvolvido pela DeepMind.
O Sparrow é projetado para conversar com seres humanos e responder perguntas pesquisando em tempo real no Google para fundamentar as suas respostas. Dependendo do quão útil as pessoas acharam as suas devolutivas, este é então formado usando um algoritmo de reinforcement learning, o qual aprende por tentativa e erro até alcançar um objetivo específico. Esse sistema é planeado para ser um progresso em direção ao desenvolvimento de IA que consiga conversar com seres humanos sem consequências perigosas, tais quais encorajar pessoas a causar danos a terceiros ou a si mesmas.
Grandes modelos de linguagem geram textos semelhantes a algo que um ser humano escreveria. São cada vez mais uma parte crucial da infraestrutura da internet, sendo usados para resumir textos, construir ferramentas de pesquisa on-line mais avançadas, ou como chatbots de atendimento a clientes.
No entanto, são treinados a capturar quantidades vastas de dados e textos vindos da internet, os quais inevitavelmente refletem diversos preconceitos nocivos. Apenas um pequeno empurrão é necessário para que comecem a gerar conteúdo tóxico ou discriminatório. Numa IA cujo desenvolvimento é para ter conversas com humanos, os resultados podem ser desastrosos. Uma IA conversacional sem medidas apropriadas de segurança em prática pode fazer comentários ofensivos sobre minorias étnicas ou sugerir que pessoas bebam alvejante, por exemplo. Empresas de IA que esperam desenvolver tais sistemas de conversa já usaram de diversas técnicas para tornar os seus modelos mais seguros.
A OpenAI, criadora do famoso grande modelo de linguagem GPT-3, e a startup na área de IA, a Anthropic, tem usado reinforcement learning para incorporar preferências humanas nos seus respectivos modelos. Enquanto o chatbot por IA do Facebook, BlenderBot, usa de pesquisa on-line para embasar as suas respostas.
O Sparrow, da DeepMind, junta todas essas técnicas num único modelo.
A DeepMind exibiu para participantes humanos diversas respostas que o modelo havia dado para as mesmas perguntas para saber quais mais haviam gostado. Então foram solicitados a determinar se acharam as respostas plausíveis, e se o Sparrow tinha as sustentado com a devida evidência, tal como links para fontes. O modelo apresentou respostas plausíveis para perguntas factuais em 78% das vezes, usando comprovações que também haviam sido extraídas da internet.
Ao formular essas respostas, seguiu 23 regras determinadas pelos pesquisadores, tais quais não oferecer conselhos financeiros, fazer ameaças, ou afirmar ser uma pessoa.
A diferença entre essa abordagem e as anteriores é que a DeepMind espera usar “diálogo a longo prazo com segurança,” diz Geoffry Irving, pesquisador na área de segurança da DeepMind.
“Isso não significa que supomos que os problemas encontrados nesses modelos como a desinformação, estereótipos ou qualquer outro, serão óbvios à primeira vista. Queremos discutir sobre estes em detalhes. E isso também significa uma análise entre a relação de máquinas e humanos,” diz.
A ideia da DeepMind de usar preferências humanas para otimizar o aprendizado de um modelo de IA não é nova, diz Sara Hooker, diretora do laboratório sem fins lucrativos Cohere for AI.
“Mas as melhorias de agentes digitais de diálogo são convincentes e mostram as claras vantagens da otimização guiada por um ser humano em um contexto de grande modelo de linguagem,” diz Hooker.
Douwe Kiela, investigador da startup Hugging Face, diz que o Sparrow é “um bom próximo passo na escada da tendência atual da IA, onde estamos a tentar mais seriamente aprimorar os aspetos de segurança na implementação de grandes modelos de linguagem”.
Mas ainda há muito trabalho a se fazer antes que estes modelos conversacionais de IA possam ser lançados ao público.
O Sparrow ainda comete erros. O modelo às vezes sai do tópico da conversa ou cria respostas aleatórias. Alguns participantes obstinados também conseguiram fazer o modelo quebrar as regras em 8% das vezes. (Isso ainda é uma melhoria quando comparamos com modelos mais antigos: os modelos anteriores da DeepMind quebravam as regras com uma frequência três vezes maior que o Sparrow.)
“Em áreas onde uma resposta de um agente digital pode causar um grande dano ao ser humano, tal como oferecer orientação médica ou financeira, para muitos, isso pode ainda parecer como uma taxa de erros inaceitavelmente alta,” diz Hooker. O projeto também é construído baseado num modelo de língua inglesa, “sendo que vivemos em um mundo onde a tecnologia tem que atender a muitas línguas diferentes, de forma segura e responsável,” adiciona.
E Kiela ressalta outro problema: “Depender do Google para a busca de informações leva a vieses desconhecidos que são difíceis de identificar, já que tudo possui código fechado”.