O Processamento de Linguagem Natural, uma vertente da Inteligência Artificial, é usado para ajudar dispositivos tecnológicos a entenderem a linguagem humana. No entanto, embora essa tecnologia esteja a popularizar-se nos últimos anos, ainda há muitos desafios a serem suplantados.
O Processamento de Linguagem Natural (PLN) é uma subárea da Inteligência Artificial que se caracteriza pela capacidade dos computadores de entender, interpretar e manipular a linguagem humana. Apesar de não ser uma ciência nova, vem ganhando mais relevância nos últimos anos com o surgimento de ferramentas fundamentadas nessa tecnologia.
Observar as formas de comunicação dos humanos ajuda a entender todo o conceito que envolve o PLN. Afinal, apenas os humanos foram capazes de desenvolver sua linguagem para além dos gestos, falas e sintaxe. “Persistir a linguagem ao longo do tempo é só para o homo sapiens. Não existe nenhum animal que tenha deixado um documento para a geração posterior, por exemplo. Conseguimos evoluir muito mais rápido enquanto espécie”, diz Christian Aranha, doutor em Inteligência Computacional.
Aranha explica que, para conseguir ler e interpretar dados, os humanos utilizam um mecanismo relativamente simples. Dentro do cérebro, as informações são trabalhadas em formas de sinais sintáticos e semânticos. Assim, um único motor lida com diferentes dados, seja imagens, sons e textos, da mesma forma. A diferença para o PNL está na conversão dos receptores que tratam especificamente cada tipo de informação.
Nos sistemas informatizados, muitas vezes há uma necessidade de decompor os dados e colocá-los de uma forma que a máquina consiga entender. Diferentes técnicas podem ser utilizadas, como métodos estatísticos e abordagens algorítmicas, especialmente porque há bastante divergência em relação aos dados baseados em texto ou voz, por exemplo.
Lyse Nogueira, Customer Advisor no SAS, acrescentou que o Processamento de Linguagem Natural está muito ligado às tecnologias de Machine Learning, Deep Learning e redes neurais.
“As redes neurais são os modelos computacionais mais utilizados para fazer esse entendimento da máquina, fazê-la compreender e interpretar não só o texto, mas também as imagens. Além disso, vemos que as máquinas já conseguem, de facto, produzir alguma coisa. Então recebem um input de uma forma e transformam em outra, ou seja, recebem um texto e criam uma imagem. É lógico que são aplicações mais avançadas, não tão difundidas, mas já se vê isso a acontecer e o quanto esse estudo vem avançando”, destacou Lyse.
Em resumo, as técnicas de processamento das máquinas ainda não são próximas ao modelo utilizado naturalmente pelo cérebro humano. Nesse sentido, o que os cientistas procuram é criar uma solução computacional específica e mais desenvolvida nesse aspecto. Mas o mais importante é que o produto final seja algo parecido com a linguagem do ser humano.
Embora ainda haja muito o que avançar no desenvolvimento de tecnologias relacionadas ao Processamento de Linguagem Natural, muito do que já foi criado pode servir como modelo para novas criações, permitindo a automatização de parte do processo.
“O modelo não vai fazer uma mágica e trazer a coisa mais perfeita. É preciso estar sempre olhando e cuidando daquilo, mas tem uma grande parte desse processo que é automatizada. É possível, por exemplo, aproveitar algoritmos que já foram desenvolvidos ou modelos já treinados e então ter diversos aceleradores dentro do processo”, disse Lyse.
PLN aplicada aos negócios
As possibilidades de aplicação do PLN aos negócios são diversas e variadas. A Gartner, uma das principais empresas de pesquisa e consultoria do mundo, define essa estratégia de unir as técnicas de Processamento de Linguagem Natural com outras, como Data Mining, Machine Learning ou Forecasting, como Composite AI. Uma estratégia que vai além da aprendizagem de máquina para criar mais valor para empresa e para os consumidores.
“Quando pensa, por exemplo, num Call Center onde consegue fazer a tradução da linguagem falada para o texto em PLN e, depois, traduzir isso em regiões que dão mais problema, associando isso a técnicas de Forecasting ou Machine Learning, é possível entender qual é a estrutura necessária para atender determinada demanda naquela região. Assim, consegue melhorar muito a experiência do cliente. O PLN é uma técnica, mas tem que pensar no Data Science como um todo”, exemplifica Rui Bueno, diretor de pré-vendas e Customer Advisory no SAS.
Outro ponto importante, de acordo com Bueno, é ter uma visão clara dos impactos, benefícios e custos que soluções de PLN podem representar para o seu negócio. Isso passa pela decisão de, por exemplo, definir se a implementação da tecnologia será feita internamente ou será necessária a participação de parceiros externos. “Não adianta trabalhar com Data Science e PLN se você não sabe exatamente para onde isso vai. Vemos muitos projetos naufragando por isso. Agora que o mundo do Data Science está a ganhar mais maturidade, percebemos que muitas empresas investiram em um laboratório eficiente e funcional, mas ainda com uma grande dificuldade em transformar isso em resultados relevantes para o negócio”, diz o especialista.
Nesse aspecto, algo que pode ajudar as empresas a alavancar estratégias baseadas em soluções de IA e PLN é apostar em equipes diversas e na integração entre diferentes áreas da companhia. Sem a participação ativa das equipes da área de negócios, por exemplo, torna-se mais difícil garantir o sucesso das operações de PLN.
Bueno explicou que, com o advento do Open Source e a melhoria das técnicas de Data Science, a aproximação das áreas de tecnologia e negócios se tornou mais facilitada. É possível, inclusive, criar interfaces que permitam aos usuários não tão técnicos colaborarem, produzirem inteligência e modelos para enriquecer os resultados da companhia.
A ética e o Processamento de Linguagem Natural
Quando se fala em PLN, entra em evidência a questão da ética, uma vez que temos uma máquina, desprovida de sentimentos e empatia, fazendo leituras e interpretações do mundo tal qual como os humanos. Em contrapartida, os seres humanos carregam vieses intrínsecos. Só para se ter uma noção, estima-se que o cérebro humano tenha mais de 180 vieses cognitivos. De acordo com Anna Braga, Head of Laboratories do Cappra Lab, classificá-los como algo ruim e que deve ser combatido não é um caminho, uma vez que não é possível eliminá-los. Ao contrário, o movimento que se observa hoje é tentar reduzir esses vieses.
No entanto, pensar em decisões relacionadas a criação de um modelo que seja completamente livre desses preconceitos é algo mais complexo. “Quando estamos a fazer um modelo para prever determinada situação, imputamos vários dados lá e, geralmente, esses dados são baseados em um histórico. Então, quanto mais dados fornecermos, melhor para a aprendizagem dessa máquina para que no final ela possa prever o resultado que gostaríamos de obter. Só que no ato de inserir essa informação e esse conjunto de dados históricos na máquina, é onde carregamos nossos vieses, na hora de selecionar esse tipo de dado.”
Dessa forma, a primeira preocupação ao se construir uma solução em PLN é treinar a máquina com diferentes modelos para que ela possa compreender todas as nuances e discrepâncias possíveis e, assim, não perpetuar vieses negativos e preconceitos. “É muito importante formar uma equipe diversa, pois cada um tem uma vivência, um histórico, uma percepção de mundo diferente. E quanto mais diversa for a equipa e quanto mais a máquina receber formação, maiores serão as chances de conseguir reduzir esses vieses, uma vez que eles seriam identificados de forma preventiva”, diz Ana.
Segundo Ana, embora ainda haja muito a avançar nesse sentido, existe a possibilidade de que, algum dia, as máquinas sejam capazes de aprender minimamente, e com limitações, algumas regras de ética e moral. No entanto, é preciso considerar que mesmo entre os seres humanos existem diferentes visões sobre o que é ser ético.
Desafios de criar modelos em PLN alinhados às questões éticas
Construir modelos considerados éticos é uma responsabilidade que começa em quem desenvolve esses sistemas. Aline Riquetti, Senior Industry Consultant no SAS, pontuou que as empresas com esse tipo de preocupação optam por integrar em suas equipes pessoas especializadas em ética para garantir que suas soluções sejam desenvolvidas com base nesses fundamentos. Mas, diz ela, existe um caminho a ser percorrido antes que se alcance esse resultado.
“Tudo começa na preparação dos dados, quando faz uma curadoria, filtra e seleciona essas informações. Quando o modelo fica pronto, deve haver uma equipe responsável por analisar se as informações selecionadas não acabaram tendo algum viés ou conflito ético naquele modelo que está em produção. A responsabilidade começa pelas pessoas que desenvolveram aquele sistema e colocaram no ar, pelo fabricante de software que disponibiliza recurso para fazer a avaliação daquele algoritmo e, em certa medida, também dos reguladores, que fazem a análise desses modelos”, explica Aline.
Acredita que, embora as discussões ainda estejam num estágio inicial, a preocupação acerca do modo que as empresas vão trabalhar os seus dados e modelos de PLN ganharão um envolvimento maior dos reguladores, que vão controlar se aquilo que está em produção tem processos de curadoria e análise.
Como uma das empresas pioneiras em inteligência artificial e analytics, o SAS esteve por trás de muitos avanços que transformaram a forma como o mundo utiliza os dados. Agora, com o uso crescente e difundido de poderosas tecnologias de dados, a importância da inovação responsável nunca foi tão relevante. Para formalizar um compromisso com a equidade e a centralidade humana, o SAS deu início, em maio, a uma iniciativa de inovação responsável, norteada por sua própria Prática de Ética de Dados.
O SAS acredita que a inovação responsável inclui, mas não se limita a, tópicos importantes como IA, algoritmos e vieses durante todo o processo de inovação. Uma abordagem de inovação responsável injeta equidade e justiça em cada passo, desde a ideia até o desenvolvimento e a implementação.
A Prática de Ética de Dados (DEP) do SAS consiste numa equipa multifuncional que coordena um esforço global para ajudar colaboradores e clientes a implementar sistemas orientados por dados que promovam o bem-estar humano, a capacidade e a igualdade. A equipe é liderada por Reggie Townsend, recentemente nomeado para o Conselho Nacional de Consultoria de IA do Departamento de Comércio dos EUA (NAIAC). Também faz parte da diretoria da EqualAI, uma organização sem fins lucrativos focada em reduzir o viés inconsciente no desenvolvimento e uso da IA.