Inteligência Artificial: O que é Processamento de Linguagem Natural (PLN)?

Provavelmente ao se tratar de Inteligência Artificial, você já ouviu falar de Machine Learning e Deep Learning. Outra das tecnologias indispensáveis para IA é o Processamento de Linguagem Natural (PLN).

Alfabeto com letras de madeira

Processamento de Linguagem Natural (PLN), ou Natural Processing Language (NLP), é um método de análise de textos feito por computadores. Está relacionada à compreensão da linguagem natural, ou seja, a nossa linguagem. Os dados escritos ou falados em linguagem natural passam por uma formatação de forma a estruturá-los, a fim de se obter padrões para aplicação dos algoritmos.

Provavelmente, os exemplos mais populares de PLN em ação são assistentes virtuais, como o Assistente Google, Siri e Alexa. A PLN entende texto escrito e falado como “Ei, Alexa, onde fica Punto del Inca?” e o transforma em números, facilitando o entendimento das máquinas.

Outra aplicação conhecida da PLN são os chatbots. Eles ajudam as equipes de suporte a resolver problemas, entendendo as solicitações de linguagem comum e respondendo automaticamente.

Os chatbots são um dos exemplos mais famosos quando falamos de Processamento de Linguagem Natural (PLN).

Existem muitos outros aplicativos do dia-a-dia que você usa, onde provavelmente já encontrou o processamento de linguagem natural sem perceber. Correção ortográfica, recomendações de texto ao escrever um e-mail, oferecer a tradução de uma postagem do Facebook escrita em um idioma diferente ou filtrar e-mails promocionais indesejados em sua pasta de spam.

Então, alguns dos principais objetivos da área de PLN são: traduzir um texto para outra língua ou linguagem, extração de palavras-chave, responder questões sobre as informações contidas em um texto, classificação de tópicos e muito mais.

Resumindo, o objetivo do Processamento de Linguagem Natural é tornar a linguagem humana — que é complexa, ambígua e extremamente diversa — fácil para as máquinas entenderem.

Os 7 níveis de processamento

Algumas palavras e estruturas são ambíguas, como por exemplo, a própria palavra “língua”, que pode se referir a um idioma ou ao órgão muscular do sistema digestivo. Quando ela aparece inserida em um enunciado, a compreensão pode ser alcançada pela máquina por meio de uma análise de texto ou através de uma série de perguntas feitas ao usuário.

Além disso, quando a interação é feita por voz, a máquina deverá ser capaz de detectar expressões intencionais: tons específicos, tais como interrogação ou sarcasmo, demonstram como compreender a linguagem humana é um desafio para a tecnologia, porque ela carrega diversas nuances, como modulações, tonalidades e variantes linguísticas.

De forma a apontar para os desenvolvedores, nem todas as aplicações precisam dos níveis mais altos de processamento. Ordenadas por dificuldade de implementação, esses são os níveis de processamento que uma língua pode ter:

  • Fonologia: estuda o sistema sonoro da língua, e como se comportam esses sons nas pronúncias;
  • Morfologia: trata de um modo geral a classificação, estrutura e a formação das palavras através de elementos morfológicos, ou seja, fragmentos que contém significado e compõem um todo, os morfemas;
  • Léxico: interpreta o significado das palavras;
  • Sintático: é a parte em que estudamos as regras que regem a construção das frases nas línguas naturais: a disposição das palavras na frase e das frases num discurso, e suas infinitas combinações possíveis para transmitir uma ideia;
  • Semântico: possibilita a interpretação das sentenças e dos enunciados, ou seja, dá significado a uma frase, enquanto o discurso faz uma análise do significado do texto;
  • Discurso: toda situação que envolve a comunicação dentro de um determinado contexto;
  • Pragmático: estuda essencialmente o objetivo da comunicação, algo que não está descrito nas palavras de maneira explícita.

Tipos de abordagem

Para todos esses níveis de processamento, temos os tipos de abordagem, que é como esses dados serão tratados pelos softwares. Eles são divididos em quatro tipos:

  • Simbólica;
  • Estatística;
  • Conexionista;
  • Híbrida.

A abordagem simbólica diz respeito a estruturas que não são ambíguas. Em cima de regras linguísticas, são criados algoritmos que possibilitam um processamento de linguagem simples.

A estatística faz uso de modelos matemáticos que consideram o texto como fonte primária de dados. Sem o uso das regras linguísticas, são capazes de deduzir como são utilizados os níveis de processamento em cada caso.

A abordagem conexionista, através da combinação do aprendizado estatístico com as teorias de representação do conhecimento, desenvolve modelos genéricos para a linguagem. Assim, torna possível que a máquina faça inferências e manipule os textos.

Flexível, a abordagem híbrida é uma mistura das abordagens anteriores, e por isso é mais eficiente ao tratar problemas de processamento de linguagem natural.

Técnicas de PLN

O Processamento de Linguagem Natural (PLN) aplica duas técnicas para ajudar os computadores a entender o texto: análise sintática e análise semântica.

Análise Sintática

A análise sintática trata o texto usando regras gramaticais básicas para identificar a estrutura da frase, como as palavras são organizadas e como as palavras se relacionam entre si.

Algumas de suas principais subtarefas incluem:

  • A tokenização, que consiste em dividir um texto em partes menores, chamadas tokens (que podem ser frases ou palavras) para tornar o texto mais fácil de manusear;
  • A marcação de parte da fala (marcação PoS), que marca os tokens como verbo, advérbio, adjetivo, substantivo, etc. Isso ajuda a inferir o significado de uma palavra (por exemplo, a palavra “livro” significa coisas diferentes se usada como verbo ou substantivo);
  • A lematização, por sua vez, consiste em reduzir as palavras flexionadas à sua forma básica para torná-las mais fáceis de analisar;
  • A remoção de palavras remove palavras de ocorrência frequente que não adicionam nenhum valor semântico, como eu, eles, tenho, gosto, seu, etc.

Análise Semântica

A análise semântica se concentra em capturar o significado do texto. Primeiro, ele estuda o significado de cada palavra individual (semântica lexical). Em seguida, analisa a combinação de palavras e o que significam no contexto. As principais subtarefas da análise semântica são:

  • A desambiguação do sentido da palavra tenta identificar em que sentido uma palavra está sendo usada em um determinado contexto;
  • A extração de relacionamento tenta entender como as entidades (lugares, pessoas, organizações, etc.) se relacionam umas com as outras em um texto.

Olhando para o futuro, alguns desenvolvimentos promissores envolvem PLN. A comunicação não verbal é um deles, por exemplo. Há um investimento crescente em fazer com que as máquinas não apenas entendam o que dizemos, mas como dizemos. Isso é particularmente interessante, pois com a mudança para ambientes de trabalho virtuais, a linguagem corporal e as expressões faciais tornaram-se mais importantes do que nunca.

O crescimento exponencial dos dados, maior poder de computação, avanços na tecnologia de PLN e novos modelos de Inteligência Artificial e Machine Learning estão criando uma oportunidade significativa para empresas. Tirar proveito desses dados e ampliar o seu uso e eficiência, é um movimento que amplia novas possibilidades de negócios e de gerar receita.

Se você gostou desse artigo, não deixe de me seguir nas minhas redes sociais: @adrianopontocafé e aqui no Medium!

Valeu, até mais!

CEO & Fundador da PMG Academy | MBA-FGV | Pós-Graduado Neurociência Educacional | Consultor de TI | Design Instrucional na https://www.pmgacademy.com

CEO & Fundador da PMG Academy | MBA-FGV | Pós-Graduado Neurociência Educacional | Consultor de TI | Design Instrucional na https://www.pmgacademy.com