Fonte: It forum
Por César Ripari 
Dados incompletos, imprecisos ou desatualizados comprometem o valor da IA — qualidade precisa ser prioridade estratégica, não apenas técnica

Vivemos em um mundo onde 90% dos dados existentes foram gerados nos últimos dois anos. Esse volume não para de crescer – estima-se que o ritmo está em torno de 2,5 quintilhões de bytes por dia. Transformando esse número em uma escala mais próxima, estamos falando de 2.500 PB (Petabytes) ou 2,5 EB (Exabytes). Isso seria algo como 500 trilhões de fotos de alta qualidade ou 68 anos de dados contínuos de observação de satélites ao redor da terra.
Entretanto, decisão boa não nasce de dado ruim. IA assertiva não é resultado de dado ruim. Quando uma organização trabalha com dados incompletos ou imprecisos, informações desatualizadas, inconsistência entre sistemas e restrição/complexidade de acesso – entre tantos outros desafios – a conta chega alta: retrabalho, perda de receita, risco regulatório, campanhas ineficientes, estoques errados, churn evitável, prejuízo garantido. Em uma estimativa do Instituto Gartner, o custo médio da má qualidade dos dados é estimado em US$ 12,9 milhões por ano por organização.
Para as empresas, esse cenário representa uma oportunidade extraordinária. Em vez de tomar decisões baseadas apenas na intuição ou experiências recentes, é possível fundamentá-las em fatos comprovados, analisados e validados com base no comportamento e nas preferências dos clientes ao longo do tempo. A capacidade de coletar, integrar, analisar e extrair insights dos dados tornou-se um diferencial competitivo essencial. Empresas dos mais variados segmentos – desde varejo, manufatura, telecom e principalmente entretenimento – já perceberam o poder dos dados. Entretanto, a qualidade dos insights depende diretamente da qualidade dos dados. É essencial garantir que dados confiáveis estejam disponíveis para todos que necessitam deles – respeitando-se a privacidade e governança – e indo além da equipe de TI, envolvendo cientistas de dados, analistas e os tomadores de decisão.
Em outras palavras: Qualidade de Dados não se trata de um tema técnico — é uma agenda estratégica de eficiência, produtividade e governança.
Dados ruins podem vir de qualquer área da empresa, desde vendas até engenharia. Mas alguns princípios, se seguidos, podem deixar os dados prontos e confiáveis para a IA:
1. Dados devem ser Diversos (vindos de uma ampla variedade de fontes) para reduzir vieses nos sistemas de IA.
O quanto um conjunto de dados inclui amostras de diferentes origens, contextos, categorias e características distintas para que se possa refletir a realidade, evitando vieses. Ex: em uma instituição financeira, evitar que um empréstimo seja negado devido ao local de moradia de uma pessoa.
2. Dados devem ser Atualizados para possibilitar previsões precisas e embasadas.
O quanto os dados estão atualizados, considerando o intervalo de tempo desde sua coleta, transformações necessárias e disponibilização ao usuário. Há dados que não mudam com o passar do tempo – por ex: a data de nascimento de uma pessoa. Entretanto, outros dados precisam estar sempre atualizados, e de preferência, próximo do tempo real – por ex: dados do mercado financeiro ou do estoque de um e-commerce – já que dependem diretamente de mudanças constantes e rápidas. Há ainda dados que permitem uma tolerância maior em sua atualização, que pode variar de horas a dias. O importante é que o tempo de atualização dos dados seja conhecida e validada pelos consumidores dos dados ao longo da organização, garantindo assim, que a tomada de decisões seja a mais assertiva possível.
O grau em que uma informação corresponde ao valor ou estado real de um objeto, evento ou condição. A precisão dos dados considera três aspectos:
- Aspecto 1: O perfilamento dos dados de origem para compreender suas características, integridade, distribuição, redundância e formato. É também conhecido como análise exploratória de dados (EDA – exploratory data analysis).
 - Aspecto 2: Operacionalizar estratégias de remediação por meio da criação, implementação e monitoramento contínuo das regras de qualidade de dados. O papel dos “data stewards” (curadores ou administradores dos dados) é fundamental para a deduplicação e combinação dos dados. A IA pode também ajudar na automação e aceleração desse processo, avaliando a qualidade dos dados frequentemente
 - Aspecto 3: Habilitar a linhagem e análise de impacto – através de ferramentas utilizadas por engenheiros e cientistas de dados – que destacam o impacto de possíveis alterações dos dados e rastreiam as transformações causadas desde sua origem. Com esse monitoramento, evita-se modificações acidentais nos dados pelos sistemas ou modelos de IA.
 
3. Dados devem estar Seguros para proteger a reputação da IA.
Sistemas de IA normalmente usam dados sensíveis – incluindo Dados Pessoais Identificáveis (PII – Personally Identifiable Information), registros financeiros ou informações corporativas confidenciais – e o uso dos dados requer responsabilidade. Deixar os dados desprotegidos em apliações de IA é como deixar a porta de um cofre aberta. Agentes mal-intencionados podem roubar informações confidenciais, manipular dados de treinamento para influenciar resultados ou até mesmo suspender a operação de sistemas. Novamente, três táticas podem auxiliar na automação da segurança dos dados em escala, já que é quase impossível realizar essa tarefa manualmente:
- Classificação dos Dados: detectar, categorizar e rotular os dados que alimentam a etapa seguinte.
 - Proteção dos Dados: definir políticas de mascaramento, tokenização e criptografia para ofuscar dados sensíveis.
 - Controle dos Dados: definir políticas que descrevam o controle de acesso, ou seja, quem pode acessar/atualizar os dados e em que granularidade.
 
Esses três conceitos funcionam juntos, garantindo a privacidade, designação de segurança (dados sensíveis, confidenciais ou restritos) e por fim, a política de controle de acesso.
4. Dados devem ser Identificáveis de forma fácil para permitir o uso de informações relevantes e contextuais.
Fornecer dados certos, no formato correto, para pessoas ou aplicativos de IA de forma assertiva não é suficiente. Os dados prontos para IA precisam ser facilmente identificáveis e acessíveis. Imagine uma biblioteca com todos os livros inacessíveis – o conhecimento está lá, mas sem utilidade. Dados identificáveis revelam o verdadeiro potencial para Machine Learning e IA Generativa, permitindo que essas tecnologias possam analisar e aprender para produzir os resultados inovadores que se esperam. Boas práticas visando a qualidade dos metadados são fundamentais – além dos aspectos técnicos – é importante garantir a tipagem semântica, garantindo o real significado daquele dado dentro de um determinado contexto. Além disso, a criação de um glossário de dados, assegurando o entendimento e consistência da informação em torno de toda a organização. E, por fim, um catálogo onde essas informações possam estar disponíveis e acessíveis, respeitando-se as regras de governança e segurança.
5. Dados devem ser facilmente consumíveis por MLs (Machine Learning) ou LLMs (Large Language Models) para treinamento.
Os LLMs, conhecidas como Grandes Modelos de Linguagem – como por exemplo ChatGPT, Gemini, Anthropic’s Claude, entre outros, foram (e continuam sendo) treinados com quantidades massivas de texto. Mesmo sendo exaustivamente treinados, questões específicas de cada organização não podem ser respondidas, já que esses modelos têm acesso aos dados corporativos. Assim, esses modelos precisam ser alimentados com informações de cada empresa (ou segmento), resultando em respostas mais relevantes e coerentes com o negócio.
Para isso, um método bastante comum utilizado pelas empresas é o RAG (Retrieval-Augmented Generation, ou Geração Aumentada por Recuperação) que consiste em utilizar informações extraídas de arquivos, normalmente dados não-estruturados, tais como apresentações, emails, documentos em texto, PDFs, transcrições, etc. Essas informações são segmentadas em partes gerenciáveis, convertidas em formatos numéricos e armazenadas em bancos de dados vetoriais, para que os LLMs possam processar. O quão mais fácil e rápida essa tarefa puder ser concluída, mais rápido será o retorno, e a IA poderá trazer benefícios reais para o consumidor daquela informação.
Conclui-se que, é importante ressaltar que além de pensar na qualidade dos dados, utilizar a IA de forma responsável é primordial para qualquer organização. É fundamental garantir que os colaboradores, independente do seu nível hierárquico, possuam os skills necessários para usar as ferramentas e as informações adequadamente. Comitês de Governança de Dados e IA estão sendo criados e adotados pela maioria das organizações para que as políticas sejam implementadas e seguidas. Garantir a qualidade dos dados e o uso da IA de forma responsável é a chave para o sucesso das organizações.
____
*Colíder do Comitê de Inteligência e Governança de Dados da Associação Brasileira das Empresas de Software (ABES)
					
				









