Guia Prático: Como Preparar Dados para uma POC
Uma Prova de Conceito (POC) abastecida com interações reais do seu chatbot é o mecanismo mais eficiente para homologar o Waizer — mas representa também o estágio em que dados sensíveis correm maior risco de exposição desnecessária. Este guia consolida as diretrizes operacionais para blindar o ambiente antes, durante e após a execução da POC, preservando a conformidade com a LGPD.
O Waizer não dispõe de rotinas nativas ou automatizadas para mascaramento de dados pessoais na camada de recepção. Qualquer payload importado será armazenado e transmitido para os subprocessadores de IA exatamente no formato recebido. A higienização prévia da base é de responsabilidade integral do cliente.
Planejamento de Escopo Mínimo Viável
Antes de extrair qualquer volume de dados do seu ambiente de produção, delimite o escopo respondendo aos seguintes critérios:
- Janela Temporal Relevante: Para validar a acurácia dos modelos de IA, uma amostragem contendo entre 2 e 4 semanas de conversas é estatisticamente suficiente na vasta maioria dos cenários. Evite exportar meses de histórico se uma quinzena resolve o diagnóstico.
- Segmentação de Fluxos: Selecione árvores de conversação que reflitam os gargalos reais que você deseja analisar (ex: fluxos de retenção ou intenções de cancelamento), em vez de despejar logs indiscriminadamente.
- Privacidade por Desenho (Privacy by Design): Restrinja o número de participantes convidados para o projeto ao menor número possível de avaliadores técnicos.
Adotar a minimização de dados — limitando o processamento ao estritamente necessário para cumprir a finalidade pretendida — atende diretamente ao disposto no art. 6º, III da LGPD, reduzindo sensivelmente a superfície de risco da sua empresa.
Técnicas de Anonimização Pré-Ingestão
Mapeamento e Higienização de Campos
Antes de efetuar o upload do arquivo CSV ou realizar chamadas de API, faça uma varredura nas propriedades e substitua os dados conforme a matriz técnica abaixo:
| Categoria de Dado | Ponto de Ocorrência Comum | Tratamento Recomendado |
|---|---|---|
| Número de Telefone | Campo threadId ou corpo do texto | Substituir por hash ou ID sequencial unificado (ex: CONTATO_001) |
| CPF / CNPJ | Conteúdo das mensagens textuais | Substituir por tag de omissão padrão como [CPF OMITIDO] |
| Nome Completo | Conteúdo das mensagens ou campo username | Substituir por rótulos genéricos (ex: Cliente 001) ou iniciais |
| Correio Eletrônico | Conteúdo das mensagens textuais | Substituir pelo marcador fixo [EMAIL OMITIDO] |
| Dados Financeiros | Conteúdo das mensagens textuais | Substituir pela tag genérica [DADOS DE PAGAMENTO OMITIDOS] |
| Geolocalização / Endereço | Conteúdo das mensagens textuais | Preservar apenas a cidade ou região macro, se necessário para o KPI |
| Registros de Saúde | Conteúdo das mensagens textuais | Converter para uma abstração ampla de categoria (ex: [INFO_SAUDE]) |
Tratamento do Parâmetro threadId
Em integrações originadas do WhatsApp via Blip, o parâmetro threadId herda por padrão o número de telefone do cliente, o que constitui um dado pessoal direto. Ele é armazenado em texto puro e incluído na camada de metadados transmitida para as APIs de inteligência artificial.
Antes de submeter a base à POC, mascare os valores de threadId convertendo-os em hashes sequenciais:
Antes: 5511999990001
Depois: CONTATO_0001
Esta conversão precisa ser determinística e consistente: o mesmo número de telefone original deve sempre resultar no mesmo identificador sequencial fictício. Isso assegura que as múltiplas interações de um mesmo usuário permaneçam correlacionadas e agrupadas corretamente para a análise da IA.
Conteúdo Isento de Anonimização
Informações e mensagens estritamente operacionais ou de navegação genérica que não façam referência a indivíduos não requerem tratamento ou modificação. Exemplos:
- "Quero emitir a segunda via do meu boleto" ✓
- "Qual o horário de atendimento da filial?" ✓
- "O botão de confirmação não está respondendo" ✓
Concentre o esforço de engenharia de dados estritamente nos nós identificáveis do arquivo (threadId, username) e em inputs livres nos quais o cliente costume digitar credenciais.
Mecanismos de Substituição em Lote
Para anonimizar o parâmetro threadId em ferramentas de planilha (como Excel ou Google Sheets):
- Insira uma coluna adjacente utilizando a fórmula
="CONTATO_"&TEXTO(LINHA()-1,"0000")para estruturar os IDs sequenciais de forma limpa. - Acione o comando Localizar e Substituir (
Ctrl + H) utilizando expressões regulares básicas para varrer e converter padrões de e-mails ou CPFs explicitamente digitados no corpo do texto das mensagens para tokens como[REDACTED]. - Para volumetrias massivas, priorize rodar um script utilitário simples em Python (
pandas) para higienizar o dataset local antes de consolidar o arquivo CSV final.
Concluído o processo de higienização e antes de injetar os dados no Waizer, faça uma varredura de checagem no arquivo buscando por caracteres como @, .com, sequências numéricas contínuas de 11 dígitos e palavras-chave regulatórias como CPF, senha ou cartão para garantir que nenhum dado residual tenha passado pelo script.
Perímetro de Segurança em Ambientes de Avaliação
Transmissão para Subprocessadores Externos
O processamento semântico das conversas submetidas ao Waizer utiliza as APIs comerciais da OpenAI e Anthropic. Embora esses provedores possuam salvaguardas contratuais proibindo o uso dos dados corporativos para treinamento de modelos públicos, eles atuam como subprocessadores de dados da sua operação.
Certifique-se de que este fluxo analítico esteja devidamente mapeado nas políticas internas de privacidade da sua companhia ou, na ausência dessa validação prévia dentro do cronograma da POC, utilize estritamente dados de teste sintéticos (fictícios).
Credenciais Operacionais de Produção
Se a sua avaliação técnica intersectar a integração nativa com o ecossistema Blip, evite utilizar chaves ou tokens de acesso vinculados ao seu ambiente de produção ativo. Como boas práticas de engenharia, adote as seguintes alternativas:
- Conecte a integração a um bot espelho (ambiente de homologação ou staging) abastecido com logs controlados;
- Opte por extrair um relatório CSV estático do histórico de produção, aplicando as rotinas de anonimização listadas neste guia antes de efetuar o upload no Waizer.
Controle de Acessos Reduzido
Por se tratar de um ambiente temporário de homologação, os projetos configurados para POC costumam sofrer de menor rigor de fiscalização interna por parte dos times de TI. Evite convidar colaboradores alheios ao comitê de avaliação técnico sob a justificativa de "demonstração de interface".
Checklist de Segurança para Administradores de POC
Utilize este roteiro técnico de validação para auditar o ciclo de vida dos dados na Prova de Conceito:
1. Fase de Preparação (Pré-Importação)
- Delimitou a janela histórica ao intervalo mínimo necessário (entre 2 e 4 semanas).
- Converteu de forma determinística os valores de
threadIdreais em identificadores opacos sequenciais. - Aplicou filtros de substituição para remover ocorrências de CPF, telefones, e-mails e chaves financeiras do corpo das mensagens.
- Expurgou do dataset conversas associadas a fluxos de menores de idade ou laudos de saúde.
- Realizou varredura de controle de qualidade buscando por sequências numéricas longas e caracteres especiais de e-mail.
- Validou o alinhamento jurídico com o DPO interno da empresa ou chaveou o escopo para dados sintéticos.
2. Fase de Execução (Durante a POC)
- Restringiu as permissões de acesso ao projeto Waizer exclusivamente aos avaliadores ativos.
- Assegurou que chaves de API criadas para testes não herdem privilégios desnecessários na organização.
- Evitou o uso de chaves de produção do Blip nos parâmetros de conexão de teste.
3. Fase de Encerramento (Pós-POC)
- Removeu as permissões e logins dos usuários alocados apenas para a fase de testes.
- Executou o comando de exclusão do projeto temporário na interface do Waizer.
- Abriu um ticket formal no suporte do Waizer informando o ID do projeto POC para exigir o expurgo físico dos dados nos clusters analíticos (detalhes no guia de Retenção e Exclusão de Dados).
- Invalidou e excluiu em definitivo os tokens gerados em Configurações da organização → Chaves de API.
- Arquivou o relatório interno documentando o escopo, volume de dados consumido e os envolvidos no processo de teste para fins de auditoria.