Pular para o conteúdo principal

Guia Prático: Como Preparar Dados para uma POC

Uma Prova de Conceito (POC) abastecida com interações reais do seu chatbot é o mecanismo mais eficiente para homologar o Waizer — mas representa também o estágio em que dados sensíveis correm maior risco de exposição desnecessária. Este guia consolida as diretrizes operacionais para blindar o ambiente antes, durante e após a execução da POC, preservando a conformidade com a LGPD.

Premissa de Arquitetura

O Waizer não dispõe de rotinas nativas ou automatizadas para mascaramento de dados pessoais na camada de recepção. Qualquer payload importado será armazenado e transmitido para os subprocessadores de IA exatamente no formato recebido. A higienização prévia da base é de responsabilidade integral do cliente.

Planejamento de Escopo Mínimo Viável

Antes de extrair qualquer volume de dados do seu ambiente de produção, delimite o escopo respondendo aos seguintes critérios:

  • Janela Temporal Relevante: Para validar a acurácia dos modelos de IA, uma amostragem contendo entre 2 e 4 semanas de conversas é estatisticamente suficiente na vasta maioria dos cenários. Evite exportar meses de histórico se uma quinzena resolve o diagnóstico.
  • Segmentação de Fluxos: Selecione árvores de conversação que reflitam os gargalos reais que você deseja analisar (ex: fluxos de retenção ou intenções de cancelamento), em vez de despejar logs indiscriminadamente.
  • Privacidade por Desenho (Privacy by Design): Restrinja o número de participantes convidados para o projeto ao menor número possível de avaliadores técnicos.
Conformidade Legal

Adotar a minimização de dados — limitando o processamento ao estritamente necessário para cumprir a finalidade pretendida — atende diretamente ao disposto no art. 6º, III da LGPD, reduzindo sensivelmente a superfície de risco da sua empresa.

Técnicas de Anonimização Pré-Ingestão

Mapeamento e Higienização de Campos

Antes de efetuar o upload do arquivo CSV ou realizar chamadas de API, faça uma varredura nas propriedades e substitua os dados conforme a matriz técnica abaixo:

Categoria de DadoPonto de Ocorrência ComumTratamento Recomendado
Número de TelefoneCampo threadId ou corpo do textoSubstituir por hash ou ID sequencial unificado (ex: CONTATO_001)
CPF / CNPJConteúdo das mensagens textuaisSubstituir por tag de omissão padrão como [CPF OMITIDO]
Nome CompletoConteúdo das mensagens ou campo usernameSubstituir por rótulos genéricos (ex: Cliente 001) ou iniciais
Correio EletrônicoConteúdo das mensagens textuaisSubstituir pelo marcador fixo [EMAIL OMITIDO]
Dados FinanceirosConteúdo das mensagens textuaisSubstituir pela tag genérica [DADOS DE PAGAMENTO OMITIDOS]
Geolocalização / EndereçoConteúdo das mensagens textuaisPreservar apenas a cidade ou região macro, se necessário para o KPI
Registros de SaúdeConteúdo das mensagens textuaisConverter para uma abstração ampla de categoria (ex: [INFO_SAUDE])

Tratamento do Parâmetro threadId

Em integrações originadas do WhatsApp via Blip, o parâmetro threadId herda por padrão o número de telefone do cliente, o que constitui um dado pessoal direto. Ele é armazenado em texto puro e incluído na camada de metadados transmitida para as APIs de inteligência artificial.

Antes de submeter a base à POC, mascare os valores de threadId convertendo-os em hashes sequenciais:

Antes: 5511999990001
Depois: CONTATO_0001
Manutenção de Vínculo Analítico

Esta conversão precisa ser determinística e consistente: o mesmo número de telefone original deve sempre resultar no mesmo identificador sequencial fictício. Isso assegura que as múltiplas interações de um mesmo usuário permaneçam correlacionadas e agrupadas corretamente para a análise da IA.

Conteúdo Isento de Anonimização

Informações e mensagens estritamente operacionais ou de navegação genérica que não façam referência a indivíduos não requerem tratamento ou modificação. Exemplos:

  • "Quero emitir a segunda via do meu boleto"
  • "Qual o horário de atendimento da filial?"
  • "O botão de confirmação não está respondendo"

Concentre o esforço de engenharia de dados estritamente nos nós identificáveis do arquivo (threadId, username) e em inputs livres nos quais o cliente costume digitar credenciais.

Mecanismos de Substituição em Lote

Para anonimizar o parâmetro threadId em ferramentas de planilha (como Excel ou Google Sheets):

  1. Insira uma coluna adjacente utilizando a fórmula ="CONTATO_"&TEXTO(LINHA()-1,"0000") para estruturar os IDs sequenciais de forma limpa.
  2. Acione o comando Localizar e Substituir (Ctrl + H) utilizando expressões regulares básicas para varrer e converter padrões de e-mails ou CPFs explicitamente digitados no corpo do texto das mensagens para tokens como [REDACTED].
  3. Para volumetrias massivas, priorize rodar um script utilitário simples em Python (pandas) para higienizar o dataset local antes de consolidar o arquivo CSV final.
Validação de Amostragem

Concluído o processo de higienização e antes de injetar os dados no Waizer, faça uma varredura de checagem no arquivo buscando por caracteres como @, .com, sequências numéricas contínuas de 11 dígitos e palavras-chave regulatórias como CPF, senha ou cartão para garantir que nenhum dado residual tenha passado pelo script.

Perímetro de Segurança em Ambientes de Avaliação

Transmissão para Subprocessadores Externos

O processamento semântico das conversas submetidas ao Waizer utiliza as APIs comerciais da OpenAI e Anthropic. Embora esses provedores possuam salvaguardas contratuais proibindo o uso dos dados corporativos para treinamento de modelos públicos, eles atuam como subprocessadores de dados da sua operação.

Certifique-se de que este fluxo analítico esteja devidamente mapeado nas políticas internas de privacidade da sua companhia ou, na ausência dessa validação prévia dentro do cronograma da POC, utilize estritamente dados de teste sintéticos (fictícios).

Credenciais Operacionais de Produção

Se a sua avaliação técnica intersectar a integração nativa com o ecossistema Blip, evite utilizar chaves ou tokens de acesso vinculados ao seu ambiente de produção ativo. Como boas práticas de engenharia, adote as seguintes alternativas:

  • Conecte a integração a um bot espelho (ambiente de homologação ou staging) abastecido com logs controlados;
  • Opte por extrair um relatório CSV estático do histórico de produção, aplicando as rotinas de anonimização listadas neste guia antes de efetuar o upload no Waizer.

Controle de Acessos Reduzido

Por se tratar de um ambiente temporário de homologação, os projetos configurados para POC costumam sofrer de menor rigor de fiscalização interna por parte dos times de TI. Evite convidar colaboradores alheios ao comitê de avaliação técnico sob a justificativa de "demonstração de interface".

Checklist de Segurança para Administradores de POC

Utilize este roteiro técnico de validação para auditar o ciclo de vida dos dados na Prova de Conceito:

1. Fase de Preparação (Pré-Importação)

  • Delimitou a janela histórica ao intervalo mínimo necessário (entre 2 e 4 semanas).
  • Converteu de forma determinística os valores de threadId reais em identificadores opacos sequenciais.
  • Aplicou filtros de substituição para remover ocorrências de CPF, telefones, e-mails e chaves financeiras do corpo das mensagens.
  • Expurgou do dataset conversas associadas a fluxos de menores de idade ou laudos de saúde.
  • Realizou varredura de controle de qualidade buscando por sequências numéricas longas e caracteres especiais de e-mail.
  • Validou o alinhamento jurídico com o DPO interno da empresa ou chaveou o escopo para dados sintéticos.

2. Fase de Execução (Durante a POC)

  • Restringiu as permissões de acesso ao projeto Waizer exclusivamente aos avaliadores ativos.
  • Assegurou que chaves de API criadas para testes não herdem privilégios desnecessários na organização.
  • Evitou o uso de chaves de produção do Blip nos parâmetros de conexão de teste.

3. Fase de Encerramento (Pós-POC)

  • Removeu as permissões e logins dos usuários alocados apenas para a fase de testes.
  • Executou o comando de exclusão do projeto temporário na interface do Waizer.
  • Abriu um ticket formal no suporte do Waizer informando o ID do projeto POC para exigir o expurgo físico dos dados nos clusters analíticos (detalhes no guia de Retenção e Exclusão de Dados).
  • Invalidou e excluiu em definitivo os tokens gerados em Configurações da organizaçãoChaves de API.
  • Arquivou o relatório interno documentando o escopo, volume de dados consumido e os envolvidos no processo de teste para fins de auditoria.