Como mapear e classificar dados de CPF para conformidade com a LGPD

Para mapear dados de CPF conforme a LGPD, identifique todos os sistemas que coletam, armazenam ou processam CPF, documente a finalidade e base legal de cada tratamento, quem tem acesso, com quem é compartilhado e por quanto tempo é retido — esse mapeamento é o alicerce do RIPD (Relatório de Impacto à Proteção de Dados) e da resposta a auditorias da ANPD.

Introdução

O mapeamento de dados pessoais, também conhecido como data mapping ou inventário de dados, é o primeiro passo para a conformidade com a LGPD. Sem saber onde os dados de CPF residem nos seus sistemas, é impossível protegê-los adequadamente, responder a solicitações de titulares ou reportar incidentes à ANPD. Muitas organizações descobrem, ao fazer esse mapeamento, que dados de CPF estão espalhados por dezenas de sistemas, planilhas, e-mails e backups que sequer eram monitorados.

Por que mapear dados de CPF

O mapeamento responde a perguntas fundamentais exigidas pela LGPD:

Pergunta	Artigo LGPD	Exemplo com CPF
Quais dados são tratados?	Art. 37	CPF, nome, data de nascimento
Onde estão armazenados?	Art. 46	Banco PostgreSQL, cache Redis, logs ELK
Quem tem acesso?	Art. 46	Equipe de cadastro, sistema antifraude
Qual a base legal?	Art. 7o	Execução de contrato, legítimo interesse
Por quanto tempo?	Art. 16	5 anos após encerramento do contrato
Com quem são compartilhados?	Art. 26	CPFHub API, bureau de crédito
Qual o fluxo dos dados?	Art. 38	Formulário -> API -> Banco -> Relatório

Sem essas respostas documentadas, a empresa não consegue atender a fiscalizações, solicitações de titulares ou elaborar o RIPD (Relatório de Impacto à Proteção de Dados).

Metodologia de mapeamento

Conduza o mapeamento em fases estruturadas para garantir completude:

Levantamento de sistemas -- catalogue todos os sistemas, bancos de dados, planilhas e ferramentas que processam dados pessoais na organização
Identificação de campos -- para cada sistema, liste os campos que contêm dados pessoais, com atenção especial ao CPF e dados derivados
Mapeamento de fluxos -- documente como os dados fluem entre sistemas, desde a coleta até o descarte
Identificação de responsáveis -- determine quem é o owner de cada tratamento e quem tem acesso aos dados
Classificação de criticidade -- atribua níveis de sensibilidade e impacto em caso de vazamento

# Estrutura de inventário de dados pessoais
inventario_dados = {
    "sistema_cadastro": {
    "descricao": "Sistema principal de cadastro de clientes",
    "tipo_armazenamento": "PostgreSQL 14",
    "localizacao": "AWS sa-east-1",
    "dados_pessoais": [
    {
    "campo": "cpf",
    "classificacao": "dado_pessoal_identificador",
    "criticidade": "alta",
    "criptografado": True,
    "base_legal": "Art. 7o, V - Execução de contrato",
    "retencao": "5 anos após encerramento",
    "acesso": ["equipe_cadastro", "compliance"]
    },
    {
    "campo": "nome_completo",
    "classificacao": "dado_pessoal",
    "criticidade": "media",
    "criptografado": True,
    "base_legal": "Art. 7o, V - Execução de contrato",
    "retencao": "5 anos após encerramento",
    "acesso": ["equipe_cadastro", "atendimento"]
    },
    {
    "campo": "data_nascimento",
    "classificacao": "dado_pessoal",
    "criticidade": "media",
    "criptografado": False,
    "base_legal": "Art. 7o, V - Execução de contrato",
    "retencao": "5 anos após encerramento",
    "acesso": ["equipe_cadastro"]
    }
    ],
    "integracao_api_cpf": {
    "provedor": "CPFHub (cpfhub.io)",
    "endpoint": "GET https://api.cpfhub.io/cpf/{CPF}",
    "dados_recebidos": [
    "cpf", "name", "nameUpper", "gender",
    "birthDate", "day", "month", "year"
    ],
    "dados_armazenados": ["cpf", "name", "birthDate"],
    "dados_descartados": [
    "nameUpper", "day", "month", "year"
    ]
    }
    }
}

Classificação de dados por criticidade

Nem todos os dados pessoais têm o mesmo nível de sensibilidade. Estabeleça uma taxonomia clara:

Criticidade alta (identificadores diretos) -- CPF, RG, CNH e outros documentos que identificam univocamente o titular, exigindo criptografia obrigatória
Criticidade média (dados pessoais comuns) -- nome completo, data de nascimento, gênero e endereço, que requerem controle de acesso mas não necessariamente criptografia em todos os contextos
Criticidade baixa (dados derivados) -- faixa etária, região geográfica e outros dados agregados que não identificam diretamente o titular
Dados sensíveis (Art. 11) -- dados de saúde, orientação sexual, origem racial e convicção religiosa, que exigem base legal específica e proteções adicionais

O CPF, como identificador único nacional, sempre deve ser classificado com criticidade alta.

Ferramentas para mapeamento automatizado

Para organizações com muitos sistemas, o mapeamento manual pode ser inviável. Utilize ferramentas que automatizem a descoberta:

Data Discovery -- ferramentas como BigID, OneTrust e Securiti escaneiam bancos de dados em busca de padrões que correspondem a dados pessoais como CPF
DLP (Data Loss Prevention) -- soluções como Symantec DLP e Microsoft Purview monitoram fluxos de dados e identificam CPFs em trânsito
Scanning de código -- ferramentas como Semgrep podem ser configuradas para identificar padrões de CPF em código-fonte e logs
Inventário de APIs -- plataformas de API Management registram automaticamente quais endpoints consomem e retornam dados pessoais

# Exemplo: buscar padrões de CPF em arquivos de log com regex
# Útil para identificar locais onde CPFs estão expostos

grep -rn -P '\b\d{3}\.?\d{3}\.?\d{3}-?\d{2}\b' \
    /var/log/app/ \
    --include="*.log" \
    | head -20

# Contar ocorrências por arquivo
grep -rcl -P '\b\d{3}\.?\d{3}\.?\d{3}-?\d{2}\b' \
    /var/log/app/ \
    --include="*.log" \
    | wc -l

Manutenção do inventário

O mapeamento de dados não é um exercício pontual. Mantenha o inventário atualizado:

Revisão trimestral -- verifique se novos sistemas ou integrações foram adicionados sem atualização do inventário
Gate no pipeline -- exija que novas funcionalidades que tratem dados pessoais atualizem o inventário antes do deploy
Alertas automáticos -- configure scanners para notificar quando novos padrões de CPF forem detectados em locais não catalogados
Responsáveis definidos -- cada sistema deve ter um data owner responsável por manter o inventário atualizado
Integração com RIPD -- o inventário alimenta automaticamente o Relatório de Impacto à Proteção de Dados

Perguntas frequentes

O que é o mapa de dados (data map) e por que inclui CPF?

O mapa de dados é o inventário de todos os dados pessoais tratados pela empresa: o que é coletado, onde está armazenado, quem acessa, com quem é compartilhado e por quanto tempo é mantido. CPF aparece em múltiplos pontos — cadastro, notas fiscais, logs de KYC, integrações com APIs — e cada ocorrência deve ser mapeada.

Como encontrar todas as ocorrências de CPF nos sistemas de uma empresa?

Use ferramentas de descoberta de dados (data discovery) que varrem bancos de dados, arquivos e logs em busca de padrões de CPF. Para sistemas legados, auditoria manual de esquemas de banco de dados e documentação de APIs é necessária. O mapeamento raramente é completo na primeira versão — é um processo iterativo.

O RIPD é obrigatório para toda empresa que usa CPF?

O RIPD é obrigatório quando o tratamento de dados pode gerar riscos elevados aos titulares — o que inclui tratamento em larga escala de dados pessoais como CPF. A ANPD pode exigir o RIPD em fiscalizações. Mesmo quando não obrigatório formalmente, é uma boa prática que demonstra maturidade de compliance.

Como classificar o risco do tratamento de CPF para o RIPD?

Avalie: volume de CPFs tratados (quanto maior, maior o risco), sensibilidade dos dados associados ao CPF (saúde, financeiro aumentam risco), probabilidade de acesso não autorizado (controles técnicos existentes) e impacto de um vazamento nos titulares. A combinação desses fatores define o nível de risco e as medidas de mitigação necessárias.

Conclusão

O mapeamento e a classificação de dados pessoais, incluindo CPF, são pré-requisitos para qualquer programa de conformidade com a LGPD. Sem saber onde os dados estão, quem os acessa e por quanto tempo são retidos, é impossível protegê-los ou responder adequadamente a solicitações de titulares. Ao integrar com a API do cpfhub.io, a empresa adiciona ao seu inventário de dados um operador externo que processa CPFs em tempo real. Documente essa integração no RIPD, identifique os campos que são efetivamente armazenados (e descarte os que não são necessários) e defina o prazo de retenção desde o início.

Cadastre-se em cpfhub.io — 50 consultas mensais gratuitas, sem cartão de crédito — e comece com uma integração que já nasce mapeada no seu inventário de dados.

CPFHub.io

Pronto para integrar a API?

50 consultas gratuitas para testar agora. Sem cartão de crédito. Acesso imediato à documentação.

Começar grátis Ver documentação

Sobre a redação

Redação CPFHub.io

Time editorial especializado em APIs de CPF, identidade digital e compliance no mercado brasileiro. Produzimos guias técnicos, análises regulatórias e tutoriais sobre LGPD e KYC para desenvolvedores e líderes de produto.

Como Mapear e Classificar Dados Pessoais (Incluindo CPF) para Atender à LGPD