Pular para o conteúdo principal
9 min de leitura

Influência de IA

A visão Influência de IA mostra como as superfícies de IA interagem com seu site. Ela cobre duas coisas que você realmente pode medir hoje:

  1. Acesso de rastreadores de IA — quais dos 29 bots de IA rastreados suas declarações de robots.txt, llms.txt e Content-Signal permitem ou bloqueiam.
  2. Referências de IA — quais produtos de IA enviam visitantes humanos (ChatGPT, Claude, Perplexity, Gemini, Copilot, DeepSeek e 20+ outros).

Estes são apresentados em três abas: Visão Geral (resumo de postura + inspeção de robots/sinais), Rastreadores (a tabela completa do catálogo somente leitura) e Métricas (analytics de referências de IA).

Duas camadas adicionais — Citation (onde sua marca aparece dentro de respostas de IA) e Assist (aumento probabilístico em busca de marca após exposição à IA) — foram adiadas para a V2 porque precisam de um fornecedor ou de modelagem probabilística consciente do risco. Não entregamos métricas de vaidade que não possamos medir rigorosamente.

Você encontra Influência de IA em Intelligence → Influência de IA no painel.

Influência de IA está disponível em todos os planos, incluindo Grátis. A visibilidade do tráfego de IA é um sinal de aquisição base — não um recurso pago.

IA como canal de receita. Esta página mostra tráfego de IA. Quando um visitante identificado como IA converte, essa conversão também é creditada a um canal AI de primeira classe em Revenue → Attribution, com a mesma divisão por produto — além de um grupo Likely AI (unspecified) para visitas detectadas por heurística que chegam sem referrer. Use esta página para tráfego; use a atribuição de receita para conversões. (A atribuição de receita é exibida no painel autenticado, não em painéis públicos ou compartilhados.)

Aba Visão Geral

A Visão Geral responde a uma pergunta de relance:

"O ChatGPT (ou Claude, ou Perplexity, …) pode rastrear meu site? Eu bloqueei algo por acidente?"

Ela mostra um Resumo compacto (quantos dos 29 bots rastreados podem rastreá-lo, quantos estão bloqueados na raiz, visitas humanas de IA) e um cartão Robots & Sinais que torna o veredito verificável — links diretos "Ver bruto" para seu robots.txt e llms.txt, a declaração Content-Signal analisada e a lista explícita de bots bloqueados na raiz.

Content-Signal

O Zenovay analisa a diretiva Content-Signal que o "Managed robots.txt" da Cloudflare e um número crescente de sites agora emitem. Ela expressa a intenção de uso por IA independentemente do acesso de rastreamento:

  • search — seu conteúdo pode ser usado para construir um índice de busca?
  • ai-input — ele pode ser usado como entrada em tempo real para uma resposta generativa (RAG/grounding)?
  • ai-train — ele pode ser usado para treinar ou fazer fine-tuning de um modelo?

Cada um é mostrado como yes, no ou unset. Esta é a declaração moderna de consentimento de IA específica de conteúdo — distinta de um Disallow genérico.

Aba Rastreadores

Uma tabela somente leitura de todos os 29 rastreadores de IA rastreados, com o acesso configurado de cada bot no seu site. Ela é deliberadamente não um painel de controle — o Zenovay lê o robots.txt; ele não impõe bloqueios no edge. Ele reporta o que seu robots.txt declara.

Os 29 bots são agrupados em 5 categorias:

  • Assistentes de IA ao vivo — buscam páginas sob demanda para responder perguntas de usuários: ChatGPT-User, Perplexity-User, ClaudeBot, Bingbot (Copilot), Applebot-Extended.
  • Treinamento de modelos — coletam conteúdo para corpora de treinamento: GPTBot, Google-Extended, anthropic-ai, Common Crawl (CCBot), Meta-ExternalAgent, Bytespider, Amazonbot.
  • Agentes de navegador IA — agentes de tarefas autônomos navegando em nome de um usuário: ChatGPT-Operator, Claude-Computer-Use, You.com Agent.
  • Scrapers comerciais — feeds de mineração de dados vendidos a laboratórios de IA: DataForSEO Bot, PetalBot, Webz.io.
  • Busca com sobreposições de IA — índices de busca primários cujos resultados alimentam respostas de IA: Googlebot (AI Overviews).

O que o veredito significa

Para uma ferramenta de acesso-a-conteúdo-por-IA, a única pergunta que importa é "este bot consegue alcançar meu conteúdo?". O veredito é, portanto, reportado em três estados:

  • Permitido — o bot é autorizado na raiz do seu site. Isso inclui bots que são permitidos na raiz mas excluídos de caminhos genéricos de infraestrutura (/api, /_next, /e, …) — essas exclusões são mostradas como uma legenda, não um alarme, porque não restringem o conteúdo.
  • Bloqueado — o bot é proibido na raiz do site pelo robots.txt.
  • Desconhecido — não conseguimos ler seu robots.txt (erro de rede, 5xx, malformado) ou o site ainda não teve sua primeira verificação (sites novos são verificados em até 24 horas).

Combinação de grupos da RFC 9309 (importante se você usa o Managed robots.txt da Cloudflare)

Seguimos a RFC 9309. Os tokens UA são comparados sem distinção de maiúsculas/minúsculas como substrings (então ClaudeBot corresponde a Anthropic-ClaudeBot). Crucialmente, todos os grupos User-agent que correspondem a um bot são combinados, então a precedência de correspondência mais longa é aplicada com Allow vencendo empates.

Isso importa porque o Managed robots.txt da Cloudflare emite um bloco gerenciado que aplica Disallow: / a muitos bots de IA, e donos de sites frequentemente adicionam um grupo personalizado posterior que re-aplica Allow: / aos que eles querem para visibilidade de IA. Um parser ingênuo de primeira correspondência reportaria erroneamente esses bots re-permitidos como Bloqueados. O Zenovay combina os grupos e reporta o acesso efetivo do bot — correspondendo ao que um rastreador conforme realmente faz.

O botão Verificar novamente

O cabeçalho tem um botão Verificar novamente. Ele re-busca seu robots.txt + llms.txt, reavalia o catálogo completo de 29 bots e dispara 5 requisições HTTP HEAD ao vivo (um bot representativo por categoria) para detectar bloqueios em tempo de execução (WAF da Cloudflare, filtros anti-bot de CDN, restrições geográficas). Limitado a uma vez por minuto por site.

O aviso honesto

robots.txt é consultivo, não imposto.

Crawlers respeitáveis (OpenAI, Anthropic, Google, Perplexity, Microsoft) honram robots.txt. Os menos respeitáveis ignoram. Um veredito "Bloqueado" significa que o bot foi educadamente pedido a ficar longe — seu servidor ainda precisa impor isso se você quiser proteção real. Para impor ativamente: regras de bot de IA da Cloudflare, uma regra WAF/rate-limit correspondendo ao User-Agent, ou um beacon do lado do servidor (Zenovay V1.5 — mede eventos reais de rastreamento em vez de acesso configurado).

Aba Métricas

A aba Métricas é analytics de referências de IA — visitantes humanos que chegaram de produtos de IA. Uma visita é classificada como originária de IA usando quatro sinais, em ordem de prioridade:

  1. Origem de IA do lado do cliente — o rastreador lê uma pista do navegador in-app do produto de IA se estiver presente.
  2. Correspondência de domínio do referrerdocument.referrer corresponde a um host de IA conhecido (chat.openai.com, claude.ai, perplexity.ai, gemini.google.com, copilot.microsoft.com, deepseek.com, you.com, phind.com, t3.chat, kimi.com, +15 outros).
  3. Correspondência de fonte UTM — a URL de campanha carrega utm_source=chatgpt, utm_source=claude, etc. (44 variantes conhecidas).
  4. Correspondência de User-Agent — a visita veio do navegador in-app de um produto de IA.

Cada fonte de IA detectada é listada (não truncada). Cada visita armazena seu ai_source e o ai_detection_method que a classificou, com uma pontuação de confiança de 0.0–1.0, para que o painel Distribuição de método de detecção reconcilie exatamente com a divisão por fonte.

IA escura

Uma grande parte do tráfego chegado por IA não carrega referrer — o usuário colou seu link de uma janela de chat em uma nova aba, ou a superfície de IA removeu o referrer. Uma heurística comportamental diária captura esta "IA escura" entre visitantes de tráfego direto:

  • Pouso de conteúdo profundo (entrada em uma URL de cauda longa, não /)
  • Leitura focada em uma única página (30–300 segundos, profundidade de rolagem > 70%)
  • Visitante primeira-vez com baixa interação de clique
  • Chegada em horário comercial

Uma pontuação ≥ 60 marca a visita como is_ai_traffic=true com ai_detection_method='behavioral_heuristic' e confiança de 0.5–0.95. O método de detecção e a confiança são armazenados por visita para que você possa filtrar, exportar e auditar honestamente.

O que é adiado para V2

  • Citation — medir quando sua marca ou páginas aparecem dentro de respostas de IA. Requer um fornecedor de monitoramento de prompt ou nosso próprio crawler. Não entregamos números que não possamos sustentar.
  • Assist — estimativa probabilística de aumento downstream em busca de marca após exposição à IA. Apresentada apenas quando pudermos rotular a confiança honestamente.

Quando a V2 for lançada, cada métrica carregará um rótulo explícito medido vs. inferido.

Conformidade

  • GPC (Global Privacy Control) é respeitado — visitantes com Sec-GPC: 1 não são usados para heurísticas comportamentais de IA.
  • Endereços IP são hasheados com um sal rotativo diário — nunca armazenados em texto claro.
  • Nenhum cookie é introduzido pela Influência de IA — o tracker sem cookies existente continua sendo o único script necessário.

API

GET /api/analytics/ai-influence?websiteId={id}&period={7d|30d|...}

Retorna:

{
  "crawl": {
    "summary": {
      "total": 29, "allowed": 6, "partial": 19, "blocked": 4,
      "indeterminate": 0, "never_checked": 0,
      "robots_txt_present": true, "llms_txt_present": true,
      "hostname": "example.com", "last_checked_at": "2026-05-16T08:14:23Z",
      "blocked_bots": ["Amazonbot", "Bytespider", "CCBot", "Meta-ExternalAgent"],
      "content_signals": { "search": true, "ai_train": false, "raw": "search=yes,ai-train=no" }
    },
    "crawlers": [{ "ua_token": "GPTBot", "vendor": "OpenAI", "category": "training", "verdict": "allowed", "restricted_paths": [], "...": "..." }]
  },
  "referral": { "summary": { "ai_visitors": 1247, "known_ai_visitors": 1100, "dark_ai_visitors": 147, "...": "..." }, "sources": [...], "trend": [...], "top_pages": [...] }
}

Nota: verdict é um de allowed / partial / blocked / indeterminate / never_checked no payload bruto; a UI agrupa allowed + partial em um único estado Permitido (veja O que o veredito significa).

POST /api/analytics/ai-influence-probe?websiteId={id}

Aciona um re-fetch + parse + 5 sondas HTTP HEAD ao vivo síncronas. Limitado a 1 requisição por minuto por site.

Relacionado

Esta página foi útil?