Uma interrupção na resolução de CAPTCHA às 3 da manhã custa horas de dados perdidos. A integração do PagerDuty garante que a pessoa certa seja notificada imediatamente – com contexto suficiente para diagnosticar e corrigir o problema sem precisar vasculhar os registros.
Estratégia de Alerta
| Gravidade | Condição | Ação PagerDuty |
|---|---|---|
| Crítico | Saldo <$2 | Engenheiro de plantão da página |
| Crítico | Todos os trabalhadores caídos | Engenheiro de plantão da página |
| Alto | Taxa de erro > 20% por 5 min | Criar incidente urgente |
| Aviso | Saldo <$ 10 | Criar incidente de baixa urgência |
| Aviso | Profundidade da fila > 100 por 10 min | Criar incidente de baixa urgência |
| Informações | Resolver latência p95 > 120s | Adicionar ao incidente ou registro existente |
Python — API de eventos PagerDuty v2
import os
import time
import hashlib
import requests
from datetime import datetime
API_KEY = os.environ["CAPTCHAAI_API_KEY"]
PAGERDUTY_ROUTING_KEY = os.environ["PAGERDUTY_ROUTING_KEY"]
session = requests.Session()
class CaptchaPagerDuty:
EVENTS_URL = "https://events.pagerduty.com/v2/enqueue"
def __init__(self, routing_key):
self.routing_key = routing_key
def trigger(self, summary, severity="error", source="captcha-pipeline",
details=None, dedup_key=None):
"""Trigger a new PagerDuty incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "trigger",
"payload": {
"summary": summary,
"severity": severity, # critical, error, warning, info
"source": source,
"timestamp": datetime.utcnow().isoformat() + "Z",
"custom_details": details or {}
}
}
if dedup_key:
payload["dedup_key"] = dedup_key
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
def resolve(self, dedup_key):
"""Resolve an existing incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "resolve",
"dedup_key": dedup_key
}
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
def acknowledge(self, dedup_key):
"""Acknowledge an existing incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "acknowledge",
"dedup_key": dedup_key
}
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
pagerduty = CaptchaPagerDuty(PAGERDUTY_ROUTING_KEY)
class CaptchaMonitor:
def __init__(self):
self.error_window = [] # (timestamp, is_error)
self.window_size = 300 # 5 minutes in seconds
def record_solve(self, success):
now = time.time()
self.error_window.append((now, not success))
# Prune old entries
self.error_window = [
(t, e) for t, e in self.error_window
if now - t < self.window_size
]
@property
def error_rate(self):
if not self.error_window:
return 0.0
errors = sum(1 for _, e in self.error_window if e)
return errors / len(self.error_window)
def check_balance(self):
resp = session.get("https://ocr.captchaai.com/res.php", params={
"key": API_KEY, "action": "getbalance", "json": 1
})
data = resp.json()
if data.get("status") != 1:
return None
return float(data["request"])
def run_checks(self):
"""Run all monitoring checks and trigger alerts."""
# Check balance
balance = self.check_balance()
if balance is not None:
if balance < 2:
pagerduty.trigger(
summary=f"CaptchaAI balance critically low: ${balance:.2f}",
severity="critical",
dedup_key="captcha-balance-critical",
details={"balance": balance, "threshold": 2}
)
elif balance < 10:
pagerduty.trigger(
summary=f"CaptchaAI balance low: ${balance:.2f}",
severity="warning",
dedup_key="captcha-balance-warning",
details={"balance": balance, "threshold": 10}
)
else:
# Resolve if balance recovered
try:
pagerduty.resolve("captcha-balance-critical")
pagerduty.resolve("captcha-balance-warning")
except Exception:
pass # No incident to resolve
# Check error rate
rate = self.error_rate
if rate > 0.20:
total = len(self.error_window)
errors = sum(1 for _, e in self.error_window if e)
pagerduty.trigger(
summary=f"CaptchaAI error rate {rate:.0%} "
f"({errors}/{total} in 5 min)",
severity="error",
dedup_key="captcha-error-rate-high",
details={
"error_rate": round(rate, 3),
"total_tasks": total,
"failed_tasks": errors,
"window_seconds": self.window_size
}
)
elif rate < 0.05 and len(self.error_window) > 10:
try:
pagerduty.resolve("captcha-error-rate-high")
except Exception:
pass
monitor = CaptchaMonitor()
# After each solve:
# monitor.record_solve(success=True)
# Run checks every 60 seconds:
# while True:
# monitor.run_checks()
# time.sleep(60)
JavaScript – Integração PagerDuty
const axios = require("axios");
const API_KEY = process.env.CAPTCHAAI_API_KEY;
const PD_ROUTING_KEY = process.env.PAGERDUTY_ROUTING_KEY;
const PD_EVENTS_URL = "https://events.pagerduty.com/v2/enqueue";
class PagerDutyAlerter {
constructor(routingKey) {
this.routingKey = routingKey;
}
async trigger(summary, severity = "error", details = {}, dedupKey = null) {
const payload = {
routing_key: this.routingKey,
event_action: "trigger",
payload: {
summary,
severity,
source: "captcha-pipeline",
timestamp: new Date().toISOString(),
custom_details: details,
},
};
if (dedupKey) payload.dedup_key = dedupKey;
const resp = await axios.post(PD_EVENTS_URL, payload, { timeout: 10000 });
return resp.data;
}
async resolve(dedupKey) {
await axios.post(PD_EVENTS_URL, {
routing_key: this.routingKey,
event_action: "resolve",
dedup_key: dedupKey,
}, { timeout: 10000 });
}
}
const alerter = new PagerDutyAlerter(PD_ROUTING_KEY);
class CaptchaHealthMonitor {
constructor(windowMs = 300000) {
this.results = [];
this.windowMs = windowMs;
}
record(success) {
this.results.push({ time: Date.now(), success });
const cutoff = Date.now() - this.windowMs;
this.results = this.results.filter((r) => r.time > cutoff);
}
get errorRate() {
if (this.results.length === 0) return 0;
const errors = this.results.filter((r) => !r.success).length;
return errors / this.results.length;
}
async checkAndAlert() {
// Balance check
try {
const resp = await axios.get("https://ocr.captchaai.com/res.php", {
params: { key: API_KEY, action: "getbalance", json: 1 },
});
if (resp.data.status === 1) {
const balance = parseFloat(resp.data.request);
if (balance < 2) {
await alerter.trigger(
`CaptchaAI balance critically low: $${balance.toFixed(2)}`,
"critical",
{ balance },
"captcha-balance-critical"
);
} else if (balance < 10) {
await alerter.trigger(
`CaptchaAI balance low: $${balance.toFixed(2)}`,
"warning",
{ balance },
"captcha-balance-warning"
);
} else {
await alerter.resolve("captcha-balance-critical").catch(() => {});
await alerter.resolve("captcha-balance-warning").catch(() => {});
}
}
} catch (err) {
console.error("Balance check failed:", err.message);
}
// Error rate check
const rate = this.errorRate;
if (rate > 0.2 && this.results.length > 10) {
await alerter.trigger(
`CaptchaAI error rate: ${(rate * 100).toFixed(1)}%`,
"error",
{ errorRate: rate, totalTasks: this.results.length },
"captcha-error-rate"
);
} else if (rate < 0.05 && this.results.length > 10) {
await alerter.resolve("captcha-error-rate").catch(() => {});
}
}
}
const monitor = new CaptchaHealthMonitor();
// Run checks every 60 seconds
setInterval(() => monitor.checkAndAlert(), 60000);
module.exports = { monitor, alerter };
Lista de verificação de configuração do PagerDuty
| Passo | Ação |
|---|---|
| 1 | Crie um serviço no PagerDuty para "CaptchaAI Pipeline" |
| 2 | Adicionar integração da API de eventos v2 ao serviço |
| 3 | Copie a chave de roteamento para PAGERDUTY_ROUTING_KEY env var |
| 4 | Configurar política de escalonamento (de plantão → líder da equipe → gerente) |
| 5 | Configurar regras de notificação (push, SMS, telefone) |
| 6 | Adicione janelas de manutenção para tempo de inatividade planejado |
Solução de problemas
| Problema | Causa | Correção |
|---|---|---|
| Alerta não dispara | Chave de roteamento errada | Verifique se a chave corresponde à integração da API de eventos do serviço |
| Incidentes duplicados | Faltando dedup_key |
Sempre defina uma chave de eliminação de duplicação consistente por tipo de alerta |
| Inundação de alerta | Sem cooldown entre gatilhos | A chave de desduplicação PagerDuty suprime duplicatas; certifique-se de usá-los |
| A resolução automática não funciona | Incompatibilidade de chave de eliminação de duplicação | Certifique-se de que a resolução use exatamente a mesma chave de desduplicação que o gatilho |
Perguntas frequentes
Como evito a fadiga do alerta?
Use chaves de desduplicação para agrupar alertas relacionados em um único incidente. Defina alertas de aviso como de baixa urgência (sem página). Reserve critic/high-urgency para saldo <$2 ou todos os trabalhadores inativos.
Posso integrar o PagerDuty com o Datadog/New Relic?
Sim. Tanto o Datadog quanto o New Relic possuem integrações nativas com PagerDuty. Use-os se você já envia métricas para uma plataforma de observabilidade. A integração direta da API (este guia) é mais adequado quando você deseja controle personalizado.
Qual é a diferença entre disparar, reconhecer e resolver?
Trigger cria um novo incidente. Reconhecer interrompe as notificações, mas mantém o incidente aberto (alguém está trabalhando nisso). Resolver encerra o incidente completamente.
Artigos relacionados
- Construindo pipelines de Captcha do cliente Captchaai
- Construindo Captchaai de Automação Responsável
- Alertas de métricas do Datadog de monitoramento Captchaai
Próximas etapas
Seja alertado no momento em que seu pipeline CAPTCHA apresentar problemas -comece com uma chave de API CaptchaAIe conecte o PagerDuty.
Guias relacionados:
- Monitoramento Datadog
- Nova Relíquia APM
- Referência de códigos de erro