Seu trabalhador de resolução de CAPTCHA parece ativo – o processo está em execução – mas não resolveu uma tarefa com êxito em 10 minutos. A chave de API está esgotada ou o trabalhador está preso em um loop. Sem verificações de integridade, seu orquestrador continua encaminhando o trabalho para um trabalhador morto. Os endpoints de integridade permitem que balanceadores de carga e Kubernetes detectem o problema e redirecionem.
Três tipos de exames de saúde
| Verifique | Pergunta | Resposta à falha |
|---|---|---|
| Vivacidade | O processo está em execução? | Reinicie o contêiner |
| Prontidão | Pode aceitar trabalho? | Pare de rotear o tráfego |
| Dependência | Os serviços upstream estão OK? | Degradar graciosamente |
Python: endpoints de integridade do Flask
import requests
import time
import threading
from flask import Flask, jsonify
from dataclasses import dataclass, field
API_KEY = "YOUR_API_KEY"
RESULT_URL = "https://ocr.captchaai.com/res.php"
app = Flask(__name__)
@dataclass
class WorkerHealth:
"""Tracks worker health metrics."""
started_at: float = field(default_factory=time.monotonic)
last_solve_at: float = 0.0
total_solved: int = 0
total_failed: int = 0
consecutive_failures: int = 0
balance: float | None = None
balance_checked_at: float = 0.0
_lock: threading.Lock = field(default_factory=threading.Lock)
def record_success(self):
with self._lock:
self.total_solved += 1
self.last_solve_at = time.monotonic()
self.consecutive_failures = 0
def record_failure(self):
with self._lock:
self.total_failed += 1
self.consecutive_failures += 1
@property
def success_rate(self) -> float:
total = self.total_solved + self.total_failed
return self.total_solved / total if total > 0 else 1.0
@property
def seconds_since_last_solve(self) -> float:
if self.last_solve_at == 0:
return time.monotonic() - self.started_at
return time.monotonic() - self.last_solve_at
health = WorkerHealth()
# Thresholds
MAX_CONSECUTIVE_FAILURES = 10
MAX_SECONDS_WITHOUT_SOLVE = 600 # 10 minutes
MIN_BALANCE = 1.0
def check_balance() -> float | None:
"""Check CaptchaAI balance."""
now = time.monotonic()
# Cache balance for 60 seconds
if health.balance is not None and now - health.balance_checked_at < 60:
return health.balance
try:
resp = requests.get(RESULT_URL, params={
"key": API_KEY, "action": "getbalance", "json": 1,
}, timeout=10).json()
health.balance = float(resp.get("request", 0))
health.balance_checked_at = now
return health.balance
except Exception:
return health.balance # Return cached value on error
@app.route("/health/live")
def liveness():
"""Liveness probe — is the process responsive?"""
return jsonify({"status": "ok", "uptime_s": int(time.monotonic() - health.started_at)}), 200
@app.route("/health/ready")
def readiness():
"""Readiness probe — can the worker accept tasks?"""
issues = []
# Check consecutive failures
if health.consecutive_failures >= MAX_CONSECUTIVE_FAILURES:
issues.append(f"consecutive_failures={health.consecutive_failures}")
# Check time since last solve
if health.total_solved > 0 and health.seconds_since_last_solve > MAX_SECONDS_WITHOUT_SOLVE:
issues.append(f"no_solve_for={int(health.seconds_since_last_solve)}s")
# Check balance
balance = check_balance()
if balance is not None and balance < MIN_BALANCE:
issues.append(f"low_balance=${balance:.2f}")
if issues:
return jsonify({
"status": "not_ready",
"issues": issues,
"stats": {
"solved": health.total_solved,
"failed": health.total_failed,
"success_rate": round(health.success_rate, 3),
},
}), 503
return jsonify({
"status": "ready",
"stats": {
"solved": health.total_solved,
"failed": health.total_failed,
"success_rate": round(health.success_rate, 3),
"balance": balance,
},
}), 200
@app.route("/health/dependencies")
def dependencies():
"""Check upstream dependencies."""
checks = {}
# CaptchaAI API reachability
try:
resp = requests.get(RESULT_URL, params={
"key": API_KEY, "action": "getbalance", "json": 1,
}, timeout=10)
checks["captchaai_api"] = {
"status": "ok" if resp.status_code == 200 else "degraded",
"response_ms": int(resp.elapsed.total_seconds() * 1000),
}
except Exception as e:
checks["captchaai_api"] = {"status": "down", "error": str(e)}
all_ok = all(c["status"] == "ok" for c in checks.values())
return jsonify({
"status": "ok" if all_ok else "degraded",
"checks": checks,
}), 200 if all_ok else 503
# --- Worker loop (runs in background) ---
def worker_loop():
"""Simulated CAPTCHA solving worker."""
while True:
try:
# ... solve CAPTCHA logic ...
health.record_success()
except Exception:
health.record_failure()
time.sleep(1)
threading.Thread(target=worker_loop, daemon=True).start()
JavaScript: endpoints de saúde expressos
const express = require("express");
const API_KEY = "YOUR_API_KEY";
const RESULT_URL = "https://ocr.captchaai.com/res.php";
const app = express();
const health = {
startedAt: Date.now(),
lastSolveAt: 0,
totalSolved: 0,
totalFailed: 0,
consecutiveFailures: 0,
balance: null,
balanceCheckedAt: 0,
recordSuccess() {
this.totalSolved++;
this.lastSolveAt = Date.now();
this.consecutiveFailures = 0;
},
recordFailure() {
this.totalFailed++;
this.consecutiveFailures++;
},
get successRate() {
const total = this.totalSolved + this.totalFailed;
return total > 0 ? this.totalSolved / total : 1;
},
};
async function checkBalance() {
if (health.balance !== null && Date.now() - health.balanceCheckedAt < 60000) {
return health.balance;
}
try {
const url = `${RESULT_URL}?key=${API_KEY}&action=getbalance&json=1`;
const resp = await (await fetch(url)).json();
health.balance = parseFloat(resp.request);
health.balanceCheckedAt = Date.now();
return health.balance;
} catch {
return health.balance;
}
}
app.get("/health/live", (req, res) => {
res.json({ status: "ok", uptimeMs: Date.now() - health.startedAt });
});
app.get("/health/ready", async (req, res) => {
const issues = [];
if (health.consecutiveFailures >= 10) {
issues.push(`consecutive_failures=${health.consecutiveFailures}`);
}
if (health.totalSolved > 0) {
const silentMs = Date.now() - health.lastSolveAt;
if (silentMs > 600_000) {
issues.push(`no_solve_for=${Math.round(silentMs / 1000)}s`);
}
}
const balance = await checkBalance();
if (balance !== null && balance < 1.0) {
issues.push(`low_balance=$${balance.toFixed(2)}`);
}
const stats = {
solved: health.totalSolved,
failed: health.totalFailed,
successRate: Math.round(health.successRate * 1000) / 1000,
balance,
};
if (issues.length > 0) {
return res.status(503).json({ status: "not_ready", issues, stats });
}
res.json({ status: "ready", stats });
});
app.get("/health/dependencies", async (req, res) => {
const checks = {};
try {
const start = Date.now();
const url = `${RESULT_URL}?key=${API_KEY}&action=getbalance&json=1`;
const resp = await fetch(url);
checks.captchaaiApi = {
status: resp.ok ? "ok" : "degraded",
responseMs: Date.now() - start,
};
} catch (e) {
checks.captchaaiApi = { status: "down", error: e.message };
}
const allOk = Object.values(checks).every((c) => c.status === "ok");
res.status(allOk ? 200 : 503).json({
status: allOk ? "ok" : "degraded",
checks,
});
});
app.listen(8080, () => console.log("Health server on :8080"));
Configuração do Kubernetes
apiVersion: apps/v1
kind: Deployment
metadata:
name: captcha-worker
spec:
replicas: 3
template:
spec:
containers:
- name: worker
image: captcha-worker:latest
ports:
- containerPort: 8080
livenessProbe:
httpGet:
path: /health/live
port: 8080
initialDelaySeconds: 10
periodSeconds: 15
failureThreshold: 3
readinessProbe:
httpGet:
path: /health/ready
port: 8080
initialDelaySeconds: 5
periodSeconds: 10
failureThreshold: 2
Códigos de resposta de verificação de integridade
| Ponto final | 200 | 503 |
|---|---|---|
/health/live |
Responsivo ao processo | Processo congelado – reinicie |
/health/ready |
Pode aceitar trabalho | Pare de enviar tarefas |
/health/dependencies |
Todas as dependências OK | A montante degradado |
Limites do operador
- Use a prontidão para bloquear novos trabalhos, a atividade para acionar a reinicialização e os alertas de equilíbrio para capturar a degradação da produtividade.
- Vincule as verificações de integridade à profundidade da fila, à taxa de erros recentes e à acessibilidade de dependência, em vez de apenas ao tempo de atividade do processo.
- Mantenha os valores limite visíveis para os atendentes de plantão para que as alterações de saúde sejam acionáveis e não barulhentas.
Solução de problemas
| Problema | Causa | Correção |
|---|---|---|
| Trabalhador reiniciado constantemente | Limite de atividade muito baixo | Aumentar failureThreshold ou periodSeconds |
| Trabalhador marcado como não pronto durante a inicialização | Nenhuma solução ainda contada como "muito longa" | Verifique seconds_since_last_solve somente após a primeira resolução |
| A verificação de saldo retarda o endpoint de integridade | Chamada de API em cada solicitação | Armazene o saldo em cache com um TTL (60s recomendado) |
| O próprio endpoint de integridade falha | Exceção não tratada em cheque | Envolva cada verificação em try/except; retorno degradado em vez de 500 |
| Falsos negativos da verificação de dependência | Mensagem de rede durante verificação de saldo | Use valores armazenados em cache com uma abordagem obsoleta enquanto revalida |
Perguntas frequentes
Com que frequência o Kubernetes deve investigar os endpoints de integridade?
Atividade: a cada 10 a 30 segundos com um limite de falha de 3. Prontidão: a cada 5 a 10 segundos com um limite de falha de 2. Testes mais frequentes detectam problemas com menor latênciamente, mas aumentam a sobrecarga.
O endpoint de integridade deve atingir a API CaptchaAI?
Somente para verificações de prontidão e dependência e sempre armazene em cache o resultado. A sonda de atividade nunca deve fazer chamadas externas — ela deve responder instantaneamente para provar que o processo está ativo.
Como posso monitorar a saúde de vários trabalhadores?
Exponha métricas de saúde no formato Prometheus (/metrics) junto com os endpoints de saúde. Agregue trabalhadores com painéis do Grafana para ver a integridade de toda a frota.
Artigos relacionados
Próximas etapas
Prepare seus funcionários CAPTCHA para produção -obtenha sua chave API CaptchaAIe adicione endpoints de verificação de integridade.
Guias relacionados:
- Padrão de disjuntor para chamadas de API CAPTCHA
- Padrão Bulkhead para resolução de CAPTCHA
- Monitorando taxas de resolução de CAPTCHA com Prometheus e Grafana