Node.js é excelente em cargas de trabalho de raspagem I/O-heavy. Quando os sites de destino atendem CAPTCHAs, a API do CaptchaAI os resolve enquanto seu script trata das solicitações HTTP. Este tutorial cobre o fluxo de trabalho completo usando axios e cheerio.
Requisitos
| Requisito | Detalhes |
|---|---|
| Node.js 16+ | Com npm |
| eixos | npm install axios |
| alegria | npm install cheerio |
| Chave de API CaptchaAI | Decaptchaai.com |
O Módulo Solucionador CaptchaAI
// captcha-solver.js
const axios = require("axios");
class CaptchaSolver {
constructor(apiKey) {
this.apiKey = apiKey;
this.baseUrl = "https://ocr.captchaai.com";
}
async _submit(params) {
params.key = this.apiKey;
const resp = await axios.get(`${this.baseUrl}/in.php`, { params });
if (!resp.data.startsWith("OK|")) {
throw new Error(`Submit error: ${resp.data}`);
}
return resp.data.split("|")[1];
}
async _poll(taskId, timeout = 300000) {
const deadline = Date.now() + timeout;
while (Date.now() < deadline) {
await new Promise((r) => setTimeout(r, 5000));
const resp = await axios.get(`${this.baseUrl}/res.php`, {
params: { key: this.apiKey, action: "get", id: taskId },
});
if (resp.data === "CAPCHA_NOT_READY") continue;
if (resp.data.startsWith("OK|")) return resp.data.split("|")[1];
throw new Error(`Solve error: ${resp.data}`);
}
throw new Error("Solve timed out");
}
async solveRecaptchaV2(siteKey, pageUrl) {
const taskId = await this._submit({
method: "userrecaptcha",
googlekey: siteKey,
pageurl: pageUrl,
});
return this._poll(taskId);
}
async solveRecaptchaV3(siteKey, pageUrl, action = "verify") {
const taskId = await this._submit({
method: "userrecaptcha",
googlekey: siteKey,
pageurl: pageUrl,
version: "v3",
action,
});
return this._poll(taskId);
}
async solveTurnstile(siteKey, pageUrl) {
const taskId = await this._submit({
method: "turnstile",
sitekey: siteKey,
pageurl: pageUrl,
});
return this._poll(taskId);
}
}
module.exports = CaptchaSolver;
Raspar uma página protegida por reCAPTCHA
const axios = require("axios");
const cheerio = require("cheerio");
const CaptchaSolver = require("./captcha-solver");
const solver = new CaptchaSolver("YOUR_API_KEY");
async function scrapeProtectedPage(url) {
// Step 1: Load the page
const { data: html } = await axios.get(url, {
headers: {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
},
});
const $ = cheerio.load(html);
// Step 2: Extract site key
const siteKey = $(".g-recaptcha").attr("data-sitekey");
if (!siteKey) {
console.log("No CAPTCHA found, page loaded directly");
return html;
}
console.log("Site key found:", siteKey);
// Step 3: Solve the CAPTCHA
const token = await solver.solveRecaptchaV2(siteKey, url);
console.log("Token received:", token.substring(0, 50));
// Step 4: Submit with the token
const result = await axios.post(
url,
new URLSearchParams({
"g-recaptcha-response": token,
q: "search query",
}),
{
headers: {
"Content-Type": "application/x-www-form-urlencoded",
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
},
}
);
return result.data;
}
Raspar várias páginas simultaneamente
async function scrapePages(urls, siteKey, concurrency = 3) {
const results = [];
const queue = [...urls];
const worker = async () => {
while (queue.length > 0) {
const url = queue.shift();
try {
const token = await solver.solveRecaptchaV2(siteKey, url);
const { data } = await axios.post(
url,
new URLSearchParams({ "g-recaptcha-response": token }),
{
headers: {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
},
}
);
results.push({ url, data, success: true });
console.log(`Scraped: ${url}`);
} catch (err) {
results.push({ url, error: err.message, success: false });
console.error(`Failed: ${url} - ${err.message}`);
}
}
};
// Run workers concurrently
const workers = Array(concurrency)
.fill(null)
.map(() => worker());
await Promise.all(workers);
return results;
}
// Usage
const urls = [
"https://example.com/page/1",
"https://example.com/page/2",
"https://example.com/page/3",
];
const results = await scrapePages(urls, "6Le-wvkS...", 3);
Tratamento de cookies e sessões
Use axios com persistência de cookies para sites que exigem cookies de sessão:
const { wrapper } = require("axios-cookiejar-support");
const { CookieJar } = require("tough-cookie");
const jar = new CookieJar();
const client = wrapper(
axios.create({
jar,
headers: {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
},
})
);
async function scrapeWithSession(url, siteKey) {
// Initial page load sets cookies
await client.get(url);
// Solve CAPTCHA
const token = await solver.solveRecaptchaV2(siteKey, url);
// Submit with maintained cookies
const result = await client.post(
url,
new URLSearchParams({ "g-recaptcha-response": token })
);
return result.data;
}
Analisando resultados com Cheerio
function parseResults(html) {
const $ = cheerio.load(html);
const items = [];
$(".result-item").each((_, el) => {
items.push({
title: $(el).find(".title").text().trim(),
url: $(el).find("a").attr("href"),
description: $(el).find(".description").text().trim(),
});
});
return items;
}
Solução de problemas
| Problema | Causa | Correção |
|---|---|---|
CAPTCHA_NOT_READY faz loop indefinidamente |
Chave de site errada ou resolução lenta | Verifique a chave do site; aumentar o tempo limite |
403 Forbidden no POST |
Cookies ou cabeçalhos ausentes | Utilizar cookies de sessão; adicionar cabeçalho Referer |
| Cheerio não consegue encontrar elementos | Conteúdo dinâmico | Use o Puppeteer para sites renderizados em JS |
ECONNREFUSED |
Taxa limitada pelo site de destino | Adicione atrasos; girar proxies |
Perguntas frequentes
Quando devo usar o Puppeteer em vez do axios?
Use axios + cheerio quando o site de destino retornar HTML com envios de formulário padrão. Use o Puppeteer quando o site exigir execução de JavaScript, renderização dinâmica ou interações complexas do usuário.
Posso resolver vários CAPTCHAs ao mesmo tempo?
Sim. Envie várias tarefas CAPTCHA para CaptchaAI simultaneamente e pesquise cada resultado. O exemplo de raspagem simultânea acima demonstra esse padrão.
Como lidar com sites protegidos pela Cloudflare?
Caso o site utilize Cloudflare Turnstile, utilize solver.solveTurnstile(). Para páginas completas de desafio da Cloudflare, useSolução Cloudflare Turnstile em stagingque retorna cookies cookie_qa_validacao.
Guias Relacionados
- Puppeteer CAPTCHA resolvendo com Node.js
- Raspagem CAPTCHA com Python
- Rotação de proxy para raspagem de CAPTCHA