Raspagem CAPTCHA com Python: guia completo (guia completo)

A biblioteca requests do Python lida com HTTP de forma eficiente, mas CAPTCHAs requerem um solucionador externo. Este guia mostra como integrar CaptchaAI em scripts de scraping Python – nenhum navegador é necessário para a maioria dos sites.

Requisitos

Requisito	Detalhes
Python 3.7+	Com pipa
solicitações	`pip install requests`
lindasopa4	`pip install beautifulsoup4`
Chave de API CaptchaAI	Decaptchaai.com

A classe auxiliar CaptchaAI

Crie uma classe de solucionador reutilizável para seus projetos Python:

import requests
import time

class CaptchaSolver:
    def __init__(self, api_key):
        self.api_key = api_key
        self.base = "https://ocr.captchaai.com"

    def _submit(self, params):
        params["key"] = self.api_key
        resp = requests.get(f"{self.base}/in.php", params=params)
        if not resp.text.startswith("OK|"):
            raise Exception(f"Submit error: {resp.text}")
        return resp.text.split("|")[1]

    def _poll(self, task_id, timeout=300):
        deadline = time.time() + timeout
        while time.time() < deadline:
            time.sleep(5)
            resp = requests.get(f"{self.base}/res.php", params={
                "key": self.api_key,
                "action": "get",
                "id": task_id
            })
            if resp.text == "CAPCHA_NOT_READY":
                continue
            if resp.text.startswith("OK|"):
                return resp.text.split("|")[1]
            raise Exception(f"Solve error: {resp.text}")
        raise TimeoutError("Solve timed out")

    def solve_recaptcha_v2(self, site_key, page_url):
        task_id = self._submit({
            "method": "userrecaptcha",
            "googlekey": site_key,
            "pageurl": page_url
        })
        return self._poll(task_id)

    def solve_recaptcha_v3(self, site_key, page_url, action="verify"):
        task_id = self._submit({
            "method": "userrecaptcha",
            "googlekey": site_key,
            "pageurl": page_url,
            "version": "v3",
            "action": action
        })
        return self._poll(task_id)

    def solve_turnstile(self, site_key, page_url):
        task_id = self._submit({
            "method": "turnstile",
            "sitekey": site_key,
            "pageurl": page_url
        })
        return self._poll(task_id)

    def solve_image(self, image_base64):
        task_id = self._submit({
            "method": "base64",
            "body": image_base64
        })
        return self._poll(task_id)

Raspar um formulário protegido por reCAPTCHA

from bs4 import BeautifulSoup
import requests

solver = CaptchaSolver("YOUR_API_KEY")
session = requests.Session()
session.headers.update({
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
})

# Step 1: Load the page
url = "https://example.com/search"
page = session.get(url)
soup = BeautifulSoup(page.text, "html.parser")

# Step 2: Extract the site key
recaptcha_div = soup.find("div", class_="g-recaptcha")
site_key = recaptcha_div["data-sitekey"]

# Step 3: Solve the CAPTCHA
token = solver.solve_recaptcha_v2(site_key, url)

# Step 4: Submit the form with the token
form_data = {
    "q": "search term",
    "g-recaptcha-response": token
}
result = session.post(url, data=form_data)

# Step 5: Parse the results
result_soup = BeautifulSoup(result.text, "html.parser")
items = result_soup.find_all("div", class_="result-item")
for item in items:
    print(item.text.strip())

Raspar várias páginas

Para resultados paginados atrás de CAPTCHAs:

def scrape_all_pages(base_url, site_key, max_pages=10):
    solver = CaptchaSolver("YOUR_API_KEY")
    session = requests.Session()
    session.headers.update({
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    })
    all_results = []

    for page_num in range(1, max_pages + 1):
        page_url = f"{base_url}?page={page_num}"

        # Solve CAPTCHA for each page if needed
        token = solver.solve_recaptcha_v2(site_key, page_url)

        resp = session.get(page_url, params={
            "g-recaptcha-response": token,
            "page": page_num
        })

        soup = BeautifulSoup(resp.text, "html.parser")
        items = soup.find_all("div", class_="item")

        if not items:
            break

        all_results.extend([item.text.strip() for item in items])
        print(f"Page {page_num}: {len(items)} items")

        time.sleep(2)  # Polite delay

    return all_results

Tratamento de CAPTCHAs de imagens

Para sites com CAPTCHAs de texto baseados em imagens:

import base64

def scrape_with_image_captcha(url):
    solver = CaptchaSolver("YOUR_API_KEY")
    session = requests.Session()

    page = session.get(url)
    soup = BeautifulSoup(page.text, "html.parser")

    # Find the CAPTCHA image
    captcha_img = soup.find("img", {"id": "captcha-image"})
    captcha_url = captcha_img["src"]

    # Download and encode the image
    img_resp = session.get(captcha_url)
    img_base64 = base64.b64encode(img_resp.content).decode()

    # Solve
    captcha_text = solver.solve_image(img_base64)

    # Submit
    form_data = {
        "captcha": captcha_text,
        "username": "user"
    }
    result = session.post(url, data=form_data)
    return result.text

Tratamento de erros e novas tentativas

Adicione lógica de nova tentativa para scrapers de produção:

def solve_with_retry(solver, site_key, page_url, max_retries=3):
    for attempt in range(max_retries):
        try:
            return solver.solve_recaptcha_v2(site_key, page_url)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            print(f"Attempt {attempt + 1} failed: {e}. Retrying...")
            time.sleep(2)

Solução de problemas

Problema	Causa	Correção
`ERROR_WRONG_USER_KEY`	Chave de API inválida	Verifique a chave do painel
`ERROR_ZERO_BALANCE`	Sem fundos	Recarregue sua conta
O envio do formulário retorna a página CAPTCHA novamente	Token expirou ou nome de campo incorreto	Use o token imediatamente; verifique os nomes dos campos do formulário
`ConnectionError`	Problema de rede	Adicione lógica de nova tentativa com espera exponencial
Resultados vazios após envio	O site requer cookies/session	Use `requests.Session()` para manter cookies

Perguntas frequentes

Eu preciso do Selenium para raspagem de CAPTCHA em Python?

Nem sempre. Se o formulário do site funcionar com solicitações HTTP POST padrão, requests + CaptchaAI é com menor latência e leve que o Selenium. Use Selenium somente quando o site exigir renderização de JavaScript.

Posso resolver CAPTCHAs de forma assíncrona?

Sim. Use aiohttp com a API CaptchaAI para fluxos de trabalho assíncronos. VerIntegração aiohttp + CaptchaAI.

Como lidar com a limitação de taxa?

Adicione atrasos entre solicitações (time.sleep(2-5)), gire proxies e use cabeçalhos realistas. VerRotação de proxy para raspagem de CAPTCHA.

Guias Relacionados

Manipulação de Selênio CAPTCHA com Python
Raspagem CAPTCHA com Node.js
Raspar sem ficar bloqueado

Raspagem CAPTCHA com Python: guia completo

Requisitos

A classe auxiliar CaptchaAI

Raspar um formulário protegido por reCAPTCHA

Raspar várias páginas

Tratamento de CAPTCHAs de imagens

Tratamento de erros e novas tentativas

Solução de problemas

Perguntas frequentes

Eu preciso do Selenium para raspagem de CAPTCHA em Python?

Posso resolver CAPTCHAs de forma assíncrona?

Como lidar com a limitação de taxa?

Guias Relacionados

Headless vs Headed Chrome para resolução de CAPTCHA

Agregação de notícias e mídia com tratamento CAPTCHA

Monitoramento de estoque de varejo com manipulação de CAPTCHA

Diagnóstico de qualidade de rede para CAPTCHA em QA mobile

coleta autorizada de pesquisa acadêmica com resolução de CAPTCHA

Como comparar provedores para reCAPTCHA v3 em QA

Requisitos

A classe auxiliar CaptchaAI

Raspar um formulário protegido por reCAPTCHA

Raspar várias páginas

Tratamento de CAPTCHAs de imagens

Tratamento de erros e novas tentativas

Solução de problemas

Perguntas frequentes

Eu preciso do Selenium para raspagem de CAPTCHA em Python?

Posso resolver CAPTCHAs de forma assíncrona?

Como lidar com a limitação de taxa?

Guias Relacionados

Postagens relacionadas

Headless vs Headed Chrome para resolução de CAPTCHA

Agregação de notícias e mídia com tratamento CAPTCHA

Monitoramento de estoque de varejo com manipulação de CAPTCHA

Diagnóstico de qualidade de rede para CAPTCHA em QA mobile

coleta autorizada de pesquisa acadêmica com resolução de CAPTCHA

Como comparar provedores para reCAPTCHA v3 em QA