Sites russos, ucranianos, búlgaros e sérvios usam CAPTCHAs de texto cirílico que parecem enganosamente semelhantes ao latim - caracteres como А, В, С, Е, Н, О parecem idênticos aos seus equivalentes latinos, mas são pontos de código Unicode completamente diferentes. Isso cria desafios únicos de reconhecimento e envio que o OCR latino padrão não percebe.
Caracteres Confusos Cirílicos vs. Latinos
| Parece | Latim | Cirílico | Unicode |
|---|---|---|---|
| Um | A (U+0041) | А (U+0410) | Pontos de código diferentes |
| B | B (U+0042) | В(U+0412) | Cirílico é "Ve" |
| C | C (U+0043) | С (U+0421) | Cirílico é "Es" |
| E | E (U+0045) | Е (U+0415) | Codificação diferente |
| H | H (U+0048) | Н (U+041D) | Cirílico é "En" |
| Ó | Ó (U+004F) | О (U+041E) | Pontos de código diferentes |
| P | P(U+0050) | Р(U+0420) | Cirílico é "Er" |
O envio do ponto de código errado faz com que a validação do formulário rejeite o texto de aparência correta.
Python: imagem cirílica CAPTCHA
import requests
import base64
import time
API_KEY = "YOUR_API_KEY"
SUBMIT_URL = "https://ocr.captchaai.com/in.php"
RESULT_URL = "https://ocr.captchaai.com/res.php"
def solve_cyrillic_captcha(image_path: str) -> str:
"""Solve a Cyrillic text image CAPTCHA."""
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
resp = requests.post(SUBMIT_URL, data={
"key": API_KEY,
"method": "base64",
"body": image_b64,
"language": 2, # Non-Latin character support
"json": 1,
}, timeout=30).json()
if resp.get("status") != 1:
raise RuntimeError(f"Submit: {resp.get('request')}")
task_id = resp["request"]
for _ in range(24):
time.sleep(5)
poll = requests.get(RESULT_URL, params={
"key": API_KEY, "action": "get", "id": task_id, "json": 1,
}, timeout=15).json()
if poll.get("request") == "CAPCHA_NOT_READY":
continue
if poll.get("status") == 1:
return poll["request"]
raise RuntimeError(f"Solve: {poll.get('request')}")
raise RuntimeError("Timeout")
def solve_cyrillic_from_session(session: requests.Session,
captcha_url: str) -> str:
"""Solve a Cyrillic CAPTCHA within a session context."""
resp = session.get(captcha_url, timeout=15)
image_b64 = base64.b64encode(resp.content).decode()
submit = requests.post(SUBMIT_URL, data={
"key": API_KEY,
"method": "base64",
"body": image_b64,
"language": 2,
"json": 1,
}, timeout=30).json()
if submit.get("status") != 1:
raise RuntimeError(f"Submit: {submit.get('request')}")
task_id = submit["request"]
for _ in range(24):
time.sleep(5)
poll = requests.get(RESULT_URL, params={
"key": API_KEY, "action": "get", "id": task_id, "json": 1,
}, timeout=15).json()
if poll.get("request") == "CAPCHA_NOT_READY":
continue
if poll.get("status") == 1:
return poll["request"]
raise RuntimeError(f"Solve: {poll.get('request')}")
raise RuntimeError("Timeout")
def verify_cyrillic(text: str) -> bool:
"""Verify that solved text contains Cyrillic characters."""
return any('\u0400' <= ch <= '\u04FF' for ch in text)
# --- Russian website form flow ---
def solve_russian_form(form_url: str, captcha_url: str,
form_data: dict) -> requests.Response:
"""Complete a Russian website form with CAPTCHA."""
session = requests.Session()
session.headers.update({
"Accept-Language": "ru-RU,ru;q=0.9",
})
# Establish session
session.get(form_url, timeout=15)
# Solve CAPTCHA
captcha_text = solve_cyrillic_from_session(session, captcha_url)
print(f"Cyrillic CAPTCHA: {captcha_text}")
if verify_cyrillic(captcha_text):
print("Confirmed: contains Cyrillic characters")
form_data["captcha"] = captcha_text
return session.post(form_url, data=form_data, timeout=30)
# --- Usage ---
text = solve_cyrillic_captcha("russian_captcha.png")
print(f"Solved: {text}")
print(f"Is Cyrillic: {verify_cyrillic(text)}")
print(f"Unicode codepoints: {[hex(ord(c)) for c in text]}")
JavaScript: manipulação de CAPTCHA cirílico
const API_KEY = "YOUR_API_KEY";
const SUBMIT_URL = "https://ocr.captchaai.com/in.php";
const RESULT_URL = "https://ocr.captchaai.com/res.php";
const fs = require("fs");
async function solveCyrillicCaptcha(imagePath) {
const imageB64 = fs.readFileSync(imagePath, "base64");
const body = new URLSearchParams({
key: API_KEY,
method: "base64",
body: imageB64,
language: "2",
json: "1",
});
const resp = await (await fetch(SUBMIT_URL, { method: "POST", body })).json();
if (resp.status !== 1) throw new Error(`Submit: ${resp.request}`);
const taskId = resp.request;
for (let i = 0; i < 24; i++) {
await new Promise((r) => setTimeout(r, 5000));
const url = `${RESULT_URL}?key=${API_KEY}&action=get&id=${taskId}&json=1`;
const poll = await (await fetch(url)).json();
if (poll.request === "CAPCHA_NOT_READY") continue;
if (poll.status === 1) return poll.request;
throw new Error(`Solve: ${poll.request}`);
}
throw new Error("Timeout");
}
function isCyrillic(text) {
return /[\u0400-\u04FF]/.test(text);
}
function showCodepoints(text) {
return [...text].map((ch) => `${ch}=U+${ch.codePointAt(0).toString(16).padStart(4, "0")}`);
}
// Usage
const text = await solveCyrillicCaptcha("russian_captcha.png");
console.log(`Solved: ${text}`);
console.log(`Is Cyrillic: ${isCyrillic(text)}`);
console.log(`Codepoints: ${showCodepoints(text).join(", ")}`);
Padrões CAPTCHA Cirílicos Comuns
| Padrão | Descrição | Exemplo |
|---|---|---|
| Palavra cirílica pura | Palavra russa aleatória | ШКАФ, ПИРОГ |
| Latim misto + cirílico | Ambos os scripts em uma imagem | ABСDе (A, B, D latim; С, е cirílico) |
| Dígitos cirílicos escritos | Palavras numéricas | ПЯТЬ (cinco), ТРИ (três) |
| Matemática em Russo | Aritmética em palavras | два плюс три = ? |
| Cirílico distorcido | Texto russo distorcido | Desafio de OCR padrão com cirílico |
Solução de problemas
| Problema | Causa | Correção |
|---|---|---|
| O formulário rejeita texto com aparência correta | Incompatibilidade de homoglifo Latin/Cyrillic | Verifique os pontos de código Unicode : А (U+0410) ≠ A (U+0041) |
| Personagens distorcidos em exibição | Codificação errada | Use UTF-8 por toda parte; conjunto response.encoding = 'utf-8' |
| Texto de script misto parcialmente errado | OCR confundiu latim e cirílico | CaptchaAI com language=2 distingue corretamente |
| Faltam caracteres específicos do ucraniano | ґ, є, і, ї não reconhecido | Eles são suportados com language=2 |
| Sensibilidade de maiúsculas e minúsculas CAPTCHA | Maiúsculas/lowercase são importantes | Envie exatamente como retornado por CaptchaAI |
Perguntas frequentes
Como CaptchaAI distingue o cirílico В do latim B?
Os modelos de OCR do CaptchaAI são treinados em recursos de contexto e glifo. Quando language=2 é definido, o solucionador usa modelos com reconhecimento de cirílico que retornam pontos de código Unicode adequados. O texto retornado usará caracteres cirílicos (U+0400–U+04FF) para texto russo.
Ele lida com caracteres específicos do ucraniano?
Sim. O ucraniano usa caracteres não presentes em russo - ґ (U+0491), є (U+0454), і (U+0456), ї (U+0457). CaptchaAI os reconhece com language=2. O solucionador lida com todos os scripts cirílicos, incluindo russo, ucraniano, búlgaro e sérvio.
E se o CAPTCHA misturar cirílico e latim?
Alguns CAPTCHAs misturam scripts intencionalmente para criar ambiguidade. CaptchaAI retorna o texto com pontos de código Unicode corretos para cada caractere. Verifique usando a função verify_cyrillic() ou inspecionando codepoints.
Próximas etapas
Resolva CAPTCHAs cirílicos em sites russos e eslavos —obtenha sua chave API CaptchaAI.
Guias relacionados:
- Resolvendo CAPTCHAs em sites chineses
- Conjunto de caracteres CAPTCHA de imagem multilíngue
- Localização CAPTCHA e configurações de idioma