Visão geral do projeto
Revolucionamos o processo de extração de dados para uma empresa de Legal Tech substituindo scrapers frágeis e de propósito único por uma plataforma robusta em Java e Spring Boot. Além do OCR/OpenCV para documentos, grande parte do codebase era dedicada a web scraping e extração de dados com regex, integrando APIs anti-captcha e multiproxy para contornar bloqueios anti-bot e manter a operação estável em fontes públicas difíceis.
Desafio
Alto custo de manutenção de centenas de web scrapers frágeis, entrada manual de dados de PDFs e bloqueios frequentes de sites com proteção anti-bot.
Solução
Plataforma unificada em Java/Spring Boot com scraping parametrizável, parsers regex, OCR/OpenCV, integração anti-captcha e rotação multiproxy.
Tech Stack
- Java
- Spring Boot
- Automação
- Web Scraping
Escopo técnico
- Java e Spring Boot
- Scraping parametrizável com regex
- OCR/OpenCV e análise de documentos
- Anti-captcha e rotação multiproxy
