Resumen del proyecto
Revolucionamos el proceso de extracción de datos para una firma de Legal Tech reemplazando scrapers frágiles y de propósito único por una plataforma robusta en Java y Spring Boot. Además del OCR/OpenCV para documentos, gran parte del codebase estaba dedicada a web scraping y extracción de datos con regex, integrando APIs anti-captcha y multiproxy para sortear bloqueos anti-bot y mantener la operación estable en fuentes públicas difíciles.
Desafío
Alto costo de mantenimiento de cientos de web scrapers frágiles, entrada manual de datos de PDFs y bloqueos frecuentes de sitios con protección anti-bot.
Solución
Plataforma unificada en Java/Spring Boot con scraping parametrizable, parsers regex, OCR/OpenCV, integración anti-captcha y rotación multiproxy.
Tech Stack
- Java
- Spring Boot
- Automatización
- Web Scraping
Alcance técnico
- Java y Spring Boot
- Scraping parametrizable con regex
- OCR/OpenCV y análisis de documentos
- Anti-captcha y rotación multiproxy
