Proyectos | Oscar Bocanegra - Data Engineer & AI Specialist

Plataforma de Datos en Tiempo Real

Data Engineering | Big Data 2023

Descripción

Diseño e implementación de una arquitectura escalable para procesamiento de datos en streaming que permite análisis en tiempo real para una compañía de telecomunicaciones. El sistema procesa más de 5TB de datos diarios provenientes de múltiples fuentes y alimenta dashboards operativos críticos para el negocio.

Desafío

La empresa necesitaba transformar su infraestructura de procesamiento por lotes a una solución en tiempo real para detectar anomalías en la red, optimizar la calidad del servicio y mejorar la experiencia del cliente. El principal reto consistió en diseñar un sistema capaz de procesar millones de eventos por segundo con latencia mínima y alta disponibilidad.

Solución

Se implementó una arquitectura de microservicios basada en Apache Kafka como backbone de mensajería, Spark Streaming para el procesamiento en tiempo real, y Elasticsearch como almacenamiento para consultas de baja latencia. El diseño incorporó patrones de tolerancia a fallos, almacenamiento de respaldo en Amazon S3 y un sistema de monitorización en tiempo real.

Ingesta de datos de más de 20 fuentes heterogéneas mediante conectores personalizados
Pipeline de procesamiento escalable horizontalmente en clusters de Kubernetes
Implementación de algoritmos de detección de anomalías y aprendizaje en línea
Sistema de alertas automatizado basado en umbrales dinámicos
Despliegue automatizado mediante CI/CD con verificaciones de calidad

Resultados

La plataforma permitió reducir el tiempo de detección de incidencias críticas de horas a segundos, mejorando significativamente los KPIs de servicio. Se logró:

Reducción del 65% en el tiempo medio de resolución de incidencias
Mejora del 30% en los SLAs de disponibilidad de red
Ahorro estimado de 1.2M€ anuales en costos operativos
Disminución del 25% en las reclamaciones por interrupciones de servicio

Tecnologías

AWS (EC2, S3, CloudWatch)
Apache Kafka
Spark Streaming
Elasticsearch
Python
Grafana
Docker & Kubernetes

Motor de Recomendación Basado en Machine Learning

Machine Learning | Data Science 2022

Descripción

Desarrollo de un sistema de recomendación avanzado para una plataforma de e-commerce que personaliza la experiencia de compra analizando patrones de comportamiento de millones de usuarios. El motor combina técnicas de filtrado colaborativo y modelos de deep learning para ofrecer recomendaciones altamente relevantes en tiempo real.

Desafío

El cliente enfrentaba el problema del "cold start" con nuevos productos y usuarios, además de necesitar recomendaciones contextuales que consideraran factores como ubicación, temporada y tendencias. Adicionalmente, el sistema debía poder explicar sus recomendaciones y actualizar modelos continuamente.

Solución

Se implementó un enfoque híbrido combinando algoritmos de factorización matricial con redes neuronales profundas para capturar relaciones complejas entre usuarios, productos y contexto. La arquitectura incluye:

Pipeline de procesamiento de datos que integra histórico de navegación, compras y datos demográficos
Modelo de embeddings de productos y usuarios con TensorFlow
Componente de modelado contextual basado en variables temporales y geográficas
Sistema de inferencia en tiempo real para servir recomendaciones con baja latencia
Framework de explicabilidad para justificar recomendaciones generadas
Retroalimentación continua y reentrenamiento automático mediante MLOps

Resultados

El nuevo sistema de recomendación generó un impacto significativo en los indicadores clave de negocio:

Incremento del 27% en la tasa de conversión
Aumento del 18% en el valor promedio de compra
Mejora del 35% en la precisión de las recomendaciones comparado con el sistema anterior
Reducción del 40% en el problema de "cold start" para nuevos productos

Data Lake Empresarial con Arquitectura Medallón

Data Engineering | Cloud Architecture 2021

Descripción

Diseño e implementación de un data lake moderno con arquitectura medallón (Bronze-Silver-Gold) para una empresa Fortune 500, procesando petabytes de datos estructurados y no estructurados. La solución permite transitar de almacenamiento masivo a datos accionables mediante una gobernanza robusta.

Desafío

El cliente operaba múltiples data marts y almacenes dispersos con problemas de calidad de datos, procesos manuales y silos de información. Necesitaban una plataforma unificada de datos que garantizara consistencia, seguridad y acceso democratizado a la información, cumpliendo con normativas regulatorias estrictas.

Solución

Se implementó un data lake en la nube basado en arquitectura medallón que separa los datos en capas de refinamiento progresivo:

Capa Bronze: Ingesta de datos crudos con esquema-on-read y registro de metadatos
Capa Silver: Datos validados, normalizados y enriquecidos
Capa Gold: Modelos dimensionales y vistas analíticas para consumo de negocio
Sistema centralizado de gobernanza con catálogo, linaje y políticas de seguridad
Automatización de pipelines con Databricks y Azure Data Factory
Framework de calidad de datos integrado en cada fase de procesamiento

Resultados

La implementación del data lake moderno transformó las capacidades analíticas de la organización:

Reducción del 70% en el tiempo de entrega de nuevos productos de datos
Consolidación de más de 50 fuentes de datos anteriormente aisladas
Ahorro del 40% en costos de infraestructura gracias a la arquitectura cloud
Mejora del 85% en la disponibilidad de datos para equipos analíticos
Establecimiento de un verdadero modelo de autoservicio para usuarios de negocio

Tecnologías

Azure (Data Lake Storage, Synapse)
Delta Lake
Databricks
PySpark
Azure Data Factory
Azure Purview
Azure Key Vault

Análisis Avanzado de Opiniones con NLP

Machine Learning | NLP 2020

Descripción

Desarrollo de una solución de análisis de opiniones basada en NLP para una empresa líder del sector retail, capaz de procesar miles de comentarios diarios de clientes en múltiples idiomas para obtener insights accionables sobre la percepción de marca y productos.

Desafío

La empresa recibía más de 15,000 comentarios diarios a través de diversos canales (redes sociales, encuestas, reseñas, emails) en diferentes idiomas, haciendo imposible un análisis manual efectivo. Los sistemas tradicionales de análisis de sentimiento no capturaban aspectos específicos ni contextuales de los productos.

Solución

Se implementó una plataforma de procesamiento de lenguaje natural con capacidades multilingües basada en transformers que incluye:

Sistema de extracción y consolidación de comentarios de múltiples fuentes
Pipeline de preprocesamiento con normalización lingüística y traducción automática
Análisis de sentimiento granular por aspectos específicos de productos/servicios
Identificación automática de tendencias emergentes y anomalías en la percepción
Dashboard interactivo con visualización de evolución temporal y drill-down
Sistema de alertas para detección temprana de crisis reputacionales

Resultados

La plataforma transformó la capacidad de respuesta de la empresa ante las opiniones de sus clientes:

Identificación de más de 200 oportunidades de mejora en productos y servicios
Reducción del 60% en el tiempo de respuesta ante comentarios negativos
Mejora del 22% en el NPS (Net Promoter Score)
Incremento del 15% en la tasa de resolución de problemas reportados
Detección temprana de 5 incidentes potencialmente críticos para la marca

Oscar Bocanegra

Portafolio de proyectos

Plataforma de Datos en Tiempo Real

Descripción

Desafío

Solución

Resultados

Tecnologías

Lo más destacado

Motor de Recomendación Basado en Machine Learning

Descripción

Desafío

Solución

Resultados

Tecnologías

Lo más destacado

Data Lake Empresarial con Arquitectura Medallón

Descripción

Desafío

Solución

Resultados

Tecnologías

Lo más destacado

Análisis Avanzado de Opiniones con NLP

Descripción

Desafío

Solución

Resultados

Tecnologías

Lo más destacado

¿Interesado en colaborar en un proyecto?