Menú Cerrar

Caso de éxito – Big Data & Analytics: Rimac – Data Lake Perú

Data Lake en Amazon Web Services (AWS)

Caso de éxito: Big Data & Analytics

Acerca de Rimac

RIMAC Seguros es la empresa líder del mercado de aseguradoras en Perú. Forma parte de Breca, conglomerado empresarial Peruano con presencia internacional y con más de cien años de existencia, fundado por la familia Brescia Cafferata.

El Problema

Rimac tenía una carga de trabajo grande y muy pesada para sus procesos de datos y análisis, realizados todos ellos en servidores on-premise.

Cada nuevo proceso generaba una nueva tabla en su base de datos, lo cual hacía aún más compleja la administración de la información, y contribuía a los costosos tiempos de procesamiento de la información.

Estos y otros factores crearon un escenario en que los procesos de negocio no podían continuar escalando en respuesta al creciente volúmen de datos y complejidad de los mismos, y era necesario mejorar los tiempos de procesamiento.

Continuidad Operativa

Para garantizar la continuidad operativa de la plataforma se han escogido servicios que en su mayoría se caracterizan por ser “serverless”, es decir no dependen de infraestructura de servidores para la ejecución de sus procesos. Esto no solo simplifica la administración de la plataforma, sino que entrega características de alta disponibilidad en los servicios de forma automática sin requerir esfuerzos adicionales.

Escalabilidad

Los recursos provisionados por AWS para dar soporte a la operación del Data Lake de Rimac se caracterizan por ser flexibles, permitiendo escalabilidad vertical u horizontal según sea necesario.

Seguridad

Para acceder a los servicios del Data Lake los usuarios deben autenticarse con credenciales propias de la plataforma AWS a través del servicio de Identity & Access Management (IAM). El mismo servicio IAM permite establecer el nivel de acceso y privilegios para cada servicio que reciben los usuarios, lo que determina finalmente quién puede acceder a cada servicio, y qué acciones o actividades puede realizar

Protección de Datos en Reposo

Los servicios de almacenamiento de datos de la Nube de AWS cuentan con sistemas de encriptación para los datos en reposo, de manera que no es posible realizar una lectura de los datos sin pasar por el sistema de desencriptado correspondiente.

Monitoreo Permanente

CloudWatch y CloudTrail proveen la capacidad de monitoreo constante de los recursos y servicios del Data Lake de Rimac: alertas y notificaciones relacionadas con las métricas de los servicios e infraestructura en uso. Todo evento generado por los usuarios es registrado y almacenado, permitiendo realizar procesos de auditoría y conformidad.

Tecnologías usadas

AWS Direct Connect

AWS IAM

Amazon S3

Amazon Redshift

AWS EMR

Amazon Athena

Amazon Sagemaker

AWS Storage Gateway

Amazon CloudWatch

Amazon CloudTrail

La fuente de datos primaria del Data Lake es el servicio de Amazon S3. En Amazon S3 se almacenan los diferentes archivos planos generados por los Data Extractors.

Amazon Redshift es el repositorio de los datos transformados del Data Lake. Amazon Redshift recibe información desde las transformaciones del script ETL en EMR y desde Amazon S3.

El Data Lake permite hacer uso de clústers EMR para realizar análisis predictivo de los datos almacenados en el servicio Amazon S3.

Amazon Athena permite realizar consultas interactivas en el Data Lake.

Con Amazon SageMaker, Rimac puede crear, entrenar y ejecutar sus modelos de Machine Learning.

Para facilitar la carga de datos hacia el Data Lake y proveer un sistema seguro de transferencia de datos de fácil uso e implementación, AWS Storage Gateway provee un punto único de acceso a la estructura del Data Lake en S3, que permite el copiado de archivos hacia el Data Lake.

Resultados


La solución implementada trasladó la carga de trabajo de los procesos de datos y análisis realizados on-premise, hacia la nube de AWS, entregando con esto una plataforma de clase mundial para el procesamiento y almacenamiento de los datos que permite optimizar y acelerar la obtención de resultados en los procesos de datos incorporados a esta nueva plataforma, y aliviando la carga de trabajo de la infraestructura y recursos on-premises.

¿Te gustaría implementar un Data Lake en tu empresa para aprovechar todo el potencial del Aprendizaje Automático?

Publicado en Casos de éxito

Artículos relacionados