Data Lake en Amazon Web Services (AWS)
Caso de éxito: Big Data & Analytics
Acerca de Rimac
RIMAC Seguros es la empresa líder del mercado de aseguradoras en Perú. Forma parte de Breca, conglomerado empresarial Peruano con presencia internacional y con más de cien años de existencia, fundado por la familia Brescia Cafferata.
El Problema
Rimac tenía una carga de trabajo grande y muy pesada para sus procesos de datos y análisis, realizados todos ellos en servidores on-premise.
Cada nuevo proceso generaba una nueva tabla en su base de datos, lo cual hacía aún más compleja la administración de la información, y contribuía a los costosos tiempos de procesamiento de la información.
Estos y otros factores crearon un escenario en que los procesos de negocio no podían continuar escalando en respuesta al creciente volúmen de datos y complejidad de los mismos, y era necesario mejorar los tiempos de procesamiento.
Continuidad Operativa
Para garantizar la continuidad operativa de la plataforma se han escogido servicios que en su mayoría se caracterizan por ser “serverless”, es decir no dependen de infraestructura de servidores para la ejecución de sus procesos. Esto no solo simplifica la administración de la plataforma, sino que entrega características de alta disponibilidad en los servicios de forma automática sin requerir esfuerzos adicionales.
Escalabilidad
Los recursos provisionados por AWS para dar soporte a la operación del Data Lake de Rimac se caracterizan por ser flexibles, permitiendo escalabilidad vertical u horizontal según sea necesario.
Seguridad
Para acceder a los servicios del Data Lake los usuarios deben autenticarse con credenciales propias de la plataforma AWS a través del servicio de Identity & Access Management (IAM). El mismo servicio IAM permite establecer el nivel de acceso y privilegios para cada servicio que reciben los usuarios, lo que determina finalmente quién puede acceder a cada servicio, y qué acciones o actividades puede realizar
Protección de Datos en Reposo
Los servicios de almacenamiento de datos de la Nube de AWS cuentan con sistemas de encriptación para los datos en reposo, de manera que no es posible realizar una lectura de los datos sin pasar por el sistema de desencriptado correspondiente.
Monitoreo Permanente
CloudWatch y CloudTrail proveen la capacidad de monitoreo constante de los recursos y servicios del Data Lake de Rimac: alertas y notificaciones relacionadas con las métricas de los servicios e infraestructura en uso. Todo evento generado por los usuarios es registrado y almacenado, permitiendo realizar procesos de auditoría y conformidad.
Tecnologías usadas
AWS Direct Connect
AWS IAM
Amazon S3
Amazon Redshift
AWS EMR
Amazon Athena
Amazon Sagemaker
AWS Storage Gateway
Amazon CloudWatch
Amazon CloudTrail
La fuente de datos primaria del Data Lake es el servicio de Amazon S3. En Amazon S3 se almacenan los diferentes archivos planos generados por los Data Extractors.
Amazon Redshift es el repositorio de los datos transformados del Data Lake. Amazon Redshift recibe información desde las transformaciones del script ETL en EMR y desde Amazon S3.
El Data Lake permite hacer uso de clústers EMR para realizar análisis predictivo de los datos almacenados en el servicio Amazon S3.
Amazon Athena permite realizar consultas interactivas en el Data Lake.
Con Amazon SageMaker, Rimac puede crear, entrenar y ejecutar sus modelos de Machine Learning.
Para facilitar la carga de datos hacia el Data Lake y proveer un sistema seguro de transferencia de datos de fácil uso e implementación, AWS Storage Gateway provee un punto único de acceso a la estructura del Data Lake en S3, que permite el copiado de archivos hacia el Data Lake.
Resultados
La solución implementada trasladó la carga de trabajo de los procesos de datos y análisis realizados on-premise, hacia la nube de AWS, entregando con esto una plataforma de clase mundial para el procesamiento y almacenamiento de los datos que permite optimizar y acelerar la obtención de resultados en los procesos de datos incorporados a esta nueva plataforma, y aliviando la carga de trabajo de la infraestructura y recursos on-premises.