Mejorando el performance de SQS para millones de escrituras

Solución Procesar SQS Fargate Aurora

Hace ya casi un año que Amazon publicó que estaban desarrollando el soporte de Amazon SQS como «Event Source» para una función Lambda, y desde que la solución estuvo disponible buscaba una escusa para poder encontrar un mini proyecto para probarla.

Para el desarrollo interno de la empresa tengo un «Bot» que obtiene de manera diaria un CSV con alrededor de 1.000.000 de filas. Para todos los que estamos acostumbrados a trabajar con archivos grandes, 1M de datos no suena tan complejo, por lo que a pesar de tener mejores opciones decidí que era el momento de hacer una prueba de fuego parseando este archivo y enviando el resultado directamente a la cola fila por fila para luego ser procesado a través de una función lambda.

Este post es para comentar sobre la estructura final del proyecto, y como se fue modificando para poder funcionar de manera correcta.

Suposiciones

  • El archivo ya existe. Este POST no es sobre como crear un BOT para obtener un archivo.
  • Existe algo de conocimiento previo de lo que significa SQS, Lambda, un Trigger y Aurora.

Los problemas encontrados

A continuación una lista de problemas encontrados en el orden que fueron sucediendo.

  • El parseo inicial fue realizado a través de una función creada en NodeJS. Al parecer hasta el día de hoy el SDK de NodeJS de AWS tiene un bug en el cual el garbage collector no alcanza a borrar suficiente memoria cuando se usan sockets. Esto implica que el enviar cientos de llamados desde NodeJS hacia SQS implicaba que a pesar de tener el máximo de memoria soportado para la ejecusión, el resultado era falla de la ejecución del código. La recomendación de Amazon fue usar otro lenguaje para esta solución.
  • Luego los mensajes a SQS fueron enviados desde el parseador desarrollado en PHP sin problemas de manera secuencial, esperando que cada uno de los mensajes se enviara antes de seguir con el siguiente. Si bien esto funcionó sin problemas, el tiempo necesario para que la solución terminara fue de un poco más de 24 horas. ( Cero opción de que esto sea una solución definitiva ).

La Solución

Solución Procesar SQS Fargate Aurora
Solución Procesar SQS Fargate Aurora

Una de las características que más me gusta del desarrollo en la nube y los microservicios, es la versatilidad de como puedo manejar distintos lenguajes de programación para distintas soluciones y que todos puedan convivir sin problemas entre ellos. El BOT funciona en un contenedor de docker con PHP, y el consumidor de la cola en una función lambda utilizando NodeJS conectado a una base de datos Aurora Serverless.

Envío del mensaje a la cola

Para reducir el tiempo en que el parser del archivo CSV se utilizó una librería que trae promesas y asincronía a los desarrollos en PHP. La verdad hasta hace un par de días no sabía que esto era posible, pero la librería Guzzle Promises funciona de maravilla. Gracias a esto en vez de procesar los mensajes de la cola de manera individual los comencé a procesar por lotes de 500. Solo este cambio hizo que la solución en vez de demorarse un poco más de 24 horas, solo se demorara 86 minutos.

SQS from CSV + PHP

Si bien para la necesidad que tenía ya era un tiempo razonable, en especial por la hora a la que se ejecuta la solución, comencé a ver un par de alternativas que me permitieran reducir el tiempo de ingreso a la cola.

Encontré que en vez de mandar una fila del CSV por mensaje se aprovechaba de mejor manera la inserción en la cola si el mensaje incluía arreglos de 10 filas por mensaje. Solo este cambio significó una mejora desde los 86 minutos a 25 minutos.

PHP + SQS + CSV 25 Min

A esta altura por el momento ya quedo contento con la solución de inserción a la cola. La verdad es que se puede seguir mejorando la inserción, incluso incluyendo más filas por mensaje y comprimir el texto usando alguna librería. Es muy posible que en un futuro lo haga por curiosidad, pero por el momento me quedo contento con el tiempo de ejecución.

Procesando el mensaje.

Ya pasando por el proceso de inserción a la cola, el resto fue bastante sencillo. En la misma función lambda se ingreso como trigger directamente la cola en dónde se estaban ingresando los mensajes, con un máximo de mensajes por función de 10 ( Esto lo podemos hacer mucho más grande ! ).

Por lo que queda como lo siguiente :

  1. Cada mensaje contiene 10 filas con datos.
  2. Cada lambda maneja de manera «simultanea» 10 mensajes de la cola.
  3. Cada función lambda fue configurada con una concurrencia máxima de 100 para no tener que hacer mayores cambios en las conexiones a la BdD Aurora.  Para re-usar las conexiones a la base de datos se usa la librería Aurora Mysql Cluster de NodeJS.

Esto resulta en que en cada unidad de tiempo de procesamiento se pueden estar ingresando a la BdD alrededor de 10000 de lo que en su momento fueron filas con información desde un CSV, por lo tanto,  la velocidad de procesamiento e inserción a la base de datos es mucho mayor que la velocidad de inserción en la cola (Lo que podría traducirse en que quizás la mejor solución era ingresar a la base de datos de manera directa y no pasar por SQS).

Conclusión

Puede que la solución no sea la mejor para el problema dado por lo que deberé cambiarla en un futuro cercano. Sin embargo, estoy contento con el resultado del desempeño de Lambda con SQS como event source, que era lo que se quería probar desde un comienzo.

Espero poder probar el trigger desde SQS a Lambda en un proyecto en producción pronto.

 

👉 ¿Te gustó este contenido? Hay más esperando por ti.

Cada semana, comparto aprendizajes y reflexiones que no encontrarás en ningún otro lugar. ¡Únete a la comunidad de más de 9,000 emprendedores que ya están avanzando!

Introducción a Serverless, Amazon Lambda, Express, Node.js y DynamoDB

Aprende a realizar un REST API usando Serverless, Amazon Lambda, Express, Node.js y DynamoDB. Además usaremos un par de herramientas que hará mucho más sencilla su desarrollo.

Source: Deploy a REST API using Serverless, Express and Node.js

 

Hace un tiempo que me fasciné con la tecnología Serverless, hasta el punto que gran parte de mis desarrollos y sistemas ya están funcionando con ella. Fue a tal nivel que me vi obligado a aprender lenguajes de programación de los cuales nunca me había hecho el tiempo de aprender, en este caso NodeJS ya que nunca me gustó mucho Javascript. Para mi sorpresa ES6, en lo que está basado actualmente la nueva versión de javascript, se adecua un montón a la forma como estoy acostumbrado a programar por lo que el aprendizaje fue más sencillo.

Aprovecho de escribir este tutorial ya que por un lado un amigo – Marcelo A. –  me dijo que ya no estoy escribiendo tanto en mi blog, por lo cual he perdido tráfico, además de poder ayudar a otro amigo – Ernesto M.-  con una breve introducción de estas tecnologías.

En este ejemplo crearemos una API REST – solo usaremos el create, list, and get como ejemplos- de productos que se conectará a una tabla en DynamoDB. (Pueden ver el código del ejemplo en GitHub)

Si bien a continuación hay una lista de requerimientos que deberías tener para poder entender lo más posible este ejemplo, puedes perfectamente copiar el código desde el repositorio y probarlo directamente. Yo estaré programando directamente en Linux, pero lo que mostraré debería ser transversal.

 

Requerimientos :

  • Tener una cuenta en Amazon Web Services.
  • Tener instalado la herramienta de Serverless.
  • Tener instalado NodeJS y npm.
  • Tener un IDE ( Netbeans, Atom, Sublime, etc ) con el cual poder editar el código de manera adecuada y entendible.

Leer más

Base de datos de las instituciones financieras de Chile basada en la información del SBIF

Instituciones Financieras Chile – Base de datos de las instituciones financieras de Chile basada en la información del SBIF en SQL, CSV, PHP y JSON

Origen: GitHub – ctala/InstitucionesFinancierasChile: Base de datos de las instituciones financieras de Chile basada en la información del SBIF

Casi todas las cosas que comparto son debido a que no me gusta hacer el mismo trabajo más de una vez. En este caso estoy haciendo un modulo financiero para nuestro sistema ERP para conciliación bancaria, por lo que encontré que era buena idea tener la información de las instituciones bancarias de Chile.

La página que aparece en el link posee la información de las instituciones reguladas  por el SBIF, su número de resolución o código según corresponda.

Además viene en los siguientes formatos :

  1. SQL, para que lo puedas ingresar directamente a una base de datos.
  2. PHP, por si quieres usarlo en un desarrollo propio. En general es posible que igual necesites la versión SQL.
  3. CSV, por si necesitas hacer la importación a otro sistema o Base de Datos.
  4. Json, simplemente pensé que sería buena idea incluirlo. La verdad yo no lo usaría debido que lo generaría de manera dinámica.

El formato del SQL posee la siguiente estructura :

CREATE TABLE IF NOT EXISTS `instituciones` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `tipo` enum('Bancos','Cooperativas de Ahorro y Crédito','Operadores de Tarjetas de Débito','Asesorías Financieras','Sociedades de Apoyo al Giro Bancarias','Sociedades de Apoyo al Giro de Cooperativas','Sociedad de Leasing Inmobiliario','Sociedades de Cobranza','Sociedades de Factoring','Emisores y Operadores de Tarjetas de Crédito','Operadores de Tarjetas de Pago con Provisión de Fondos','Sociedades Evaluadoras','Sociedades de Garantía Recíproca y Fogape','Firmas Evaluadoras de Instituciones de Garantía Recíproca','Auditores Externos','Almacenes Generales de Depósito registrados en SBIF','Firmas Evaluadoras de Almacenes Generales de Depósito') NOT NULL DEFAULT 'Bancos',
  `codigoSBIF` varchar(5) DEFAULT NULL,
  `codigoRegistro` varchar(5) DEFAULT NULL,
  `nombre` varchar(150) NOT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `codigoRegistro` (`codigoRegistro`),
  UNIQUE KEY `codigoSBIF` (`codigoSBIF`)
) ENGINE=InnoDB  DEFAULT CHARSET=latin1 AUTO_INCREMENT=133 ;

En donde :

  • id, es simplemente el campo auto incremental para la información. No tiene relación a la información del SBIF.
  • tipo, corresponde al tipo de institución que es regulada por el SBIF. Existe la gran posibilidad que solo uses el tipo Banco.
  • codigoSBIF, corresponde al código otorgado a la institución por el SBIF.
  • codigoRegistro, corresponde al número de registro que otorga el SBIF.

Espero que les sirva !

https://github.com/ctala/InstitucionesFinancierasChile/

👉 ¿Te gustó este contenido? Hay más esperando por ti.

Cada semana, comparto aprendizajes y reflexiones que no encontrarás en ningún otro lugar. ¡Únete a la comunidad de más de 9,000 emprendedores que ya están avanzando!

¿ Desarrollar o no Desarrollar? He ahí el dilema

En que momento debemos desarrollar un software o simplemente usar una solución ya hecha anteriormente por la comunidad.

Recuerdo ya que hace muchos años mi primer blog fue programado 100% por mi, lo desarrollé en php siguiendo un tutorial que había en un libro que compré. Cuanto me arrepentí de haberlo hecho. Un par de años después de tenerlo funcionando un robot lo llenó de comentarios y la BdD colapsó, ni si quiera me di la oportunidad de recuperar el contenido que tenía en él. Estaba demasiado molesto…

Creo que poco antes de desarrollar este CMS ( la verdad ni si quiera se puede llamar así ) pensé en usar un sistema que ya existiera, pero en ese momento ganó el sentimiento de pertenencia y no la lógica por lo que terminé desarrollándolo. Si tuviera que elegir HOY si desarrollar un CMS para blogging personal ni si quiera pensaría en algo distinto a wordpress.

¿ Entonces cuando es necesario o no desarrollar un software ?

Leer más

¿ Es necesario un framework ? Simplificando el desarrollo de software

Esta es una discusión que he tenido en bastantes ocasiones con pares y alumnos. La idea de este post es explicar un poco lo que se ha logrado con todas estas discusiones.

En muchos de los casos durante la universidad no hemos tenido la necesidad de desarrollar un software complejo, un software el cual deba de adaptarse a las necesidades del entorno, las modificaciones de ciertas librerías o simplemente al tiempo. La semana pasada le di el ejemplo a un alumno sobre codeignigter, en mi caso fue el primer framework que utilicé para desarrollo web utilizando php y actualmente ( no se si vaya a cambiar pronto) ya no es compatible con las nuevas versiones de php. Esto le puede pasar a cualquier desarrolo, la cantidad de actualizaciones, parches y modificaciones que salen anualmente son muchas más de las que podemos contar. Si esto le pasa a una aplicación que es mantenida por cientos de personas en la comunidad .. ¿Que nos espera a una aplicación desarrollada por nosotros ?

Ojo, esto no es para asustar a nadie, es simplemente para generar conciencia de lo que podría a pasar si no prevenimos.

Es solo cosa de mirar algunas de las aplicaciones más usadas del momento, como lo es Flickr y Facebook, ambas son en base a php y la verdad no creo que vayan a dejar de ser compatibles con sus nuevas versiones o no estén preparados para situaciones como esa. Deben de tener docenas si no cientos de desarrolladores con acceso al código que ocupan y tienen que además tener un estándar que seguir para publicar su código o simplemente para entender el que ya está escrito.

Lo bueno es que ya muchos desarrolladores han lidiado con los mismos problemas a los cuales podríamos enfrentarnos y han desarrollado frameworks en los cuales se han recopilado los conocimientos de muchos desarrolladores para hacer nuestras aplicaciones aún más fácil de realizar.

Ok, podemos decir que los frameworks están para hacer que un desarrollo complejo se convierta en un desarrollo simple. Es posible que para aplicaciones sencillas si agreguemos una complejidad innecesaria al implementar un framework, pero este post se basa en aplicaciones un poco más complejas, esas en las que se requiere ya de un equipo, en las que usaremos manejo de versiones, en las que dividiremos el código en hitos y cada uno de ellos se convertirá en un entregable de un proyecto.

Ok, ¿ pero que es un framework ?

Wikipedia : «A software framework is a universal, reusable software environment that provides particular functionality as part of a larger software platform to facilitate development of software applications, products and solutions. «

Personalmente me gusta el término de «un esqueleto que incluye lo básico para generar una aplicación compleja sin la complejidad requerida para realizarla«.

Si partimos de lo básico, un framework separa la lógica de las vistas, ordenando la forma en que desarrollaremos. De ahora en adelante hablaré un poco del Modelo Vista Controlador ( MVC ). En este modelo el framework provee una clara separación en 3 capas, y la posibilidad de interactuar entre ellas. Teniendo estas separaciones será muy difícil para nosotros desarrollar de manera inadecuada, aunque he visto casos que al no entender el concepto igual logran hacerlo pero se dan cuenta rápidamente que hay algo mal.

En general los frameworks se encargarán de conectar a la Base de datos por nosotros,  se encargan que los datos sean accesibles por las vistas y algunos incluso nos facilitan la generación de código CRUD ( Create Read Update Delete ) para poner nuestra aplicación en marcha lo antes posible. Si tuvieramos que implementar esto por nuestra cuenta ( créanme tuve que hacerlo hace años atrás ) nos demoraríamos mucho tiempo y agregaríamos esa complejidad al desarrollo que tanto tratamos de ignorar. Teniendo esto en cuenta nosotros o nuestro equipo de puede enfocar simplemente en el desarrollo y éxito de la aplicación olvidándonos de desarrollo que cientos de personas ya han hecho por nosotros.

Hay dos frases que me gusta recalcar cuando hablamos de un framework :

  1. No reinventar la rueda
  2. Enanos parados sobre los hombros de gigantes. ( nanos gigantum humeris insidentes )

Ambas se refieren a lo lejos que podemos llegar basándonos en conocimiento ya escrito. ¡ Imagínense que sería de la física si tuviéramos que descubrir la ley de gravedad por cada científico que quisiera explicar por que una manzana se cae al piso ! Ahora piensa nuevamente por que quieres desarrollar algo que ya cientos de personas lo han hecho antes que tu, ¿ ahora suena más ridículo no ?

¿ Como elegir un framework ?

Les recomiendo que cumpla la mayoría de los puntos a continuación.

  • Que sea sencillo de utilizar. La idea es simplificar, no hacer más complejo el desarrollo.
  • Mejore el rendimiento de la aplicación. Muchos framework por ejemplo usan caché para mejor rendimiento.
  • Asegure seguridad. Esto es muy importante y es una de las mejores razones de usar el framework.
  • Separe el lenguaje de las vistas.
  • Ojalá sea Orientada a Objetos !
  • Habilidad de poder configurar
  • Que tenga buena documentación.
  • Que tenga una buena comunidad. La comunidad es la que te ayudará cuando tengas problemas.

 

Ok, espero que con todo lo anterior ya puedas decir que un framework si es necesario no importando el lenguaje que utilizarás. Yo hace un tiempo que uso Yii y me he estado portando a Yii2, cumple con todas las características que dije anteriormente y al parecer se ajusta muy bien a mi mindset, ahora la pregunta es ¿ cual framework usarás tu ?.

 

 

👉 ¿Te gustó este contenido? Hay más esperando por ti.

Cada semana, comparto aprendizajes y reflexiones que no encontrarás en ningún otro lugar. ¡Únete a la comunidad de más de 9,000 emprendedores que ya están avanzando!