Skip to main content

¿Qué son los Canales de Datos (Data Pipelines) y por qué considerar su automatización?

Un Canal de Datos es una serie de acciones que combinan datos de múltiples fuentes para su visualización y análisis

 

En el ambiente de negocios actual, tomar decisiones bien informadas de manera rápida y ágil es una poderosa fuente de ventaja competitiva. Aprovechar las oportunidades de mejora del negocio provistas por los datos de manera oportuna puede ser sin embargo un reto difícil de enfrentar, por no decir doloroso. El volumen de datos y número de fuentes de datos parece crecer incesantemente de manera cotidiana: soluciones on-premise, aplicaciones de negocios en la nube (SaaS), bases de datos, y otras fuentes de datos externas. Cómo consolidar sus datos desde todos estas fuentes dispares en un solo lugar para su análisis? La respuesta está en los Canales de Datos (Data Pipelines).

 

¿Qué es un canal de datos?

Un Canal de Datos es un conjunto de acciones y tecnologías que enrutan y procesan “datos crudos” de una fuente a un destino. Canales de datos son en algunos casos referidos como “conectores de datos”.

Los canales de datos están compuestos por tres componentes: fuentes, destinos, y unas transformaciones:

  • Las fuentes de datos pueden incluir una base de datos interna: por ejemplo una base de datos transaccional de MongoDB o PostgreSQL, una aplicación de negocios en la nube como Salesforce, Shopify o MailChimp, o una fuente de datos externa como Nielsen o Qualtrics.

  • Los destinos son repositorios de en los cuales los datos de la organización son almacenados para su uso en conjunto: ejemplos de estos son los almacenes de datos (DWH)  y los lagos de datos (Data Lakes).

  • Las transformaciones de datos pueden ser ejecutadas utilizando herramientas como dbt o Trifacta, o pueden ser construidas manualmente utilizando un conjunto de tecnologías como Python, Apache Airflow o herramientas similares. Estas herramientas son principalmente utilizadas para hacer que los datos de fuentes externas sean relevantes para casos de uso específicos.

Los canales de Datos permiten la centralización de los datos provenientes de múltiples fuentes de datos dispares en un solo lugar para su análisis. Se puede obtener una vista más robusta para sus clientes, crear visualizaciones de control financiero y mucho más.

Por ejemplo, el stack de soluciones de mercadeo y comercio de una organización puede incluir plataformas separadas como Facebook Ads, Google Analytics y Shopify. Si un analista de experiencia del cliente quiere analizar todos estos datos para comprender la efectividad de una campaña publicitaria digital, un Canal de Datos se hace necesario para poder manejar la transferencia y normalización de los datos originados en estas fuentes de datos dispares hacia un almacén de datos (DWH) como Snowflake.

Adicionalmente, los canales de datos pueden transferir los datos desde un almacén de datos o un lago de datos a sistemas operacionales, como por ejemplo un sistema de procesamiento de experiencia del cliente como Qualtrics.

Los canales de datos también pueden asegurar la calidad de los datos de manera consistente, lo cual es crítico para realizar una labor de Inteligencia de Negocios (Business Intelligence o BI) confiable. 

 

Arquitectura de los Canales de Datos

Muchas compañías están modernizando su infraestructura de datos a través de la adopción de herramientas nativas de la nube. Los Canales de Datos automatizados son un componente clave de esta arquitectura moderna de datos (Modern Data Stack o MDS, por sus siglas en inglés), ya que permiten el acceso a nuevas fuentes de datos y ayudan a mejorar la Inteligencia de Negocios (BI).

 

Una moderna arquitectura de datos (MDS) consiste en:

  1. Una herramienta de canal de datos automatizada como Fivertan.

  2. Un destino de datos basado en la nube como Snowflake, BigQuery o AWS Redshift.

  3. Una herramienta que realiza la transformación de datos después de ser cargados en su destino como dbt (también conocida como “data build tool” de Fishtown Analytics).

  4. Una herramienta de Visualización de datos / Inteligencia de Negocios como Looker, Chartio o Tableau.

 

Los Canales de Datos permiten la transferencia de datos desde una plataforma fuente a un destino, donde los datos pueden ser consumidos por analistas y personal dedicado a la ciencia de datos para ser analizados y transformados en ideas innovadoras para su organización. Este concepto es resumido en la gráfica de abajo, donde vemos que Fivetran automatiza al 100% estos Canales de Datos.

 

 

Considere el caso del manufacturador de zapatos deportivos ASICS. La compañía requería consolidar datos de las aplicaciones de negocios Netsuite (Financiera) y de Salesforce Marketing Cloud (Mercadeo) para poder obtener una visión completa de 360 grados del comportamiento de sus clientes.

Para esto, el equipo de Ingeniería de Datos de ASICS combinó esta información con los datos de su aplicación Runkeeper. De esta forma pudo analizar información de suscripción  de los clientes al programa de lealtad combinada con información de otros canales de atribución. Con su canal de Datos Automatizado, ASICS puede escalar la integración de estos datos de manera fácil y extremadamente rápida.

Existen muchas variaciones de flujos de trabajo como el de ASICS, dependiendo en el caso de uso del negocio y el destino de elección.

 

Los pasos básicos de la transferencia de datos ELT son:

  1. Leer Datos de la Fuente:

Las fuentes pueden incluir bases de datos de producción como MySQL, MongoDB y PostgreSQL, en combinación con aplicaciones web como Salesforce y MailChimp.  El Canal de Datos lee estos datos a través del API endpoint basado en intervalos programados.

  1. Definir un Destino:

Los destinos pueden incluir un almacén de datos en la nube (Snowflake, BigQuery o Redshift), un lago de datos o un motor de datos de una plataforma de inteligencia de negocios (BI).

  1. Transformar los Datos:

Los profesionales de los datos requieren datos estructurados y accesibles que puedan ser interpretados lo más fácil posible para que puedan tener el significado deseado para sus clientes de negocio  en sus organizaciones. La transformación de los datos permite su modificación y formateo para hacerlos más consumibles y relevantes para casos de uso analítico específicos.

La transformación de datos puede tomar formas variadas, tales como:

  • Constructiva: adicionar, copiar o replicar datos.

  • Destructiva: borrado de campos, registros o columnas.

  • Estėtica: estandarización de convenciones, nombres de calles etc (e.g. Limpieza de datos.

Las transformaciones hacen que los datos queden correctamente formateados y organizados, haciéndolos de fácil interpretación para las personas y también para las aplicaciones. Un analista de datos puede utilizar una herramienta como dbt para estandarizar, ordenar, validar y verificar los datos que han sido importados por el canal de datos.

 

ETL y la confiabilidad del canal de datos

Como es de esperarse en el mundo tecnológico, las cosas pueden fallar o romperse, incluyendo los flujos de datos. Dado que sus procesos de Analítica e Inteligencia de Negocios (BI) dependen de los datos extraídos de múltiples fuentes, resulta crítico que los canales de datos sean confiables y provean los datos de manera oportuna y continua. Importar datos desde fuentes como Stripe, Salesforce o Shopify implica sin embargo que los APIs que estas dependen cambien con el tiempo, resultando en campos borrados intencionadamente y en flujos de datos dañados. El diagrama de abajo presenta este ciclo repetido de falla y re-ingeniería del canal de datos:

 

Más aún, la construcción y el diseño de un canal de datos es una labor ardua (por no decir tediosa) que para muchos equipos de datos no genera particular entusiasmo o incluso desborda las competencias de los mismos en diversas organizaciones.  Como vemos, los canales de datos demandan mantenimiento y atención continua en una manera análoga a la fuga de fluidos de una tubería física - recursos son empleados para este fin con poco o nada de retorno que esta inversión representa. Y esto para no hablar de la complejidad que representa construir un canal de datos idempotente.

Dado el rápido crecimiento de las soluciones basadas en la nube y la extraordinaria caída de los costos de almacenamiento y computación en la nube, es difícil justificar el ejercicio de esta práctica tradicional de integración de datos. Hoy en día, es posible mantener cantidades enormes de datos en la nube a bajo costo y utilizar un canal de datos en la nube (Software-as-a-service o SaaS, por sus siglas en inglés) para simplificar y mejorar la función de la Analítica de Datos a nivel organizacional.

En síntesis, hoy en día ya es posible extraer y cargar los datos (utilizando la nube), para luego transformarlos de la manera requerida para el análisis y toma de decisiones basados en ellos. Si su organización se encuentra considerando adoptar soluciones basadas en la filosofía ETL o ELT, ELT es sin duda la que mayores beneficios incurrirá para su organización.

 

Conectores de Datos Automatizados

Sin lugar a dudas, sus Ingenieros de Datos están capacitados para construir conectores que extraen datos de una variedad considerable de plataformas. Sin embargo, antes de construir conectores de datos, es importante que revise las consideraciones planteadas en nuestro artículo de comprar vs. construir un conector. Los costos varían en las diferentes regiones y escalas de remuneración, sin embargo unos cálculos rápidos pueden ayudar a entender y justificar si un desarrollo interno puede ser razonable y justificable.

Es importante resaltar que los Ingenieros de Datos preferirán enfocar sus esfuerzos en proyectos de mayor valor estratégico para su organización. La extracción y el movimiento de datos de un punto A a un punto B, y su mantenimiento, suele ser una tarea repetitiva que por lo general no genera mucho entusiasmo para su valioso equipo de datos.

Compare el esfuerzo de construir conectores manualmente con el que representa el uso de una herramienta de canalización de datos automatizada. Este tipo de herramienta monitorea cambios de cualquier tipo que se presentan de manera repetida y frecuente en las fuentes de datos y puede automáticamente ajustarse y adaptarse a estos cambios sin necesidad de intervención de equipos de desarrolladores tradicionales.

Por esto, los conectores de datos automatizados constituyen la forma más efectiva de reducir la carga de trabajo de los programadores mientras a su vez soporta eficientemente las necesidades de datos de los analistas y científicos de datos.

Y con una transferencia de datos (o canalización de datos) bajo control, los Ingenieros de datos pueden dedicarse a ejercer una función más valiosa y estratégica: catalogar y modelar los datos para las partes interesadas y convertirse en un puente clave para los analistas de datos y la toma de decisiones.

 

Por qué Fivetran?

Los conectores de datos automatizados de Fivetran son preconstruidos y preconfigurados, soportando más de 150 fuentes de datos, incluyendo bases de datos, servicios de datos en la nube y aplicaciones de negocios. Los conectores de Fivetran se adaptan automáticamente a medida que los proveedores de servicios de datos hacen cambios a los esquemas como añadir o remover columnas, cambiar el tipo de dato de la columna fuente, o añadir nuevas tablas. Por último, nuestros canales de datos manejan la normalización de los datos y crean unos modelos de datos en el destino, listos para ser consumidos de manera centralizada por su organización, ofreciendo tolerancia a las fallas y auto recuperación en caso de presentarse. Puede leer más acerca de la integración de datos automatizada a través de este link.