ETL

Es el proceso de extracción, tratamiento y carga de información de diferentes orígenes de datos para consolidarlo en una base de dato, data mart o data warehouse.

El proceso de extracción es el que se encarga de obtener la información de diferentes orígenes de datos, estos pueden ser bases de datos relacionales, archivos de texto, documentos de Excel, bases de datos Access, bases de datos no relacionales, API externas, ERP (Enterprise Resource Manager), servidores FTP y más. En el proceso de extracción se deben de validar los datos recibidos, así mismo debe evitarse afectar el rendimiento de los orígenes de datos.

El proceso de tratamiento es el que recibe los datos del anterior proceso, su objetivo es aplicar reglas de negocio transformando los datos recibidos en el formato que serán utilizados. Un ejemplo simple es un identificador de un dispositivo en campo, el identificador podría tener la nomenclatura DEPTO-EMPRESA-ID_SENSOR, el proceso de tratamiento sería el encargado de separar el string en tres nuevos valores: Departamento, nombre de empresa y el id del sensor.

El proceso de carga es el encargado de guardar la información en el destino, este proceso dependerá del sistema en donde se almacenarán los datos, en un data warehouse la información se podría almacenar en diferentes tablas dimensionales de un modelo de estrella.

Ventajas

  • Envía únicamente los datos que se utilizarán al destino.
  • Permite la interoperabilidad entre los orígenes de datos y el sistema destino.
  • Permite separar los recursos de hardware a utilizar en el proceso de tratamiento/carga y el destino.

Desventajas

  • Para que los datos estén en el destino es necesario que pase por el proceso de tratamiento, si es un origen de datos nuevo es necesario analizarlos antes de enviarlos.
  • Si el esquema cambió en un origen de datos, el proceso de tratamiento requerirá de mantenimiento.

ELT

Es el proceso de Extraer, Cargar y transformar la información de diferentes orígenes de datos en una base de datos, data mart o data warehouse. En ELT la información se extrae del origen y se envía en crudo al sistema destino, esto es utilizado en repositorios de almacenamientos y data warehouse que pueden soportar la capacidad de procesamiento requerido para el tratamiento de los datos.

Ventajas

  • La información se envía como esta, esto aumenta la velocidad y disponibilidad.
  • Al utilizar repositorios de datos para almacenar los datos reduce costos.
  • Existen diferentes alternativas en la nube que ofrecen capacidad de procesamiento y almacenamiento de forma escalable.

Desventajas

  • Es necesario un profundo entendimiento de cómo la información está almacenada para poder presentar resultado utilizando herramientas de Business Intelligence.
  • El tener los datos en crudo requiere capacidad de procesamiento mayor a la utilizada en ETL.
  • Es necesario darle tratamiento a los datos.

Conclusión

ETL es recomendado para BI de datos que provienen de bases de datos relacionales, archivos de Excel, Access y de texto. En el data warehouse la información estará en tablas dimensionales listas para ser consultadas.

ELT es una solución para orígenes de bases de datos no relacionales, datos provenientes de sensores, metadatos, archivos de audio, logs de consumo y más. Estos datos pueden almacenarse en repositorios y pueden ser procesados para presentar reportaría. Es posible utilizar ELT cuando el sistema tiene la capacidad de hardware suficiente para procesar la información.

Referencias

https://es.wikipedia.org/wiki/Extract,_transform_and_load/
https://www.talend.com/resources/what-is-elt/