Data lakes frente a almacenes de datos

Tanto los data lakes como los almacenes de datos se utilizan de forma generalizada para almacenar big data, pero no son términos intercambiables. Un data lake es un enorme conjunto de datos en bruto cuya finalidad no se ha definido todavía. Un almacén de datos es un repositorio de datos filtrados y estructurados que ya han sido procesados para una finalidad concreta.

La gente suele confundir estos dos tipos de almacenamiento de datos, cuando en realidad son mayores sus diferencias que sus semejanzas. A decir verdad, la única similaridad real entre ambos es su máxima finalidad, que es almacenar datos.

La diferencia es importante, porque están pensadas para objetivos distintos y exigen perspectivas diferentes para optimizarlas correctamente. Mientras que a una empresa le convendrá más tener un data lake, para otra resultará más oportuno disponer de un almacén de datos.

Download Data Lakes: Purposes, Practices, Patterns, and Platforms now.
Download Now

Cuatro diferencias principales entre un data lake y un almacén de datos

Existen varias diferencias entre un data lake y un almacén de datos. Los principales diferenciadores son la estructura de los datos, los usuarios ideales, los métodos de procesamiento y la finalidad general de los datos.

 

Data lake

Almacén de datos

Estructura de datos

En bruto

Procesados

Finalidad de los datos

Por determinar

Actualmente en uso

Usuarios

Científicos de datos

Profesionales corporativos

Accesibilidad

Muy accesible y rápido de actualizar

Más complicado y caro de realizar cambios

Estructura de datos: En bruto frente a procesados

Los datos en bruto son datos que no aún no han sido procesados para ninguna finalidad. Quizá la principal diferencia entre los data lakes y los almacenes de datos sea la diversa estructura existente entre los datos en bruto y los procesados. En líneas generales un data lake almacena datos en bruto, sin procesar, mientras que un almacén guarda datos procesados y refinados.

Por ese motivo los data lakes suelen necesitar capacidades de almacenamiento mucho mayores que los almacenes de datos. Además, los datos en bruto, sin procesar, son maleables, pueden analizarse rápidamente a cualquier efecto y son idóneos para el machine learning. El riesgo de los datos en bruto, sin embargo, es que en ocasiones estos "lagos" que son los data lakes se convierten en pantanos de datos sin la presencia de la calidad de datos y las medidas de gobernanza adecuadas.

Los almacenes de datos, como tan solo guardan datos procesados, ahorran en espacio de almacenamiento, que es un recurso caro, porque no tienen que mantener datos que quizá nunca vayan a utilizarse. Además, los datos procesados los puede entender fácilmente un público más amplio.

Finalidad: Indeterminada o en uso

La finalidad de los componentes de datos individuales de un data lake no está establecida. Los datos en bruto se incorporan a un data lake, a veces con un uso futuro prefigurado y otras tan solo para tenerlos a mano. Esto significa que los data lakes presentan una menor organización y menor filtrado de sus datos que su equivalente.

Los datos procesados son datos en bruto a los que se ha asignado un uso concreto. Dado que los almacenes de datos tan solo albergan datos procesados, todos los datos de cualquier almacén de datos han sido utilizados para una finalidad específica dentro de la organización. Esto implica que el espacio de almacenamiento no se desperdicia en datos para los que puede que no se encuentre jamás una utilidad.

Usuarios: Científicos de datos frente a profesionales corporativos

Para un usuario que no esté familiarizado con los datos sin procesar, los data lakes son entornos en los que cuesta orientarse. Para entender los datos en bruto no estructurados y traducirlos a una aplicación comercial específica, se necesita ser un científico de datos y contar con herramientas especializadas.

De lo contrario, cada vez son más habituales las herramientas de preparación de datos que generan un acceso en autoservicio a la información almacenada en los data lakes.

Obtenga más información: "¿En qué consiste la preparación de datos?" →

Los datos procesados se emplean en gráficos, hojas de cálculo, tablas y demás representaciones para que la inmensa mayoría de los empleados de una empresa pueda consultarlos. Los datos procesados, al igual que los que encontramos en los almacenes de datos, tan solo exigen que el usuario tenga conocimientos de la temática representada.

Accesibilidad: Flexible frente a seguro

La accesibilidad y la facilidad de uso se refieren al uso del repositorio de datos en su totalidad, no a los datos que contiene. Los data lakes no tienen estructura y, por consiguiente, resulta fácil acceder a ellos y modificarlos. Además, cualquier cambio de los datos puede efectuarse rápidamente, dado que los data lakes tienen muy pocas limitaciones.

Por diseño, los almacenes de datos son más estructurados. Una de las ventajas más destacadas de los almacenes de datos es que el procesamiento y la estructura de los datos facilita su descodificación, pero las limitaciones de su estructura complican y encarecen su manipulación.

Watch Architecting an Open Data Lake for the Enterprise now.
Watch Now

Data lakes frente a almacenes de datos: ¿Cuál me conviene más?

Las organizaciones suelen necesitar ambos. Los data lakes se crearon por la necesidad de sacar partido a big data y aprovechar los datos estructurados y no estructurados granulados sin procesar para el machine learning, pero sigue existiendo la necesidad de crear almacenes de datos para que los usuarios corporativos les den una aplicación analítica.

Sanidad: Los data lakes guardan información no estructurada

Los almacenes de datos llevan años utilizándose en el sector de la sanidad, pero jamás se han cosechado grandes éxitos. Debido a la naturaleza no estructurada de gran parte de los datos del sector sanitario (notas de facultativos, datos clínicos, etc.) y a la necesidad de obtener información útil en tiempo real, los almacenes de datos no suelen ser un modelo idóneo.

Los data lakes permiten una combinación de datos estructurados y no estructurados, lo que en general encaja mejor para las empresas de este sector.

Descubra cómo Talend ayudó a AstraZeneca a crear un data lake mundial. →

Educación: Los data lakes ofrecen soluciones flexibles

Los últimos años se ha puesto de manifiesto a todas luces el valor de big data en las reformas educativas. Los datos sobre las calificaciones de los alumnos, asistencia, etc., no solo pueden ayudar a los alumnos en apuros a volver a encauzar sus estudios, sino que pueden contribuir a predecir posibles problemas antes de que ocurran. Las soluciones flexibles de big data también han ayudado a los centro educativos a racionalizar su facturación, mejorar la recaudación de fondos y en muchos otros frentes.

Gran parte de estos datos son extensos y se encuentran totalmente sin procesar, de modo que a menudo a los centros de enseñanza les conviene más la flexibilidad de los data lakes.

Finanzas: Los almacenes de datos atraen a las masas

En las finanzas, como en otros entornos de negocios, un almacén de datos suele ser el mejor modelo de almacenamiento, porque puede estructurarse de forma que toda la empresa tenga acceso y no estrictamente los científicos de datos.

Big data ha permitido que el sector de los servicios financieros dé pasos agigantados, y los almacenes de datos han tenido mucho que ver a ese progreso. El único motivo por el que una empresa de servicios financieros decida optar por otro modelo es porque, si bien resulta más rentable, no es tan eficaz para otras finalidades.

Transporte: Los data lakes ayudan a realizar predicciones

La gran ventaja de la información que aporta un data lake pasa por la capacidad de realizar predicciones.

En el sector del transporte, en especial en la gestión de la cadena de suministros, la capacidad predictiva que surge de los datos flexibles en un data lake puede tener grandes ventajas, a saber, la posibilidad de rebajar los precios que aporta el análisis de los datos de formularios de la canalización de transporte.

La importancia de elegir un data lake o un almacén de datos

El debate entre "data lakes o almacenes de datos" acaba de empezar, probablemente, pero las principales diferencias en estructura, procesamiento, usuarios y agilidad general hacen que cada modelo sea único. Según cuáles sean las necesidades de su empresa, resultará fundamental para su crecimiento crear el data lake o el almacén de datos más adecuado.

Obtenga más información sobre data lakes en cloud o descargue una prueba gratuita de Talend Big Data Sandbox y descubra lo fácil que puede resultar trabajar con big data.

| Last Updated: enero 29th, 2019