Revista Opinión

Data Warehouse

Publicado el 12 marzo 2019 por Carlosgu82

                                                   Data Warehouse

1: Componentes de Data Werehouse

  • Fuente de datos :

Este componente es él que normalmente está presente originalmente en las organizaciones, y a partir del cual se realiza la captura de datos que se contemplara en el DW. Estas fuentes de datos pueden ser sistemas operacionales corporativos

  • Estructura y transformación

Es responsable de que la información pueda moverse, con las transformaciones que sean necesarias, desde las fuentes de datos al DW.

  • Servidor de datos

Los servicios que debe ofrecer incluyen en los servicios de mantenimiento de datos y un servicio   de distribución para exportar datos del DW a servidores de base de datos descentralizada y a otros sistemas de soporte de toma de decisiones de usuario. El componente también ofrece servicio de seguridad como backup, recuperación y monitorización

  • Herramientas de acceso:

Sin las herramientas adecuadas de acceso y análisis el DW se puede convertir en una amalgama de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen los datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista.

1.4.1 DATA MART: Una vez contando con la base de información empresarial integrada y, a partir de esta, se crean subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones.

Existen dos tipos de Data Mart:

  • Data Mart dependiente: son los datos extraídos de DW
  • Data Mart Independiente: son los datos extraídos de los sistemas operacionales

1.4.2 Sistema OLTP

Estos procesan las transacciones de tiempo real de un negocio, contienen estructuras de datos optimizado para la introducción y a la adición de los datos, su principal desventaja es que proporciona capacidad muy limitadas para la toma de decisiones

1.4.3 Sistema OLAP

Con OLAP los datos son clasificados en diferentes dimensiones las que pueden ser visitas unas con otras en cualquier combinación para obtener diferentes análisis de datos que contienen.

En los modelos de OLAP, la información es vista como cubos, los cuales consisten en categorías descriptivas(dimensiones) y valores cuantitativos(medidas).El modelo de datos multidimensional simplifica a los usuarios formular consultas complejas arreglar datos en un reporte, cambiar de datos resumidos a datos detallados y filtrar o rebanar los datos en subconjuntos significativos

  • Repositorio/Metadatos

Los metadatos son básicamente datos acerca de los datos contenidos en el DW. Asi uno de los problemas con el que pueden encontrarse los usuarios de un DW es saber lo que hay en el y como pueden acceder a lo que quieren

El repositorio les ayuda a conseguirlo, es solo una de las utilidades del repositorio, pero este tiene muchas funcionalidades: catalogar y describir la información disponible, especificar el propósito de la misma

2.Metodologia Inmon

En este modelo, la premisa es que la información se almacene al máximo nivel de detalle (garantizando la futura exploración de los datos), permaneciendo invariable y no volátil, de manera que los cambios que sufran los datos a lo largo del tiempo queden registrados sin que puedan modificarse o eliminarse.

Estas son las claves fundamentales de la arquitectura defendida por Inmon, conocida como ‘Corporate Information Factory (CIF)’, donde el DataWarehouse centraliza todos los datos de la compañía para alimentar, a continuación, pequeños DataMarts temáticos, que serán los puntos de acceso para las herramientas de reporting. En este sentido, cada departamento tendrá su propio DataMart, abastecido con la información del DataWarehouse, listo para su análisis y explotación.

Este enfoque de Inmon suele denominarse como una metodología de trabajo ‘Top-Down’, ya que se centra primero en una visión global de la compañía, para ir desmembrándola en pequeños sets de datos departamentales. Así, con esta arquitectura, todos los DataMarts de la organización están conectados al DataWarehouse, evitándose la aparición de incongruencias y anomalías al comparar los datos entre distintos departamentos.

4.Metodologia Kimball

A medida que otros departamentos necesiten sus propios datamarts, éstos se irán combinando con el primero manteniendo una metodología de estandarización mediante lo que Kimball denomina “dimensiones conformadas”, que serán las dimensiones comunes entre los diferentes departamentos. La clave radica en que estas dimensiones han de ser compartidas por los distintos datamarts que existan en la organización, garantizándose así la integridad de los mismos y dando lugar al conglomerado de estructuras que para Kimball conforman el datawarehouse.

Para lograr este resultado, es importante que estas dimensiones conformadas tengan un diseño consistente y apto para todos los datamarts, de forma que al crearse uno nuevo, reutilice las dimensiones ya definidas, pudiendo incluir o no otras dimensiones nuevas. La principal ventaja de este enfoque de almacén de datos es que, al estar formado por pequeños datamarts estructurados en modelos de datos dimensionales (esquemas de estrella o copo de nieve), especialmente diseñados para la consulta y generación de informes, el datawarehouse al completo puede ser explotado directamente por las herramientas de reporting y análisis de datos sin la necesidad de estructuras intermedias.


Volver a la Portada de Logo Paperblog