Capítulo 1 Datos y diseño del caso práctico

El caso práctico que se desarrolla se basa en los datos del Padrón Municipal. En el libro se usan los datos de la provincia de Granada pero cada estudiante tiene una provincia asignada para realizar las actividades propuestas usando sus propios datos (además de los datos comunes).

En este capítulo se explica cómo obtener los datos necesarios para poder desarrollar el resto de capítulos. Se presenta el diseño multidimensional a nivel conceptual y lógico realizado a partir de estos datos: el diseño que se implementa mediante las distintas herramientas en el resto de capítulos.

Objetivos del capítulo

  • Obtener los datos en los que se basan el resto de capítulos.

  • Presentar el diseño conceptual y lógico del caso práctico.

1.1 Obtención de los datos

Vamos a trabajar con datos del Padrón Municipal para los municipios de la provincia asignada1. Para cada municipio, obtendremos los datos del número de mujeres y hombres contabilizados cada 1 de Enero, desde el año 1996 hasta el último año publicado.

Descarga de datos del [Padrón municipal (INE)](https://www.ine.es/dynt3/inebase/index.htm?padre=525).

Figura 1.1: Descarga de datos del Padrón municipal (INE).

Los datos de las distintas provincias se puede obtener del INE (Instituto Nacional de Estadística), cuya página se muestra en la figura 1.1. Pulsando sobre el icono Descarga ficheros situado a la izquierda del nombre de la provincia que tenemos asignada, se abre la ventana de la figura 1.2, que nos permite seleccionar el formato de descarga de los datos.

Selección del formato de la descarga.

Figura 1.2: Selección del formato de la descarga.

Descargaremos los datos de nuestra provincia en dos formatos:

  • Excel: extensión XLSx

  • CSV: separado por ;

Ejercicio 1.1 Obtén los datos de la provincia asignada (en la plataforma de docencia PRADO). No es necesario documentar la realización de este ejercicio.

Archivo Excel para la provincia de Granada.

Figura 1.3: Archivo Excel para la provincia de Granada.

En mi caso, he descargado los datos de la provincia de Granada. Si abrimos los archivos que hemos descargado:

  • En el archivo Excel (figura 1.3) tenemos una tabla dinámica con los municipios de la provincia en la primera columna (una combinación del código y el nombre del municipio) y, en el resto de columnas, tenemos la combinación de los valores del sexo (“Total”, “Mujeres” y “Hombres”) y el año. Además de los datos de los municipios, se presentan los datos agrupados para toda la provincia (la primera fila de la tabla dinámica). La tabla tiene unas líneas de cabecera y, si accedemos a la última línea de la tabla, podremos ver que, a continuación, también hay varias líneas al pie de la misma.
Archivo CSV para la provincia de Granada.

Figura 1.4: Archivo CSV para la provincia de Granada.

  • El archivo CSV (figura 1.4) contiene los mismos datos, estos en formato de tabla plana, sin cabecera ni pie.

Vamos a completar esos datos con otros comunes preparados a partir de datos obtenidos del INE y del CNIG (Centro Nacional de Información Geográfica). Se pueden descargar de https://doi.org/10.6084/m9.figshare.13505136.

Ejercicio 1.2 Obtén el archivo datos-comunes.zip y descomprímelo en tu carpeta de trabajo. No es necesario documentar la realización de este ejercicio.

Contenido del archivo cod-habitantes.csv.

Figura 1.5: Contenido del archivo cod-habitantes.csv.

Contenido del archivo municipios.csv.

Figura 1.6: Contenido del archivo municipios.csv.

Estos archivos contienen códigos para definir intervalos en función del número de habitantes de los municipios (cod-habitantes.csv), que se muestra en la figura 1.5, y datos adicionales de los municipios (municipios.csv), en particular, para cada municipio, su capital, comarca agraria, provincia, comunidad autónoma, altitud y superficie (figura 1.6).

Los capítulos dedicados a herramientas de transformación de datos se basarán en los datos iniciales obtenidos en este capítulo. Sin embargo, los capítulos de herramientas de consulta, necesitarán el resultado de las transformaciones de los capítulos anteriores del mismo grupo de herramientas. Por este motivo, se recomienda guardar y tener disponibles los datos obtenidos en cada actividad para poder utilizarlos en las actividades que los requieran.

1.2 Diseño multidimensional

En este apartado vamos a realizar un diseño multidimensional a partir de los datos disponibles. En caso de necesitar repasar los conceptos sobre sistemas multidimensionales y diseño multidimensional, y no disponer del material de clase de teoría, recomiendo utilizar las siguientes referencias: Jensen, Pedersen, and Thomsen (2010), Adamson (2010) y Kimball and Ross (2013).

En primer lugar vamos a estudiar la granularidad (el nivel de detalle) de los datos disponibles. A continuación, definiremos la granularidad del sistema a desarrollar, y realizaremos los diseños conceptual y lógico del sistema multidimensional.

1.2.1 Granularidad de los datos

Para realizar el diseño multidimensional, es fundamental entender la granularidad de las fuentes de datos. La granularidad de nuestro diseño podrá ser, como máximo, tan fina como la de los datos disponibles.

Con esta finalidad,creo que resulta muy útil tener presente las definiciones de los conceptos de población, individuo y carácter que se formulan en Estadística Descriptiva. En concreto, incluyo aquí las realizadas por Abad y Vargas (1991):

  • Se entiende por población al conjunto objeto de estudio.

  • Cada uno de los elementos del conjunto es un individuo.

  • Los caracteres o características son las propiedades que deseamos observar sobre los elementos de la población y que han de tener todos y cada uno de ellos. En realidad, observar un carácter será efectuar una medición, en sentido amplio. Atendiendo a su naturaleza estos caracteres representarán o no una cantidad numérica.

Para el caso que estamos considerando:

  • Un individuo sería un municipio de la provincia que tenemos asignada en un periodo concreto.

  • La población sería el conjunto de municipios de la provincia asignada para cada uno de los periodos de los que hay datos disponibles.

  • Los caracteres observados en el archivo obtenido del INE son: el municipio, el periodo, cantidad de hombres y cantidad de mujeres, también tenemos el total de habitantes, derivado a partir de la cantidad de hombres y mujeres; tenemos datos cuya granularidad es provincia y periodo: son el resultado de la agregación de los datos de todos los municipios. En el archivo municipios.csv tenemos más caracteres de los individuos, pero definidos solo a nivel de municipio, en principio se pueden considerar independientes del periodo, válidos para todos los periodos en los que tenemos observaciones. En el archivo cod-habitantes.csv se define la forma de codificar el carácter relativo a la cantidad total de habitantes.

Así, el municipio y el periodo identifican a cada individuo (un municipio en un periodo). La cantidad de hombres y mujeres son medidas sobre cada uno de los individuos; también disponemos de caracteres adicionales de los municipios, independientes del periodo.

Si nos fijamos en los archivos que hemos obtenido del INE, aunque su granualidad se corresponde con el concepto de individuo considerado (también incluyen el agregado a nivel de provincia), en ninguno de ellos las filas están definidas a nivel de individuo2.

1.2.2 Diseño conceptual

Para realizar el diseño multidimensional en este caso vamos a considerar la granularidad más fina disponible: municipio y periodo (definen a cada individuo).

El foco de atención es el Padrón, son los hechos (responden a la pregunta Cuánto pero los nombramos por el nombre del foco te atención); el municipio responde a la pregunta Dónde y el periodo a la pregunta Cuándo, serán las dimensiones; Municipio y Periodo son los niveles más bajos de cada una de las dimensiones (figura 1.7).

Diseño conceptual.

Figura 1.7: Diseño conceptual.

Para la dimensión Cuándo, vamos a agrupar los periodos en decenios, que podemos definir de forma inmediata a partir del año (Periodo), la jerarquía que incluye el nivel Decenio nos permitirá agrupar o seleccionar fácilmente los periodos.

En cuanto a la dimensión Dónde, podemos definir jerarquías utilizando los datos adicionales obtenidos de municipios.csv. Definimos una jerarquía geográfica que incluye los niveles Municipio, Comarca y Provincia; como solo hay datos de una provincia, los datos de la comunidad autónoma podemos definirlos como descriptores del nivel Provincia; asimismo, el código de municipio y su capital se pueden definir como descriptores del nivel Municipio. Se han considerado otras jerarquías compuestas por el nivel Municipio y las diversas clasificaciones que se realizan en función de su altitud (Nivel altitud), número de habitantes (Nivel habitantes), y otra que podemos definir en función de su superficie (Nivel superficie). Para las dimensiones, con el objetivo de simplificar la representación, se ha considerado el criterio de no representar explícitamente el nivel Todo para cada una de ellas.

Para los hechos, además de las medidas base disponibles en los archivos obtenidos del INE relativas a cantidad de mujeres (Mujeres) y cantidad de hombres (Hombres), consideramos la medida de la superficie del municipio en Ha (Superficie Ha) disponible en los datos obtenidos de municipios.csv, que suponemos no ha variado en los periodos considerados. Definimos medidas calculadas (o derivadas) a partir de estas como son:

  • Cantidad total de habitantes (Habitantes):
    • \(Habitantes = Mujeres + Hombres\)
  • Densidad de población por Ha (Densidad Ha):
    • \(Densidad\ Ha = \frac{Habitantes}{Superficie\ Ha}\)
  • Densidad de población por Km2 (Densidad Km2):
    • \(Densidad\ Km2 = 100 \times Densidad\ Ha\)

En lo que se refiere a la aditividad de las medidas, son aditivas por la dimensión Dónde y no-aditivas por la dimensión Cuándo3, por tanto, son semi-aditivas. Cuando realicemos consultas multidimensionales, deberemos prestar especial atención a la dimensión Cuándo para no cometer errores por este motivo.

1.2.3 Diseño lógico

A partir del diseño conceptual de la figura 1.7, el diseño lógico obtenido se muestra en la figura 1.8.

Diseño lógico, ROLAP en estrella.

Figura 1.8: Diseño lógico, ROLAP en estrella.

Realizamos un diseño ROLAP en estrella: a cada dimensión le corresponde una tabla y otra tabla para los hechos. La llave primaria de cada dimensión es una llave generada, que se usa como llave externa en los hechos. El conjunto de llaves externas en los hechos forma su llave primaria. En los hechos, solo almacenamos las medidas base.

Estos diseños son los que implementaremos en el resto de capítulos a partir de los datos que hemos obtenido. A la hora de realizarlos, en todo momento hemos tenido presente los datos disponibles y los que se pueden derivar directamente a partir de ellos que puedan resultar de interés para el supuesto decisor.

Bibliografía

Abad, Francisco, and Maravillas Vargas. 1991. Estadística. Granada: Gráf. JUFER.

Adamson, Christopher. 2010. Star Schema: The Complete Reference. McGraw Hill Professional.

Jensen, Christian S., Torben Bach Pedersen, and Christian Thomsen. 2010. Multidimensional Databases and Data Warehousing. Morgan & Claypool Publishers.

Kimball, Ralph, and Margy Ross. 2013. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (3rd Edition). John Wiley & Sons.


  1. Cada estudiante tiene una provincia asignada que puede consultar en la plataforma de docencia (PRADO). Cada persona deberá trabajar con los datos de su provincia.↩︎

  2. Frecuentemente la tendencia es importar y analizar en las herramientas de usuario final los datos al nivel de detalle definido por las filas de las fuentes de datos, incluso realizar el diseño multidimensional a ese nivel de detalle.↩︎

  3. Al sumarlas por esta dimensión, cambia el significado de la medida: p.e., la superficie de un municipio en un grupo de años no es la suma de la superficie considerada en cada uno de los años.↩︎