Capítulo 5 Operaciones básicas en Tableau

Tableau es una herramienta destinada al desarrollo de cuadros de mando. Se encuadra dentro del grupo de herramientas de autoservicio de sistemas OLAP, es decir, herramientas destinadas a usuarios finales (decisores) que soportan desde el desarrollo hasta la explotación de sistemas OLAP.

En este capítulo se presentan las operaciones básicas para definir informes en Tableau a partir de un conjunto de datos en forma de tabla plana. En primer lugar importaremos los datos, posteriormente los transformaremos y, a partir del resultado, desarrollaremos informes aplicando las operaciones del modelo de datos multidimensional.

Objetivos del capítulo

  • Usar Tableau para realizar operaciones básicas en lo referido a:

    • Importación de datos.

    • Transformación de datos.

    • Definición de informes.

  • Entender las operaciones de consulta del modelo de datos multidimensional.

5.1 Importar los datos

Al iniciar Tableau, lo primero que tenemos que hacer es conectarnos con una fuente de datos. En la pantalla de inicio, el apartado Conectar, en la zona de la izquierda, ofrece la posibilidad de conectarnos a diversas fuentes de datos.

Vamos a comenzar a trabajar sobre los datos de la provincia asignada en formato CSV. Para importar los datos a la herramienta pulsamos sobre la opción Archivo de texto, dentro del apartado A un archivo, como se muestra en la figura 5.1.

Conectar a un archivo de texto en Tableau.

Figura 5.1: Conectar a un archivo de texto en Tableau.

A continuación, seleccionamos el archivo correspondiente a nuestra provincia en la carpeta de trabajo. En el caso de Granada, el archivo es 2871.csv. El nombre dependerá de la provincia que tengamos asignada.

Conectar a un archivo de texto en Tableau.

Figura 5.2: Conectar a un archivo de texto en Tableau.

Una vez seleccionado, nos muestra su contenido (figura 5.2). Detecta automáticamente todas las características del archivo y ya está disponible para trabajar con él en la herramienta. En algunos casos, los archivos contienen líneas de texto como cabecera o pie de la tabla. Si seleccionamos la opción Usar el intérprete de datos, que aparece en la zona de la izquierda de la ventana, detecta las celdas que componen una tabla estructurada y elimina el resto de celdas automáticamente. En este caso no es necesario usar el intérprete de datos porque no se da esa situación. Directamente, podemos Ir a la hoja de trabajo como nos sugiere al pie de la ventana, pulsando sobre Hoja 1.

5.2 Elementos de Tableau

En la figura 5.3, se muestra la pantalla de diseño del elemento Hoja de Tableau al que hemos accedido.

Hoja de trabajo de Tableau.

Figura 5.3: Hoja de trabajo de Tableau.

5.2.1 Tablas y medidas

En la columna de la izquierda, en el apartado Datos, se puede apreciar el nombre y los campos de la fuente de datos que acabamos de importar. Los campos se han clasificado en dos zonas:

  • Tablas (en versiones anteriores el título era Dimensiones) que aparecen con un indicador del tipo de dato a su izquierda y este es de color azul (Abc representa campos de tipo cadena o string). El último es un campo generado automáticamente que se llama Nombres de medidas que define el inicio de la zona siguiente.

  • Medidas que aparecen con un indicador del tipo de dato a su izquierda y este es de color verde (# representa campos de tipo numérico). Se incluyen dos campos generados automáticamente, 2871.csv (Recuento) y Valores de medidas.

Las medidas se agregan mediante funciones de agregación (generalmente la suma) al nivel de detalle definido por el resto de campos (dimensiones) cuando se incluyen los informes. La distinción entre dimensiones y medidas se realiza exclusivamente por la ubicación de los campos en una u otra zona (no por su tipo o el color).

Inicialmente ha hecho una clasificación automática de los datos: ha considerado que todos los campos numéricos son medidas y los alfanuméricos son dimensiones.

En nuestro caso no es así, Periodo no es una medición. Para cambiar su clasificación y pasar a considerarlo como dimensión (pasarlo al apartado Tablas), podemos pulsar-arrastrar-soltar el campo llevándolo hasta dicho apartado o, desde su menú contextual, seleccionar la opción Convertir a dimensión (figura 5.4).

Convertir un campo en dimensión.

Figura 5.4: Convertir un campo en dimensión.

El resultado se muestra en la figura 5.5: se ha movido al apartado Tablas, el indicador de tipo sigue siendo el mismo, pero ha cambiado su color.

Campo definido como dimensión.

Figura 5.5: Campo definido como dimensión.

Podría parecer que el color va asociado con la clasificación del campo como medida o dimensión, pero no es así. Si desde su menú contextual, seleccionamos la opción Convertir a continuo (figura 5.6).

Convertir un campo en continuo.

Figura 5.6: Convertir un campo en continuo.

El resultado se muestra en la figura 5.7: el campo sigue en apartado Tablas, el indicador de tipo sigue siendo el mismo, pero ha cambiado su color.

Campo definido como continuo.

Figura 5.7: Campo definido como continuo.

Es decir, el color va a asociado a la clasificación de los campos como continuos (verdes) o discretos (azules). Solo pueden ser continuos los campos numéricos. Estos términos nos pueden llevar a confusión al asociarlos con los de variables continuas y discretas, pero es un concepto distinto: el criterio para distinguir un campo continuo de uno discreto es que los valores en un campo continuo tienen asociado un orden que no tendría sentido cambiar (Milligan 2019).

Tableau ofrece distintas posibilidades de representación y uso en función del tipo y clasificación de los datos, por lo que resulta interesante que cada dato tenga su tipo y clasificación más adecuados, en este caso, el campo Periodo lo definimos de tipo numérico y continuo. Si fuera necesario, se podría cambiar en la representación escogida.

5.2.2 Hojas, dashboards e historias

A partir de los campos vamos a definir informes en hojas mediante los elementos de pantalla de la figura 5.3 (que usaremos a continuación, en la sección 5.3).

Podemos combinar hojas para formar dashboards (cuadros de mando), donde los elementos definidos en las distintas hojas se interrelacionan. Además de las hojas, se puede incluir texto o imágenes como parte del diseño del cuadro de mandos.

Las historias se definen como una colección de cuadros de mando o vistas simples organizadas para comunicar una narrativa a partir de los datos. Las historias también pueden ser interactivas (Milligan 2019).

Nos vamos a centrar en la definición de hojas. Se puede encontrar más información sobre la definición del resto de elementos en Milligan (2019).

5.3 Comprobar el funcionamiento

Para comprobar el funcionamiento de las consultas sobre los datos, podemos hacerlo pulsando-arrastrando-soltando cada campo sobre las distintas zonas la parte central de la pantalla, que reproduce la estructura de un informe en una hoja. También podemos elegir una u otra forma de visualización de los datos de entre las disponibles para los datos incluidos, pulsando sobre el icono Mostrarme, en la parte derecha de la barra de herramientas (figura 5.8). En función del tipo de representación que elijamos, se configura la zona Marcas (en el caso de la seleccionada en la figura, no ha sido necesario, prueba otras). Pulsando otra vez sobre Mostrarme, se oculta la ventana de selección de tipo.

Selección del tipo de informe con Mostrarme.

Figura 5.8: Selección del tipo de informe con Mostrarme.

5.3.1 Campos continuos y discretos

Si añadimos Periodo a la zona Filas (figura 5.9), podemos observar cómo ha cambiado la representación de los datos de barras a líneas. El color de cada campo incluido en las zonas Columnas y Filas indica si el campo está considerado como continuo o discreto en el informe: Periodo es continuo.

Incluir campo continuo en el informe.

Figura 5.9: Incluir campo continuo en el informe.

En el menú contextual del campo Periodo en el informe (figura 5.10), elegimos la opción Discreto para cambiarlo solo en el informe.

Cambio de un campo continuo a discreto en un informe.

Figura 5.10: Cambio de un campo continuo a discreto en un informe.

El resultado obtenido lo podemos ver en la figura 5.11, el informe vuelve a representarse en formato de barras.

Resultado del cambio de un campo continuo a discreto en un informe.

Figura 5.11: Resultado del cambio de un campo continuo a discreto en un informe.

Es decir, sin haber cambiado el tipo de informe, según la definición del campo, la representación puede ser una u otra muy distintas. En este caso concreto, creo que es preferible la representación como campo continuo, por lo que volvemos a cambiarlo en su menú contextual en el informe.

5.3.2 Definición de filtros

En el informe que tenemos (figura 5.9), se muestran los dos valores del campo Sexo y también el valor “Total” como agregado de ambos. Si no queremos mostrar el valor agregado, debemos incluir el campo Sexo en el apartado Filtros (pulsando-arrastrando-soltando desde la zona Tablas), al hacerlo se abre la ventana de definición de filtro que se muestra en la figura 5.12, donde seleccionamos los valores a considerar.

Definición de filtro sobre el campo Sexo.

Figura 5.12: Definición de filtro sobre el campo Sexo.

En este caso, que muestre el valor “Total” o nos puede resultar como algo secundario porque precisamente estamos presentando el campo Sexo, el problema está cuando este campo no se muestra: si no se incluye este campo en un informe, sin filtrar los datos, el resultado que se obtendría sería el doble del real por considerarse la suma de la medida para el valor “Hombres”, para el valor “Mujeres” y para el valor “Total”, que es el agregado de ambos.

El mismo problema tenemos en el campo Municipios, que incluye un valor que representa a toda la provincia (se puede identificar porque el código numérico situado antes del nombre tiene dos dígitos en lugar de cinco), que representa la agregación del resto de valores de este campo. Precisamente el problema nos está ocurriendo en este informe con el campo Municipios, no mostrado en él (tenemos los datos de los municipios y el agregado para la provincia). Por tanto, para evitarlo, deberíamos definir un filtro sobre el campo Municipios (figura 5.13), donde seleccionamos el valor agregado y la opción Excluir (en la parte derecha, debajo del area de selección).

Definición de filtro sobre el campo Municipios.

Figura 5.13: Definición de filtro sobre el campo Municipios.

El resultado de la definición se puede apreciar en la figura 5.14, en particular si lo comparamos con el informe de la figura 5.9, los valores asociados para cada valor de Sexo y Periodo se han reducido a la mitad (de “800K” a “400K”), precisamente porque se estaban contando dos veces cada uno.

Resultado de la definición de filtros.

Figura 5.14: Resultado de la definición de filtros.

Ha desaparecido el área con el valor “Total”.

Ejercicio 5.1 Carga los datos de tu provincia en formato CSV en Tableau, define el campo Periodo como dimensión y continuo. Muestra dos informes en forma de diagrama de barras, considerando uno cualquiera de los dos campos mencionados (Sexo o Municipios), uno sin filtrar los datos y el otro filtrándolos para eliminar los agregados, de manera que se aprecie el problema que se describe en los párrafos anteriores (para documentar este ejercicio, incluye dos capturas de pantalla, una para cada informe).

5.4 Cambios en la importación de datos

Para evitar los problemas descritos en el apartado 5.3 vamos a filtrar los datos en la importación de manera que no se incluyan observaciones de valores agregados: las correspondientes al valor “Total” para el campo Sexo o a la provincia para el campo Municipios.

Cambiaremos el nombre del campo Total para que pase a llamarse Cantidad.

Para transformar los datos pulsamos sobre Fuente de datos, en la parte inferior izquierda de la ventana, para acceder a la ventana de definición de conexiones (por donde habíamos comenzado en Tableau).

5.4.1 Filtrar datos de una columna

Para definir filtros en la importación de datos, pulsamos sobre Añadir, en la parte superior derecha de la ventana de importación, debajo de Filtros (figura 5.15).

Definición de filtros en la importación de datos.

Figura 5.15: Definición de filtros en la importación de datos.

Se abre la ventana Editar filtros de fuentes de datos, pulsamos sobre el botón Añadir y se abre la ventana Añadir filtro que nos permite seleccionar los campos sobre los que definir el filtro.

Al seleccionar el campo Sexo y pulsar sobre Aceptar se abre una ventana como la de la figura 5.12 para definir el filtro. De igual manera, al seleccionar el campo Municipios y pulsar sobre Aceptar se abre una ventana como la de la figura 5.13.

Una vez definidos los filtros, nos muestra el resultado de las definiciones (figura 5.16), indicando los valores que se excluyen o contienen.

Resultado de la definición de filtros en la importación de datos.

Figura 5.16: Resultado de la definición de filtros en la importación de datos.

5.4.2 Renombrar una columna

Vamos a cambiarle el nombre a la columna correspondiente a la medida, en lugar de Total vamos a llamarla Cantidad. Para ello seleccionamos Cambiar nombre en el menú contextual de la columna (figura 5.17) y escribimos el nuevo nombre.

Cambiar el nombre a una columna en la importación de los datos.

Figura 5.17: Cambiar el nombre a una columna en la importación de los datos.

Si accedemos de nuevo al informe (pulsando sobre Hoja 1 en la parte inferior izquierda de la ventana) y eliminamos los filtros (seleccionado la opción Eliminar en el menú contextual de cada campo), podemos observar que el informe no cambia (figura 5.18).

Informe sin filtros específicos, solo con los filtros de importación.

Figura 5.18: Informe sin filtros específicos, solo con los filtros de importación.

Ejercicio 5.2 En la importación de los datos, define filtros de manera que no se importen los agregados y renombra el campo Total para que pase a llamarse Cantidad (muestra el informe del apartado anterior, sin filtros específicos de informe).

5.5 Operaciones multidimensionales de consulta

Una vez que tenemos los datos con el formato adecuado y solo tenemos los datos base, vamos a realizar operaciones multidimensionales de consulta sobre ellos. Vamos a considerar como punto de partida el informe de la figura 5.19.

Ejemplo de informe de partida.

Figura 5.19: Ejemplo de informe de partida.

Este es un informe sobre la cantidad de personas (Cantidad es una medida de los hechos), sin distinguir entre las instancias de las dimensiones: para todas las instancias de Periodo (agregación de todos los periodos), todas las instancias de Sexo (agregación de todos los sexos) y todas las instancias de Municipios (agregación de todos los municipios).

5.5.1 Slice&Dice

Selección de valores en una dimensión continua.

Figura 5.20: Selección de valores en una dimensión continua.

Supongamos que estamos interesados solo en los datos del año 2019. Incluimos Periodo en el apartado Filtros, en la ventana de selección, por ser un campo continuo, aparece una barra desplazadora horizontal que nos permite definir el intervalo, la desplazamos para seleccionar exclusivamente el año deseado (figura 5.20), y pulsamos sobre Aceptar. Acabamos de realizar una operación de Slice&Dice, el resultado se muestra en la figura 5.21.

Resultado de la selección de valores en una dimensión.

Figura 5.21: Resultado de la selección de valores en una dimensión.

Si nos fijamos en la barra lateral de los objetos de las figuras 5.19 y 5.21, podemos observar cómo han cambiado los valores representados en el objeto visual. Es remarcable que la estructura del informe no ha cambiado, solo han cambiado los datos que se consideran para obtenerlo. El informe está definido exactamente igual que el informe de partida, sin distinguir entre las instancias de las dimensiones: para todas las instancias seleccionadas de Periodo (agregación de todos los periodos seleccionados), todas las instancias de Sexo (agregación de todos los sexos) y todas las instancias de Municipios (agregación de todos los municipios). El único matriz que los diferencia es que consideramos solo las instancias seleccionadas en la operación Slice&Dice19.

5.5.2 Drill-Down

Si añadimos el campo Sexo al apartado Filas del informe, podemos ver en la figura 5.22 que los datos se desagregan: hemos hecho una operación de Drill-Down, cambiando el nivel de detalle del informe, hemos pasado a un nivel de detalle más fino que el que tenía el informe anterior.

Distinguir entre instancias de un campo (i).

Figura 5.22: Distinguir entre instancias de un campo (i).

Este cambio en el nivel de detalle se refleja en la estructura del informe: ha cambiado, en este caso el nuevo elemento se ha añadido al eje. Tenemos los datos definidos diferenciando entre las instancias de Sexo, para el resto de dimensiones no se ha modificado el nivel de detalle.

Si añadimos el campo Periodo al apartado Filas del informe, el resultado podemos verlo en la figura 5.23. Ha cambiado la forma de representación de barras a puntos por ser Periodo continuo.

Distinguir entre instancias de un campo (ii).

Figura 5.23: Distinguir entre instancias de un campo (ii).

Si cambiamos su tipo en el informe a discreto (en el menú contextual del campo en el informe, seleccionamos Discreto), el resultado se muestra en la figura 5.24. La diferencia respecto al informe de la figura 5.22 es sutil: aparece el campo en la leyenda de la gráfica pero los datos son los mismos.

Distinguir entre instancias de un campo (iii).

Figura 5.24: Distinguir entre instancias de un campo (iii).

Aunque los datos representados son los mismos, hemos hecho otra operación de Drill-Down, hemos pasado de considerar todas las instancias del campo Periodo conjuntamente a diferenciar entre las instancias disponibles, en este caso solo hay una. Para ver más claramente que con esta operación hemos cambiado el nivel de detalle del informe, podemos acceder al filtro del campo Periodo y seleccionamos también los dos años anteriores, es decir, modificamos la operación de Slice&Dice previamente definida (seleccionamos Editar filtro en su menú contextual).

Distinguir entre instancias de un campo (y iv).

Figura 5.25: Distinguir entre instancias de un campo (y iv).

El resultado lo podemos ver en la figura 5.25: ahora se puede apreciar claramente que, en efecto, se había cambiado el nivel de detalle del informe al añadir el campo Periodo.

5.5.3 Roll-Up

Partiendo del último informe obtenido (figura 5.25), si eliminamos cualquiera de los campos Sexo o Periodo, estaremos haciendo una operación de Roll-Up. Se elimina seleccionando la opción Eliminar en su menú contextual. El resultado obtenido se muestra en la figura 5.26.

Eliminar distinción entre instancias de un campo.

Figura 5.26: Eliminar distinción entre instancias de un campo.

Ejercicio 5.3 Sin repetir lo presentado en este apartado, partiendo de un informe inicial cualquera (se puede obtener aplicando las operaciones que se consideren necesarias sin necesitad de explicarlas), genera nuevos informes mediante las operaciones multidimensionales, al menos uno para cada operación. Una vez se tenga el informe inicial, el resto de informes han de generarse de forma consecutiva (sin saltarse informes intermedios). Para cada informe obtenido, indica la operación aplicada y el nivel de detalle de los datos que representa (captura una pantalla para cada informe).

Bibliografía

Milligan, Joshua N. 2019. Learning Tableau 2019: Tools for Business Intelligence, Data Prep, and Visual Analytics, 3rd Edition. Packt Publishing.


  1. En este ejemplo, el haber seleccionado una sola instancia nos puede llevar a pensar erróneamente que hemos cambiado el nivel de detalle.↩︎