Capítulo 4 BigQuery

BigQuery es la herramienta de soporte para implementar el data warehouse. En este apartado se proponen los siguientes laboratorios:

  1. BigQuery: Qwik Start - Línea de comandos (0 créditos).

  2. Cree un almacén de datos mediante uniones y fusiones (5 créditos).

  3. Cómo crear tablas particionadas por fecha en BigQuery (5 créditos).

  4. Cómo trabajar con JSON, arreglos y Structs en BigQuery (5 créditos).

En el primero se presenta la forma de acceso mediante la línea de comandos; en el segundo se utiliza SQL para crear nuevas tablas mediante JOIN y UNION; en el tercero se muestran técnicas para mejorar el funcionamiento de las consultas; en el último, se ponen en práctica los nuevos elementos que soporta para crear y consultar estructuras de datos, también mediante SQL.

4.1 Crear un conjunto de datos

Create dataset.

Figura 4.1: Create dataset.

Para crear un conjunto de datos (dataset) asociado a un proyecto, al situar el puntero del ratón sobre el nombre del proyecto, aparecen tres puntos verticales a su derecha, al pulsar sobre ellos, aparece un menú con la opción Create dataset (figura 4.1). Seleccionamos esa opción y se abre una ventana donde podemos definirlo.

4.2 Problemas en consultas del laboratorio “Cómo crear tablas particionadas por fecha en BigQuery”

En el laboratorio Cómo crear tablas particionadas por fecha en BigQuery, aparecen errores en dos de las consultas que se definen. El problema lo ocasionan unas tablas del conjunto de datos que han sido creadas con posterioridad a la edición del documento del laboratorio y no siguen el patrón del sufijo de las tablas previas.

En las consultas, donde se indica:

   AND CAST(_TABLE_SUFFIX AS int64) >= 2018

se ha de sustituir por:

   AND _TABLE_SUFFIX >= "2018"

Con ese cambio, las consultas se ejecutan como se espera en el laboratorio.

4.3 Problemas para acceder a los archivos JSON del laboratorio “Cómo trabajar con JSON, arreglos y Structs en BigQuery”

En el laboratorio Cómo trabajar con JSON, arreglos y Structs en BigQuery, se indica que, para crear la tabla fruit_details, se seleccione un archivo del depósito de GCS: gs://cloud-training/gsp416/shopping_cart.json.

Para acceder a él desde la ventana de creación de tabla, en lugar de

gs://cloud-training/gsp416/shopping_cart.json

hay que indicar

cloud-training/gsp416/shopping_cart.json

Lo mismo para el otro ejemplo, en lugar de

gs://data-insights-course/labs/optimizing-for-performance/race_results.json

hay que indicar

data-insights-course/labs/optimizing-for-performance/race_results.json

Es decir, cuando se indique un archivo de Google Cloud Storage, se elimina gs:// del nombre.