En este tutorial descubra cómo pueden los metadatos ayudar a ahorrar mucho tiempo de desarrollo y aprender a crearlos y utilizarlos.

Este tutorial utiliza la versión 6 de Talend Open Studio for Data Integration.

Talend Open Studio le permite crear y ejecutar programas de ETL en Java o Tareas empleando componentes predefinidos.

Todos los componentes pueden configurarse bien como «Built-in» (Integrados) o como «Repository» (Repositorio).

Para componentes «Integrados», la información como por ejemplo cómo leer el archivo y lo que contiene:

  • Se define dentro del componente.
  • Tan solo es aplicable al componente.
  • No se puede reutilizar con ningún otro componente.

Para los componentes «Repositorio», la información:

  • Se guarda como metadatos.
  • Puede reutilizarse de forma eficiente y uniforme.
  • Se puede mantener fácilmente porque los cambios a los metadatos se pueden propagar a todas las Tareas que la utilizan.

1. Cree una definición de metadatos para un archivo delimitado.

  1. En el Repositorio de proyectos haga clic en Metadata (Metadatos), haga con el botón derecho en File delimited (Archivo delimitado) y haga clic en Create file delimited (Crear archivo delimitado).
  2. En el campo Name (Nombre) del asistente, introduzca movies (películas) y haga clic en Next (Siguiente).
  3. Para especificar un archivo de muestra, haga clic en Browse (Navegar) al lado del campo File (Archivo), seleccione el archivo moviesSorted del disco local y haga clic en Open (Abrir). El archivo aparecerá en la sección File Viewer (Visor de archivos) del asistente.
  4. Para definir los ajustes de Property Type (Tipo de propiedad) haga clic en Next (Siguiente). En la ventana del asistente que aparece puede definir los ajustes, como por ejemplo cómo debe leerse el archivo, la cantidad de filas, si es el caso, que deberían saltarse al leer el archivo y la cantidad máxima de filas que deben procesarse.
  5. Para indicar que la primera fila del archivo son los nombres de las columnas y debería pasarse por alto, en la pestaña Preview (Previsualización) seleccione Set heading row as column names (Configurar encabezado como nombres de columnas). Fíjese que al hacerlo la casilla Header (Encabezado) aparece marcada automáticamente con el valor 1.
  6. Para refrescar la visualización del archivo para que refleje el cambio efectuado, haga clic en el botón Refresh Preview (Refrescar previsualización) y luego haga clic en Next (Siguiente).
  7. En el campo Name (Nombre), introduzca moviesSchema. Si la primera línea del archivo de muestra incluye los nombres de las columnas, estos aparecerán. En caso contrario, las columnas aparecerán como Columna 0, Columna 1, etc., y tendrá que cambiarse el nombre manualmente.

    Al adivinar el esquema, Talend tan solo lee las primeras cincuenta líneas del archivo de muestra y basándose en los datos de esas filas define los tipos y la longitud de columna. Es conveniente que valide la información que aparece o corregirla en su caso.
    .

  8. Actualice el esquema que aparece para que refleje la estructura del archivo de muestra. En este caso, cambie la longitud de los campos título y url a 100 y 250, respectivamente. Modifique también el tipo del campo directorID a integer (entero). Haga clic en Finish (Terminar).

En Metadata (Metadatos) de Project Repository (Repositorio de proyectos), la entrada movies 0.1 aparece con las propiedades de archivo. En la entrada movies 0.1 aparece el esquema del archivo de metadatos, moviesSchema.

Si necesita modificar el tipo de propiedad o el esquema, haga clic con el botón derecho en el componente del Repositorio de proyectos y seleccione Edit File Delimited (Editar el archivo delimitado) o Edit Schema (Editar esquema).

2. Utilice los metadatos para configurar un componente

  1. Cree una nueva Tarea y póngale el nombre useMetadata y añádele un componente tFileInputDelimited.
    Aviso: Por defecto el componente está configurado con parámetros de «Integrado».
  2. En el campo Property Type (Tipo de propiedad) de la vista Component (Componente) seleccione Repository (Repositorio).
  3. Para seleccionar los metadatos haga clic en […] al lado del campo que aparece, haga clic en movies 0.1, y luego en OK.

    Fíjese que aparece el conjunto de parámetros de los metadatos. Fíjese también que todos los campos aparecen en gris, lo que indica que pertenecen a los metadatos y no al componente.

    Para cambiar el esquema, haga clic en […] al lado del texto Edit Schema (Editar esquema) y elija una opción:
    – Cambiar a propiedad integrada para editar el esquema tan solo para este componente.
    – Actualizar la conexión del repositorio para editar el esquema de metadatos en el repositorio.
    .

  4. Para ver el esquema, haga clic en […] al lado del texto Edit Schema (Editar esquema) y elija View schema (Ver esquema).

3. Utilice los metadatos para configurar un segundo componente

Como método alternativo para utilizar metadatos: arrástrelo directamente del Repository (Repositorio) al Designer (Diseñador) y elija el componente tFileInputDelimited para utilizarlo.

Talend le permite crear metadatos a partir de varios parámetros, como bases de datos, conexiones de SAP y distintos tipos de archivo.

Aviso: Para ilustrarlo se utiliza MySQL Workbench 6.3 CE con un conjunto de datos de prueba llamado talend_dq. Puede probarlo con una configuración parecida o con sus propias bases de datos.

4. Cree una conexión a base de datos y defínala como metadatos.

  1. En el Repositorio de proyectos haga clic en Metadata (Metadatos), haga clic con el botón derecho en Db Connections (Conexiones a bases de datos) y haga clic en Create connection (Crear conexión).
  2. En el campo Name (Nombre) del asistente Database Connection (Conexión a bases de datos), introduzca MySql y haga clic en Next (Siguiente).
  3. En el campo «DB type» (Tipo de base de datos), seleccione MySQL.
  4. Rellene los parámetros de conexión.
  5. Para comprobar la conexión a la base de datos haga clic en Check (Comprobar).
  6. Para cerrar el asistente y crear los metadatos, haga clic en Finish (Terminar).
  7. Para recuperar automáticamente todos los esquemas de tabla, haga clic con el botón derecho en los metadatos MySql 0.1 del Repositorio de proyectos y luego haga clic en Retrieve Schema (Recuperar esquema).
  8. Haga clic en Next (Siguiente). Se mostrará la base de datos conectada.
  9. Para seleccionar las tablas y las vistas, seleccione la casilla a la izquierda del nombre de la base de datos y haga clic en Next (Siguiente). Aparecerá la base de datos con todas las tablas y detalles.

Todos los esquemas de tabla se han importado como metadatos y ya se pueden utilizar.

Las tablas y las vistas aparecen bajo la conexión mysql 0.1 del Repositorio de proyectos. Para visualizar el campo en una tabla, haga clic en tabla.

5. Consulte una tabla de la base de datos usando los metadatos

  1. Para leer una tabla de una lista, seleccione la tabla y arrástrela hasta el Diseñador de tareas.
  2. En la ventana Components (Componentes), haga clic en tMySqlInput y luego en OK.
    Se creará un componente tMysqlInput con la información del repositorio. Se utiliza la conexión MySql 0.1 y para el esquema, la información del repositorio procedente de la tabla de metadatos tdq_values.

    Además Talend genera la consulta SQL y la envía a la tabla tdq_values.
    .

  3. Para mostrar los datos de la tabla, añada el componente tLogRow y vincule el componente tdq_values al componente tLogRow_1.
  4. Para ejecutar la Tarea, en la vista Run (Ejecutar) haga clic en Run. Se mostrarán los datos de la tabla tdq_values.