Dans ce tutoriel, vous découvrirez comment les métadonnées peuvent vous aider à développer des applications beaucoup plus rapidement, et vous apprendrez à créer et à utiliser ces métadonnées.

 

 

Ce tutoriel utilise Talend Open Studio for Data Integration version 6.

Talend Open Studio vous permet de créer et d’exécuter des programmes ETL Java ou Jobs à l’aide de composants prédéfinis.

Chaque composant peut être défini comme « Built-in » ou « Référentiel ».

Pour les composants « Built-in », les informations telles que le mode de lecture du fichier et son contenu :

  • sont définies dans le composant ;
  • s’appliquent uniquement à ce composant ;
  • ne peuvent pas être utilisées avec un autre composant.

Pour les composants « Référentiel », les informations :

  • sont enregistrées comme métadonnées ;
  • peuvent être réutilisées de façon efficace et cohérente ;
  • peuvent facilement être mises à jour, car les changements apportés aux métadonnées peuvent être propagés à tous les Jobs qui les utilisent.

1. Créer une définition de métadonnées pour un fichier délimité

  1. Dans le Référentiel, cliquez sur Métadonnées, cliquez avec le bouton droit sur Fichier délimité, puis cliquez sur Créer un fichier délimité.
  2. Dans le champ Nom de l’assistant, saisissez movies, puis cliquez sur Suivant.
  3. Pour spécifier le fichier d’exemple, cliquez sur Parcourir à côté du champ File, sélectionnez le fichier moviesSorted sur votre disque local, puis cliquez sur Ouvrir. Le fichier s’affiche dans la section Visualiseur de fichier de l’assistant.
  4. Pour définir les paramètres Type de propriété, cliquez sur Suivant. Dans la fenêtre qui s’affiche, vous pouvez définir le mode de lecture du fichier, le nombre de lignes devant être ignorées lors de la lecture, le cas échéant, ainsi que le nombre maximal de lignes à traiter.
  5. Pour indiquer que la première ligne du fichier correspond au nom des colonnes et doit être ignorée, cochez la case Utiliser la première ligne comme libellés de colonnes dans l’onglet Aperçu. Notez que lorsque vous cochez cette case, la case En-tête est automatiquement cochée et la valeur « 1 » lui est attribuée.
  6. Pour actualiser l’affichage et voir les changements, cliquez sur Rafraîchir l’aperçu. Cliquez ensuite sur Suivant.
  7. Dans le champ Nom, saisissez moviesSchema. Si la première ligne du fichier indique des noms de colonnes, ces derniers seront affichés. Dans le cas contraire, les colonnes seront nommées Colonne 0, Colonne 1 et ainsi de suite. Elles devront être renommées manuellement.

    Lors de la génération du schéma, Talend lit uniquement les cinquante premières lignes du fichier d’exemple, et définit le type et la longueur des colonnes selon les données de ces lignes. Vous devez valider les informations, ou les corriger si nécessaire.
    .

  8. Mettez à jour le schéma proposé pour qu’il reflète la structure du fichier d’exemple. Vous devez ici modifier la longueur des colonnes title et url en indiquant respectivement 100 et 250. Modifiez également le type du champ directorID en Integer. Cliquez sur Terminer.

Sous Métadonnées dans le Référentiel de projet, l’entrée movies 0.1 s’affiche avec les propriétés du fichier. Le schéma du fichier de métadonnées, moviesSchema, s’affiche sous l’entrée movies 0.1.

Si vous devez modifier le type de propriété ou le schéma, cliquez avec le bouton droit sur le composant dans le Référentiel de projet, puis sélectionnez Éditer le fichier délimité ou Modifier le schéma.

2. Utiliser les métadonnées pour configurer un composant

  1. Créez un Job et nommez-le useMetadata, puis ajoutez un composant tFileInputDelimited.
    Remarque : par défaut, le composant est configuré avec des paramètres « Built-in ».
  2. Dans le champ Type de propriété de la vue Composant, sélectionnez Référentiel.
  3. Pour sélectionner les métadonnées, cliquez sur le bouton […] à côté du champ qui apparaît, puis sur movies 0.1 et enfin sur OK.

    L’ensemble des paramètres des métadonnées est affiché. Notez que tous les champs sont grisés, ce qui signifie qu’ils appartiennent aux métadonnées et non au composant.

    Pour modifier le schéma, cliquez sur le bouton […] à côté de Modifier le schéma et choisissez une option :
    – Basculer la propriété en mode Built-In pour modifier le schéma pour ce composant uniquement
    – Mettre à jour la connexion pour modifier le schéma de métadonnées du Référentiel
    .

  4. Pour afficher le schéma, cliquez sur le bouton […] à côté de Modifier le schéma et choisissez Voir le schéma.

3. Utiliser les métadonnées pour configurer un deuxième composant

Une autre méthode pour utiliser les métadonnées consiste simplement à les faire glisser du Référentiel vers le Designer et à choisir le composant tFileInputDelimited.

Talend vous permet de créer des métadonnées basées sur plusieurs paramètres tels que des bases de données, des connexions SAP et plusieurs types de fichiers.

Remarque : nous utilisons ici comme exemple MySQL Workbench 6.3 CE avec un dataset de test nommé talend_dq. Vous pouvez faire le test avec une configuration similaire ou avec vos propres bases de données.

4. Créer une connexion de base de données et la définir comme métadonnées

  1. Dans le Référentiel de projet, cliquez sur Métadonnées, cliquez avec le bouton droit sur Connexions aux bases de données, puis cliquez sur Créer une connexion.
  2. Dans le champ Nom de l’assistant Connexion à la base de données, saisissez MySql, puis cliquez sur Suivant.
  3. Dans le champ Type de base de données, sélectionnez MySQL.
  4. Saisissez les paramètres de connexion.
  5. Pour vérifier la connexion à la base de données, cliquez sur Vérifier.
  6. Pour fermer l’assistant et créer les métadonnées, cliquez sur Terminer.
  7. Pour récupérer automatiquement tous les schémas de la table, cliquez avec le bouton droit sur les métadonnées MySql 0.1 dans le Référentiel de projet, puis cliquez sur Récupérer le schéma.
  8. Cliquez sur Suivant. La base de données connectée s’affiche.
  9. Pour sélectionner toutes les tables et vues, cochez la case à gauche du nom de la base de données et cliquez sur Suivant. La base de données s’affiche avec toutes les tables et informations.

Tous les schémas de la table ont été importés comme métadonnées et peuvent être utilisés.

Les tables et les vues apparaissent sous la connexion mysql 0.1 dans le Référentiel de projet. Pour afficher le champ d’une table, cliquez sur cette table.

5. Lire une table de base de données à l’aide des métadonnées

  1. Pour lire une table figurant dans la liste, sélectionnez cette table et faites-la glisser vers le Job Designer.
  2. Dans la fenêtre Composants, cliquez sur tMySqlInput, puis sur OK.
    Un composant tMysqlInput est créé avec les informations du Référentiel. La connexion MySql 0.1 a été utilisée, et les informations du Référentiel de la table de métadonnées tdq_values ont été utilisées pour le schéma.

    De plus, Talend génère la requête SQL et l’envoie à la table tdq_values.
    .

  3. Pour afficher les données de cette table, ajoutez le composant tLogRow et liez le composant tdq_values au composant tLogRow_1.
  4. Pour exécuter le Job, cliquez sur Exécuter dans la vue Exécuter. Les données de la table tdq_values sont affichées.