Plateforme fédérale de données scientifiquesPlateforme fédérale de données scientifiques
  • English
  • Français
  • English
  • Français
  • Survol
  • Gérer les espaces de travail et les utilisateurs

    • Obtenir un espace de travail (uniquement disponible sur le réseau GC)
    • Estimer les coûts (uniquement disponible sur le réseau GC)
    • Configuration du compte
    • Demandez, configurez, et utilisez des outils dans votre espace de travail
    • Invitez un utilisateur
    • Modifier le rôle d'un utilisateur
    • Gérez vos budgets BOI et espaces de travail
  • Stockage

    • Travailler avec le stockage Azure
    • Apporter votre propre stockage

      • Importer du stockage AWS S3
      • Importer du stockage Azure
      • Importer un compte GCP
    • Accéder au stockage dans Databricks
    • Utiliser AzCopy pour intéragir avec le stockage
  • Databricks

    • Commencer avec Databricks sur le DataHub scientifique fédéral
    • Politiques des clusters sur Databricks
    • MLFlow : AutoML et expériences
    • Flux de travail sur Databricks
    • Tableau de bord

      • Comment créer un tableau de bord dans Databricks
      • Les tableaux de bord sur Databricks comparés à d'autres outils
    • Extensions externes

      • Intégration de Git/GitHub avec Databricks
      • Databricks VS Code Extension
      • Travailler avec Conda
      • Connexion de l'API Google à Databricks
  • PostgreSQL

    • Créer et utiliser une base de données PostgreSQL sur la PFDS
    • Ajouter un utilisateur de la PFDS à PostgreSQL
    • PostgreSQL vs Azure Databricks - Fonctionnalités des bases de données
  • Applications Web

    • Hébergement d'applications Web sur la PFDS
  • Migration vers production

    • Migration ou retrait du stockage
    • Migration ou retrait du Databricks
    • Migration ou retrait d'un base de données PostgreSQL
    • Migration ou retrait des applications web
  • Conseils aux utilisateurs

    • Code source
    • Contrôler l'utilisation
    • Contrôle et audit d'un espace de travail
    • Détection et réponse aux incidents
    • Gestion des comptes et contrôle d'accès aux espaces de travail
    • Github et gestion des dépôts de code
    • Sauvegarde et récupération
    • Types de fichiers restreints sur le stockage PFDS
  • Conditions générales

Accéder au stockage dans Databricks

Lorsque votre espace de travail Databricks est créé pour votre projet, un compte de stockage Azure a déjà été créé. La Plateforme fédérale de données scientifiques monte également le stockage Blob du compte de stockage avec le cluster Databricks pré-créé (main_cluster). Ce montage est destiné à vous faciliter la tâche et l'accès aux données Blob dépend de votre identité.

Conditions préalables

  • Connaissance de l'API de fichiers en Python ou R
  • Accès à Databricks dans un espace de travail

Point de montage de la PFDS par défaut

Le compte de stockage a été monté dans Databricks sur le cluster par défaut (main_cluster) et est accessible dans votre Noteobok comme un dossier normal. Le montage du stockage dans Databricks vous permet d'accéder aux objets dans le stockage d'objets comme s'ils se trouvaient sur le système de fichiers local.

Pour accéder au point de montage dans le cluster par défaut, consultez l'exemple de code ci-dessous

df = spark.read.option("header","true").csv('/mnt/fsdh-dbk-main-mount/sample.csv');
df.show(3);

Dans l'exemple ci-dessus, le chemin pré-créé /mnt/fsdh-dbk-main-mount/ pointe vers le conteneur datahub de votre stockage Blob. Le fichier sample.csv est à titre d'illustration et vous devez le remplacer par le nom de votre fichier.

Pour accéder au même chemin pré-créé depuis R en utilisant SparkR, consultez l'exemple de code suivant.


library(SparkR)
sparkR.session()
df <- read.df("dbfs:/mnt/fsdh-dbk-main-mount/sample.csv", source = "csv")
head(df, 3)

Autres approches

Au fur et à mesure que vous créez plus de clusters basés sur les politiques de cluster de la PFDS, vous pouvez monter le stockage Blob de votre projet dans votre code.

Option 1 - Jeton SAS (Recommandé)

Dans votre notebook, référez-vous simplement à votre stockage en utilisant la configuration Spark préconfigurée abfss_uri. Exemple de code :

dbutils.fs.ls(spark.conf.get('abfss_uri'))

Comment cela fonctionne-t-il ?

Le jeton SAS pour votre compte de stockage a été précréé dans Azure Key Vault et référencé dans la configuration de votre cluster. Le jeton SAS sera périodiquement renouvelé. La configuration du cluster ressemble à ce qui suit. Ces paramètres s'appliquent aux clusters créés en utilisant la politique de cluster FSDH ainsi qu'aux clusters personnels.

fs.azure.sas.token.provider.type.yourstorageaccount.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.sas.FixedSASTokenProvider
fs.azure.account.auth.type.yourstorageaccount.dfs.core.windows.net SAS
fs.azure.sas.fixed.token.yourstorageaccount.dfs.core.windows.net {{secrets/datahub/container-sas}}
abfss_uri abfss://datahub@yourstorageaccount.dfs.core.windows.net

Option 2 - Monter avec la clé du compte de stockage

if any(mount.mountPoint == "/mnt/fsdh" for mount in dbutils.fs.mounts()):
         dbutils.fs.unmount("/mnt/fsdh")

dbutils.fs.mount(
   source = "wasbs://datahub@mystorage.blob.core.windows.net",
   mount_point = "/mnt/fsdh",
   extra_configs = {"fs.azure.account.key.mystorage.blob.core.windows.net":dbutils.secrets.get(scope = "datahub", key = "storage-key")})

Option 3 - Monter le conteneur Blob

Monter le conteneur avec le code suivant

configs = {
    "fs.azure.account.auth.type": "CustomAccessToken",
    "fs.azure.account.custom.token.provider.class": spark.conf.get("spark.databricks.passthrough.adls.gen2.tokenProviderClassName")
}

dbutils.fs.mount(
    source = "abfss://container@account.dfs.core.windows.net/",
    mount_point = "/mnt/my-mountpoint",
    extra_configs = configs
)

Une fois que vous avez monté un dossier dans /mnt/my-mountpoint, les programmes Python dans Databricks peuvent accéder aux fichiers de ce conteneur de stockage comme s'ils étaient des fichiers locaux.

df = spark.read.option("header","true").csv('/mnt/my-mountpoint/sample.csv')
df.show(3)

Option 4 - Accéder directement aux fichiers individuels

Vous pouvez également accéder directement aux fichiers sans monter d'abord le stockage

spark.read.format("csv").load("abfss://container@account.dfs.core.windows.net/sample.csv").collect()

Références

Voir la documentation Databricks sur le stockage pour plus de détails

Modifier cette page sur GitHub
Dernière mise à jour: 2026-04-13 11 h 39
Prochain
Utiliser AzCopy pour intéragir avec le stockage