Plateforme fédérale de données scientifiquesPlateforme fédérale de données scientifiques
  • English
  • Français
  • English
  • Français
  • Survol
  • Gérer les espaces de travail et les utilisateurs

    • Obtenir un espace de travail (uniquement disponible sur le réseau GC)
    • Estimer les coûts (uniquement disponible sur le réseau GC)
    • Configuration du compte
    • Demandez, configurez, et utilisez des outils dans votre espace de travail
    • Invitez un utilisateur
    • Modifier le rôle d'un utilisateur
    • Gérez vos budgets BOI et espaces de travail
  • Stockage

    • Travailler avec le stockage Azure
    • Apporter votre propre stockage

      • Importer du stockage AWS S3
      • Importer du stockage Azure
      • Importer un compte GCP
    • Accéder au stockage dans Databricks
    • Utiliser AzCopy pour intéragir avec le stockage
  • Databricks

    • Commencer avec Databricks sur le DataHub scientifique fédéral
    • Politiques des clusters sur Databricks
    • MLFlow : AutoML et expériences
    • Flux de travail sur Databricks
    • Tableau de bord

      • Comment créer un tableau de bord dans Databricks
      • Les tableaux de bord sur Databricks comparés à d'autres outils
    • Extensions externes

      • Intégration de Git/GitHub avec Databricks
      • Databricks VS Code Extension
      • Travailler avec Conda
      • Connexion de l'API Google à Databricks
  • PostgreSQL

    • Créer et utiliser une base de données PostgreSQL sur la PFDS
    • Ajouter un utilisateur de la PFDS à PostgreSQL
    • PostgreSQL vs Azure Databricks - Fonctionnalités des bases de données
  • Applications Web

    • Hébergement d'applications Web sur la PFDS
  • Migration vers production

    • Migration ou retrait du stockage
    • Migration ou retrait du Databricks
    • Migration ou retrait d'un base de données PostgreSQL
    • Migration ou retrait des applications web
  • Conseils aux utilisateurs

    • Code source
    • Contrôler l'utilisation
    • Contrôle et audit d'un espace de travail
    • Détection et réponse aux incidents
    • Gestion des comptes et contrôle d'accès aux espaces de travail
    • Github et gestion des dépôts de code
    • Sauvegarde et récupération
    • Types de fichiers restreints sur le stockage PFDS
  • Conditions générales

Travailler avec Conda

Les Databricks peuvent prendre en charge des environnements basés sur Conda. DHSF offre deux options aux utilisateurs pour travailler avec Conda.

  1. Image Docker spécifique au projet avec le support Conda et un environnement Conda prédéfini. L'image Docker doit être co-développée avec l'équipe de support DHSF et poussée vers le GitHub Container Registry (GHCR).
  2. Image Docker générique avec support Conda. Les utilisateurs devront installer les paquets dans leurs ordinateurs portables.

À titre d'illustration, les étapes suivantes sont basées sur l'option 1.

Étape 1 : Créer l'environnement YAML

Exemple de code pour env.yml. Passez à l'étape 3 si vous utilisez une image Docker existante.

nom : fsdh-sample
canaux :
  - bioconda
  - par défaut
dépendances :
  - python=3.8.16
  - pip=23.0.1
  - six=1.16.0
  - ipython=8.12.0
  - nomkl=3.0
  - numpy=1.24.3
  - pandas=1.1.5
  - traitlets=5.7.1
  - roue=0.38.4
  - hifiasm=0.16.1
  - pip :
    - pyarrow==1.0.1

Étape 2. Construire et pousser l'image

L'équipe DHSF construit et pousse l'image sur GitHub. Passez à l'étape 3 si vous utilisez une image Docker existante.

docker build -t fsdh-sample .
export GHCR_PAT="XXX"
echo $GHCR_PAT|docker login ghcr.io -u <username> --password-stdin
docker tag fsdh-sample ghcr.io/ssc-sp/fsdh-sample:latest
docker push ghcr.io/ssc-sp/fsdh-sample:latest

Étape 3. Créer un cluster

  1. Demandez à votre administrateur d'activer Container Service pour votre espace de travail Databricks.
  2. Créez un cluster avec le mode d'accès "No Isolation Shared" (pas d'isolation partagée)
  3. Choisissez une durée d'exécution de 10.4-LTS, 9.1-LTS ou 7.3-LTS.
  4. Sous Advance -> Docker, utilisez l'image ghcr.io/ssc-sp/fsdh-sample:latestimage

Étape 4. Valider le cluster

Exécutez le code suivant :

%sh
liste de conda
Modifier cette page sur GitHub
Dernière mise à jour: 2026-04-13 11 h 39
Précédent
Databricks VS Code Extension
Prochain
Connexion de l'API Google à Databricks