Travailler avec Conda

Les Databricks peuvent prendre en charge des environnements basés sur Conda. DHSF offre deux options aux utilisateurs pour travailler avec Conda.

Image Docker spécifique au projet avec le support Conda et un environnement Conda prédéfini. L'image Docker doit être co-développée avec l'équipe de support DHSF et poussée vers le GitHub Container Registry (GHCR).
Image Docker générique avec support Conda. Les utilisateurs devront installer les paquets dans leurs ordinateurs portables.

À titre d'illustration, les étapes suivantes sont basées sur l'option 1.

Étape 1 : Créer l'environnement YAML

Exemple de code pour env.yml. Passez à l'étape 3 si vous utilisez une image Docker existante.

nom : fsdh-sample
canaux :
  - bioconda
  - par défaut
dépendances :
  - python=3.8.16
  - pip=23.0.1
  - six=1.16.0
  - ipython=8.12.0
  - nomkl=3.0
  - numpy=1.24.3
  - pandas=1.1.5
  - traitlets=5.7.1
  - roue=0.38.4
  - hifiasm=0.16.1
  - pip :
    - pyarrow==1.0.1

Étape 2. Construire et pousser l'image

L'équipe DHSF construit et pousse l'image sur GitHub. Passez à l'étape 3 si vous utilisez une image Docker existante.

docker build -t fsdh-sample .
export GHCR_PAT="XXX"
echo $GHCR_PAT|docker login ghcr.io -u <username> --password-stdin
docker tag fsdh-sample ghcr.io/ssc-sp/fsdh-sample:latest
docker push ghcr.io/ssc-sp/fsdh-sample:latest

Étape 3. Créer un cluster

Demandez à votre administrateur d'activer Container Service pour votre espace de travail Databricks.
Créez un cluster avec le mode d'accès "No Isolation Shared" (pas d'isolation partagée)
Choisissez une durée d'exécution de 10.4-LTS, 9.1-LTS ou 7.3-LTS.
Sous Advance -> Docker, utilisez l'image ghcr.io/ssc-sp/fsdh-sample:latest

Étape 4. Valider le cluster

Exécutez le code suivant :

%sh
liste de conda

← Databricks VS Code Extension Connexion de l'API Google à Databricks →

# Travailler avec Conda

# Étape 1 : Créer l'environnement YAML

# Étape 2. Construire et pousser l'image

# Étape 3. Créer un cluster

# Étape 4. Valider le cluster

Travailler avec Conda

Étape 1 : Créer l'environnement YAML

Étape 2. Construire et pousser l'image

Étape 3. Créer un cluster

Étape 4. Valider le cluster