Plateforme fédérale de données scientifiquesPlateforme fédérale de données scientifiques
  • English
  • Français
  • English
  • Français
  • Survol
  • Gérer les espaces de travail et les utilisateurs

    • Obtenir un espace de travail (uniquement disponible sur le réseau GC)
    • Estimer les coûts (uniquement disponible sur le réseau GC)
    • Configuration du compte
    • Demandez, configurez, et utilisez des outils dans votre espace de travail
    • Invitez un utilisateur
    • Modifier le rôle d'un utilisateur
    • Gérez vos budgets BOI et espaces de travail
  • Stockage

    • Travailler avec le stockage Azure
    • Apporter votre propre stockage

      • Importer du stockage AWS S3
      • Importer du stockage Azure
      • Importer un compte GCP
    • Accéder au stockage dans Databricks
    • Utiliser AzCopy pour intéragir avec le stockage
  • Databricks

    • Commencer avec Databricks sur le DataHub scientifique fédéral
    • Politiques des clusters sur Databricks
    • MLFlow : AutoML et expériences
    • Flux de travail sur Databricks
    • Tableau de bord

      • Comment créer un tableau de bord dans Databricks
      • Les tableaux de bord sur Databricks comparés à d'autres outils
    • Extensions externes

      • Intégration de Git/GitHub avec Databricks
      • Databricks VS Code Extension
      • Travailler avec Conda
      • Connexion de l'API Google à Databricks
  • PostgreSQL

    • Créer et utiliser une base de données PostgreSQL sur la PFDS
    • Ajouter un utilisateur de la PFDS à PostgreSQL
    • PostgreSQL vs Azure Databricks - Fonctionnalités des bases de données
  • Applications Web

    • Hébergement d'applications Web sur la PFDS
  • Migration vers production

    • Migration ou retrait du stockage
    • Migration ou retrait du Databricks
    • Migration ou retrait d'un base de données PostgreSQL
    • Migration ou retrait des applications web
  • Conseils aux utilisateurs

    • Code source
    • Contrôler l'utilisation
    • Contrôle et audit d'un espace de travail
    • Détection et réponse aux incidents
    • Gestion des comptes et contrôle d'accès aux espaces de travail
    • Github et gestion des dépôts de code
    • Sauvegarde et récupération
    • Types de fichiers restreints sur le stockage PFDS
  • Conditions générales

Politiques des clusters sur Databricks

Aperçu

Dans le cadre de la Plateforme fédérale de données scientifiques, nous fournissons des politiques de cluster Databricks personnalisées qui sont conçues pour vous aider à tirer le meilleur parti de vos clusters Databricks grâce à des configurations de cluster prédéfinies. Nous proposons actuellement 3 politiques de cluster en plus de la politique de calcul personnel de Databrick. Il s'agit de "Datahub Small Cluster", "Datahub Regular Cluster" et "Datahub Large Cluster". Alors que les configurations des travailleurs et des pilotes sont prédéfinies, le choix du databricks runtime dépend entièrement de vous. Nous allons détailler chacune de ces politiques de cluster ci-dessous.

Informatique personnelle

Il s'agit de la politique de cluster par défaut fournie par Databricks. Elle est conçue pour un usage personnel et n'est pas recommandée pour une utilisation en production. C'est un bon choix si vous commencez à utiliser Databricks et que vous voulez vous familiariser avec son fonctionnement. C'est également un bon choix si vous travaillez avec de petits ensembles de données et que vous n'avez pas besoin d'une grande puissance de calcul. Notez que ce cluster est un cluster à nœud unique/travailleur unique et qu'en tant que tel, aucune parallélisation ne sera effectuée. Par défaut, il utilise le dernier runtime d'apprentissage automatique, ce qui signifie que les outils d'apprentissage automatique sont disponibles dans ce cluster. La configuration du cluster est la suivante :

  • Type de nœud: Standard_DS3_v2 (4 CPU, 14 GB de mémoire)

Plus d'informations ici sur les politiques de calcul personnel

Datahub Small Cluster

Cette politique de cluster est conçue pour les petites charges de travail de production. C'est un bon choix si vous travaillez avec de petits ensembles de données et que vous n'avez pas besoin d'une petite quantité de puissance de calcul qui peut évoluer si nécessaire. C'est également un bon choix si vous débutez avec Databricks et que vous souhaitez vous familiariser avec un cluster non personnel. La configuration du cluster est la suivante :

  • Type de travailleur et de pilote: Standard_D4ds_v5 (4 CPU, 16 GB de mémoire)
  • Nombre de travailleurs:** 0 à 2 travailleurs
  • Capable de faire des instances ponctuelles
  • Peut faire de l'autoscaling

Datahub Regular Cluster

Cette politique de cluster est conçue pour des charges de travail de production régulières. C'est un bon choix si vous avez rencontré des goulets d'étranglement avec la configuration en petits clusters. La configuration du cluster est la suivante :

  • Type de travailleur et de conducteur: Choix parmi les suivants
    • Standard_D4ds_v5 (4 CPU, 16 GB de mémoire)
    • Standard_D8ds_v5 (8 CPU, 32 GB de mémoire)
    • Standard_D16ds_v5 (16 CPU, 64 GB de mémoire)
  • Nombre de travailleurs:** 0 à 4 travailleurs
  • Capable de faire des instances ponctuelles
  • Pouvant être mis à l'échelle

Datahub Large Cluster

Cette politique de cluster est conçue pour les charges de travail de production importantes. C'est un bon choix si vous travaillez avec des données extrêmement volumineuses qui nécessitent une parallélisation maximale. Il n'est pas recommandé aux utilisateurs d'utiliser ce cluster s'ils ne sont pas conscients des coûts qu'il peut entraîner. La configuration du cluster est la suivante :

  • Type de travailleur et de conducteur: Choix parmi les suivants
    • Standard_D4ds_v5 (4 CPU, 16 GB de mémoire)
    • Standard_D8ds_v5 (8 CPU, 32 GB de mémoire)
    • Standard_D16ds_v5 (16 CPU, 64 GB de mémoire)
    • Standard_D32ds_v5 (32 CPU, 128 GB de mémoire)
    • Standard_D48ds_v5 (48 CPU, 192 GB de mémoire)
    • Standard_D64ds_v5 (64 CPU, 256 GB de mémoire)
  • Nombre de travailleurs:** 0 à 4 travailleurs
  • Capable de faire des instances ponctuelles
  • Pouvant être mis à l'échelle

Création d'un cluster

Pour plus d'informations sur la création de clusters, veuillez vous référer à la documentation Databricks.

A l'avenir

Nous étudions déjà la possibilité d'élaborer de nouvelles politiques en matière de clusters qui offriront non seulement des configurations spécifiques, mais aussi des outils spécifiques, tels que le support de Conda. Nous communiquerons avec les utilisateurs lors de la publication de ces nouvelles politiques de cluster.

Modifier cette page sur GitHub
Dernière mise à jour: 2026-04-13 11 h 39
Précédent
Commencer avec Databricks sur le DataHub scientifique fédéral
Prochain
MLFlow : AutoML et expériences