=>

À mesure que la résolution de nos missions satellitaires s’améliore, le volume de données des produits de sortie augmente, et la part des coûts de calcul et de stockage de ces produits augmente également.

Supposons que vous prépariez une nouvelle mission satellite, par exemple une mission de type Sentinel, dans l’espoir d’une utilisation potentielle par des utilisateurs opérationnels ou privés, ainsi que par des scientifiques, bien entendu. Ces applications pourraient être, par exemple, l’estimation des rendements, de la biomasse, de l’évapotranspiration, la détection des maladies des cultures, de la déforestation ou la surveillance de la fonte des neiges… Ces applications pourraient être réalisées à l’échelle d’un continent, d’un pays ou d’une région.

Cette mission va acquérir des données au niveau mondial, et produire chaque jour au moins un téraoctet (TB) de produits (L1C) qui sont ensuite transformés en L2A, L2B, L3A… Supposons que la mission totalise une douzaine de péta-octets (PB) pendant la durée de vie de 7 ans du satellite, et qu’il faut un millier de cœurs de calcul pour traiter les données à l’échelle globale, en temps réel.

Au début d’une mission, lors de la définition du segment terrestre, la question suivante se pose généralement : lequel des choix suivants devrions-nous sélectionner ?

  • une production globale, en temps quasi réel, avec des données stockées indéfiniment, retraitées lorsqu’une nouvelle version plus performante est disponible,
  • ou une production à la demande ?

A mon avis, la production doit être globale et systématique. Voici pourquoi.

Couts de traitement : le matériel

Couts d’un traitement global

Je ne suis pas un spécialiste, mais j’ai des collègues qui le sont, et qui ont trouvé les coûts d’un centre de calcul de la taille  nécessaire pour traiter les données d’une mission de type Sentinelle avec un seul satellite. Ces coûts comprennent la maintenance, l’énergie…

StorageProcessing
Per year100 k€/PB/Year100 k€/1000 cores/year
Total/7years (3000 cores/12 PB)4.2 M€2.1 M€

Si nous avons besoin de 12 Po à la fin de la durée de vie de 7 ans, il n’y a presque rien à stocker au début. Par conséquent, le stockage de toutes les données nécessite en moyenne 6 Po pendant 7 ans, soit 4,2 millions d’euros. Après la fin de vie du satellite, les données sont toujours utiles et le stockage devrait également se poursuivre, avec un coût total de 12 Po. Cependant, les données pourraient être stockées sur des bandes, avec un accès plus long, mais un coût beaucoup plus faible, et nous pouvons encore espérer que les coûts de stockage et l’empreinte carbone continuent à diminuer avec le temps.

Pour une production globale de données de résolution moyenne avec revisite, la capacité de traitement nécessaire est d’au moins 1000 cœurs selon des études faites au CNES. Bien sûr, cela dépend de la mission et des méthodes utilisées. Il est également nécessaire de permettre le retraitement (car qui fait un traitement parfait en une seule fois ?), et un retraitement doit fonctionner au moins 3 fois plus vite que le traitement en temps réel. Même avec de telles performances, le retraitement en fin de vie prend deux ans ! Par conséquent, au moins 3000 cœurs sont nécessaires, pour un total de 2,1 millions d’euros pour sept ans. Une partie de ces cœurs ne sont peut-être pas utilisés en permanence.

Avec 12 péta octets et environ 3000 cœurs, on devrait avoir un coût total (incluant la maintenance, l’énergie…) en matériel de l’ordre de 7 M€. C’est moins de 5 % du coût d’une mission de type Sentinel à un satellite, mais c’est quand même beaucoup.

Coût du traitement à la demande

Il est beaucoup plus difficile d’évaluer le coût d’une production à la demande, car il dépend du nombre d’utilisateurs qui y auront recours. Par conséquent, la solution choisie devra faire l’objet d’un suivi et d’une adaptabilité, et probablement d’un surdimensionnement. Bien sûr, il y a une forte réduction des coûts de stockage, puisque seul un stockage temporaire est nécessaire. En cas de succès, si chaque site est traité plusieurs fois pour différents utilisateurs, le coût de traitement peut être supérieur à celui de la production systématique, mais on gagne toujours sur le stockage/

Cependant, si les données produites à la demande ne sont pas conservées dans le système de stockage du projet, les utilisateurs seront tentés de stocker les produits à la demande fabriqués pour eux dans leurs locaux.

Si nous essayons de donner des chiffres, une capacité de moins de 10 % de la production globale et systématique est nécessaire pour le stockage, et de 20 à 50 % pour le traitement.

Empreinte carbone

Outre le coût, le bilan carbone d’une solution à la demande est également bien meilleur. La majeure partie du carbone, en particulier en France où l’électricité est à faible teneur en carbone, provient de la fabrication du matériel. Il est donc probablement proportionnel au coût d’investissement.

Cependant, les experts en calcul disent que le nœud CPU a son meilleur rendement lorsqu’il est utilisé au moins 80% du temps. Par conséquent, le rendement des nœuds utilisés pour la production à la demande, avec des variations aléatoires des demandes de production, serait inférieur à celui d’une production globale bien programmée.

Bien entendu, il est essentiel d’optimiser les volumes de calcul et de stockage, quelle que soit la solution retenue.

Avantages et inconvénients de chaque solution

Au delà des couts, chaque solution a ses avantages et inconvénients. Voici ceux auquel j’ai pensé (avec l’aide de quelques collègues).

Production systématique

Avantages

  • Les données sont disponibles partout et sans délai.
  • Les utilisateurs peuvent utiliser ces données de manière efficace grâce à des solutions dites « cloud ».
  • Les données peuvent être redistribuées par d’autres centres de traitement, même si la duplication est à éviter.
  • Il est possible de créer des produits en aval sur de grandes surfaces de manière efficace, avec un traitement en temps réel si nécessaire.
  • La comparaison avec des données plus anciennes est facile. Les scientifiques aiment observer les tendances, ce qui peut s’avérer difficile s’il faut demander un retraitement préalable sur une grande surface.
  • Les données sont toujours disponibles sur les serveurs de la mission, les utilisateurs n’ont pas besoin de sauvegarder les données sur leurs propres disques, dupliquant ainsi les archives.

Inconvénients

  • Certaines des régions produites peuvent ne jamais être téléchargées, la capacité de traitement et de stockage peut être utilisée alors qu’elle n’est pas nécessaire. Cependant, cet inconvénient disparaît dès qu’il y a une production globale de certaines variables
  • Lorsqu’une nouvelle version des processeurs est disponible, il faut beaucoup de temps pour retraiter et mettre à jour les données.
  • Le coût est plus élevé (même s’il s’agit de montants faibles par rapport au coût total de la mission)
  • Les émissions de CO2 sont plus importantes (même s’il s’agit de petites quantités par rapport au budget carbone total de la mission). En outre, les données des missions de type Sentinelle sont utilisées pour tenter de surveiller et de réduire les émissions de carbone.

Traitement à la demande

Avantages

  • Seuls les produits nécessaires sont traités
  • Le traitement peut toujours être effectué avec la dernière version
  • Le retraitement global n’est pas nécessaire
  • Les coûts sont réduits (même s’il s’agit de petits montants par rapport au coût total de la mission)
  • Les émissions de carbone (même s’il s’agit de petites quantités par rapport à l’empreinte totale de la mission)

Drawbacks

  • Le traitement prend du temps, d’autant plus si certaines méthodes utilisées pour traiter les données exigent de les traiter dans l’ordre chronologique (comme MAJA). Dans ce cas, une série temporelle ne peut pas être traitée en parallèle.
  • Les données n’étant pas conservées sur les serveurs du projet, le traitement en mode « cloud » n’est pas optimisé. Les données peuvent être effacées avant que l’utilisateur qui les a demandées n’ait terminé son travail. Par conséquent, l’utilisateur doit télécharger les données.
  • La télémesure satellitaire se présente généralement sous la forme de longs segments: le traitement d’une zone d’intérêt, même petite, nécessite l’accès à un grand volume de données. Cet inconvénient est exacerbé pour les missions à large champ, dans lesquelles une zone d’intérêt est vue à partir de différentes orbites.
  • Il est difficile d’estimer la capacité et la puissance informatique nécessaires pour répondre à la demande. Par conséquent, il faut étudier la demande des utilisateurs et la solution doit être rapidement adaptable, voire surdimensionnée.
  • Si la mission est un succès, il se peut que certaines régions ou certains pays doivent être traités plusieurs fois, ce qui réduit le gain du traitement à la demande.
  • Le traitement à la demande empêche tout traitement à l’échelle mondiale, voire continentale. Même l’échelle d’un pays peut être problématique.
  • Le traitement en temps quasi réel n’est pas possible
  • Les utilisateurs peuvent être découragés par la latence du traitement et décider d’abandonner la mission ou d’en préférer une autre, même si ce n’est pas le meilleur choix pour leur application. Ceci est particulièrement important pour les nouvelles missions, où la complexité de l’accès peut empêcher de découvrir facilement l’intérêt de la mission.
  • La mission n’aura donc pas l’utilité qu’elle aurait eu si les données avaient été traitées systématiquement.

Conclusions:

Le principal avantage de la production à la demande est son coût réduit. Toutefois, ce coût reste faible par rapport au coût global de la mission. Le budget carbone joue également en faveur de la production à la demande, mais il s’agit probablement d’un montant peu élevé par rapport à l’empreinte totale de la mission.  Il est donc probablement préférable d’utiliser pleinement le satellite. C’est encore plus vrai si le satellite est utilisé pour surveiller l’environnement et aider à prendre des décisions pour réduire notre empreinte carbone. Quoi qu’il en soit, les processeurs et le stockage doivent bien sûr être optimisés.

A l’opposé, la longue liste des inconvénients du traitement à la demande est éloquente. Il en résulterait clairement une mission beaucoup moins utile.

Bien entendu, il existe des solutions hybrides dans lesquelles certaines régions/pays/continents sont traités systématiquement et d’autres à la demande. Cela modifie les proportions des avantages et des inconvénients de chaque solution, mais peut introduire des difficultés en cas de changement de version entre chaque type de traitement.

Pour conclure, à mon avis, le traitement à la demande des données d’une mission de type Sentinel n’est intéressant que si l’on prévoit que cette mission n’aura pas de succès auprès des utilisateurs. Mais dans ce cas, avons-nous vraiment besoin de cette mission ?

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.