TIMi : une solution plus durable et efficace pour le Big Data

Quelles sont les expertises de TIMi ?
TIMi est une solution disruptive qui s’adresse aux organisations qui désirent utiliser leurs data comme un avantage compétitif. Grâce à TIMi, nos clients déploient en quelques semaines des solutions automatisées pour optimiser automatiquement leurs ventes, leur marketing, leur supply chain, leur processus de manufacturing, leurs processus financiers, etc.
Nous utilisons des techniques simples (KPIs & dashboard) et des techniques complexes (advanced analytics, machine learning & IA). Nous sommes des spécialistes Big Data. Pour réaliser toutes ces tâches, le nœud du problème est presque toujours la première étape : une étape de data préparation et d’automatisation de flux de données. Pour avoir une solution plus écoresponsable, c’est sur cette étape qu’il faut intervenir, car elle consomme le plus de ressources en machine et en temps de calcul (et en jour-homme).
En quoi la rapidité de calcul est un challenge au cœur des solutions cloud ?
Les concepteurs de logiciels cloud promettent une scalabilité horizontale : avoir une architecture logicielle qui fonctionne plus rapidement chaque fois qu’on ajoute un serveur supplémentaire. En réalité, la loi mathématique de Amdahl nous apprend que lorsque des calculs distribués sont effectués sur une multitude de machines, le temps de calcul est divisé en deux phases : une phase de « temps compressible » (TC), réduite par l’ajout de chaque serveur, et une phase de « temps incompressible » (TI), qui ne change pas, peu importe le nombre de machines. Après avoir ajouté des centaines de machines, on arrive donc à une situation où le temps de calcul est égal au TI. Le TI est généralement exprimé en pourcentage par rapport au temps de calcul sur une seule machine.
Un benchmark universitaire neutre, nommé le TPC-H, compare la rapidité de calcul des solutions de data transformation. Il permet de voir que le TI de Spark, un moteur de calcul distribué que l’on retrouve dans beaucoup d’outils de data science (Databricks, Dataiku, Cloudera,..), est compris entre 20% et 50% (et presque toujours 50%). Cela implique que si on met 10, 100 ou 1000 machines, on réduira au maximum le temps de calcul à 50% du temps de calcul sur une machine. L’accélération maximum sera donc de 2, et non de 10, 100 ou 1000 comme on pourrait naïvement s’y attendre !
Considérons un calcul qui prend 100 secondes avec une seule machine équipée de Spark. On ne pourra donc réduire avec Spark ce temps qu’à 50 secondes, quel que soit le nombre de machines (à cause du temps incompressible de 50%). En moyenne, le logiciel TIMi est 23 fois plus rapide que Spark. Avec une seule machine, TIMi fait ce calcul en à peine 5 secondes
Comment cette problématique est-elle liée aux enjeux de durabilité du secteur des data centers ?
En 2020, l’Agence internationale de l’énergie estimait que les data centers et réseaux de transmission représentent 1% de la consommation mondiale d’électricité. Cette consommation électrique est source de CO et autres polluants. La demande exponentielle de traitement des données - notamment liée à la tendance des modèles d’intelligence artificielle, induit une hausse de la consommation.
TIMi apporte une solution plus efficace énergiquement, en permettant de réduire simultanément le temps de calcul et le nombre de machines. Ainsi, les entreprises peuvent utiliser des infrastructures hardware bien plus petites et bien moins chères. En plus de réduire l’empreinte environnementale, grâce à une consommation électrique réduite, cela apporte également un bénéfice en termes de coûts et de productivité aux clients.
La rédaction de BFM Business/BFMTV/RMC/RMC Sport n'a pas participé à la réalisation de ce contenu en partenariat avec Scribeo. La consultation du présent article est notamment soumise aux CGU de Scribeo.