Spécialisée dans le Machine Learning, Jennifer Prendki, CEO d’Alectio et Experte à l’International Institute for Analytics, vous fait découvrir comment créer des modèles d’Intelligence Artificielle moins énergivores et plus efficaces. Curieux d’en savoir plus ? On vous a concocté un résumé de la MasterClass du mardi 8 décembre, de 16h à 17h !
Commençons par le commencement ! Qui dit Machine Learning, dit Training Data Set.
Pour faire simple, un Training Data Set représente un ensemble de données que l’on peut utiliser à des fins prédictives, et que l’on traite par le biais d’un modèle de Machine Learning.
Le Training Data Set est constitué de trois types de données :
Ainsi, le Machine Learning peut être défini comme une technologie d’Intelligence Artificielle qui permet à un ordinateur, à partir d’une base de données, d’apprendre et d’effectuer des prédictions de manière automatique.
Alectio est la première startup qui se focalise sur la curation automatique de données et l'optimisation de collecte de ces dernières. Jennifer Prendki et son équipe ont pour mission d'aider les équipes de Machine Learning à construire des modèles performants en utilisant moins de données, et en réduisant les coûts et le temps associés à l'entraînement du modèle. Ainsi, Alectio va pouvoir prédire dans son propre modèle quelles sont les données harmful, useful et useless.
Créer de meilleures prédictions avec moins de données, c’est possible ?
Oui ! Et Alectio nous le prouve au quotidien. Selon eux, not all data is created equal. En effet, toutes les données ne possèdent pas la même valeur. Certaines sont plus utiles que d’autres, et c’est pour cette raison que leur identification et leur sélection doivent combiner précision et pertinence.
Alectio utilise une technologie semi-supervisée que l’on appelle “Active Learning”, soit l’apprentissage actif. Cette méthode est qualifiée ainsi, car elle permet de sélectionner les données de manière active et incrémentale afin d’identifier l’échantillon qui contient le maximum d’informations.
Ce modèle fonctionne avec un système de boucle, qui va lui permettre de s’auto-modifier et s’auto-améliorer en fonction des données collectées et analysées. Il est composé de quatre phases successives, qui se renouvellent à chaque fin de cycle :
Si les prédictions sont satisfaisantes, le processus peut être stoppé. Dans le cas inverse, les analystes sélectionnent une autre partie des données collectées, les ajoutent à celles qui ont déjà été annotées et traitées, puis repassent par chaque étape de l’Active Learning jusqu’à parvenir à un résultat satisfaisant.
L’Active Learning nous prouve alors qu’un modèle peut lui-même apprendre à partir des données qu’il analyse, et ce, de manière progressive. Ce système lui permet ainsi de construire une courbe d’apprentissage, soit la relation entre la performance du modèle et la quantité de données utilisées.
Bien que certaines entreprises utilisent des méthodes supervisées, c’est-à-dire qu’elles utilisent l’ensemble des données collectées sans en faire le tri, l’Active Learning est une méthode essentielle. En effet, seulement 25% des données collectées sont réellement pertinentes et applicables. Dans les cas les plus extrêmes, cela peut descendre à moins de 1% !
La bonne nouvelle, c’est que les inconvénients peuvent être évités en combinant l’Active Learning avec d’autres techniques telles que le Reinforcement Learning et le Meta Learning. De plus en plus de recherches sont effectuées dans ce domaine, promettant des avancées considérables au cours des prochaines années.
Vous souhaitez découvrir et tester cette nouvelle plateforme ? On vous donne rendez-vous sur le site d’Alectio.
Si le secteur de la Data vous intéresse, consultez notre fiche métier Data Analyst.