Fiche de révisions

Reponses aux questions:

1.Quel est l’objet d’un modèle de machine learning et partant de son optimisation ?

Reponse: Il s’agit d’obtenir une nouvelle représentation des données d’entrées pour construire des règles de prédictions sur de nouvelles données; la construction de cette nouvelle representation passe par l’ingenierie des donnees pour tenir compte de la complexite et augmenter les performances, implique l’utilisation de methodes d’optimisation amelioree et necessite l’utilisation de capacites materielles adaptees a la realisation d’operations complexes repetees.

2. Que réprésente un pipeline et que peut-on y retrouver comme bloc constitutifs ? Reponse: Le pipeline est une séquence de routines composées de procédures algorithmiques que les données d’entrées doivent traverser afin de produire la sortie escomptée du model d’apprentissage.

On pourra y distinguer :

La Collecte, l’Analyse et la Transformation des données d’entrées
L’exploitation des données par le modèle d’apprentissage
- Construction du modèle
- Entrainement du modèle
- Test du modèle
- Exportation du modèle
Exploitation du modèle entrainé

3. Qu’est-ce que EDA ?

Reponse: On retrouve autour du concept d’ETL (Extract (data lake), Transform, Load(datawarehouse)), la notion de EDA qui a une double signification:

EDA: Exploratory Data Analysis, analyse dont le but est de mieux comprendre la donnee nanipulee
EDA: Event Driven Architecture, forme d’architecture utilisant des événements pour déclencher et communiquer entre des services découplés. Elle est courante dans les applications modernes construites avec des microservices. Un événement est un changement d’état, ou une mise à jour, comme un article placé dans un panier sur un site de commerce électronique.

4. Qu’entends t-on par Garbage in Garbage out ?

Reponse: C’est une expression utilisee pour souligner l’importance de fournir a un modele d’apprentissage machine des donnees de qualite. Si des donnees de mauvaises qualite sont fournies a l’entree du modele afin qu’il apprenne, alors des predictions de mauvaises qualite seront egalement obtenu en sortie.

5. Pour optimiser une chaine d’apprentissage machine, faut-il la modéliser comme un problème mathématique à résoudre ?

Reponse: Non, il faut plutot voir l’optimisation d’une chaine d’apprentissage machine comme un ensemble de bonnes pratiques a mettre en oeuvre a toutes les etapes d’un pipeline (collecte des donnees, analyse, entrainement du modele, test du modele, selection de modele, …)

6. Représenter schématiquement un pipeline sur des données numériques.

Reponse:

7. A quels niveaux du pipeline les instances de calculs interagissent avec le stockage.

Reponse:

Collecte de la donnée: Chargement et Stockage de la donnée collectée dans une base de donnée appropriée (datawarehouse, data lake, …);
Début de l’étape d’analyse des données: Chargement des données brutes collectées;
Fin de l’étape de transformation de la donnée: + Stockage des données prétraitées pour gagner en temps afin de ne pas repéter les mêmes opérations au début de l’entraînement de chaque modèle; + Stockage également des paramètres et/ou hyperparamètres du pipeline de transformation des données pour pouvoir l’appliquer à une nouvelle donnée lors de la prédiction;
Début de l’étape d’entraînement des modèles: Chargement des données prétraitées;
Etape d’exportation de modèle: les modèles considérés comme commercialisables/utilisables sont sauvegardés;
Etape de déploiement/prédiction: Les poids du modèle sont lus à partir d’un fichier ou reqêtés à partir d’une API afin d’effectuer la prédiction sur une nouvelle entrée;

8. Afin de paralléliser les instances de traitements d’un modèle, que doit-on optimiser ?

Reponse: Il faut optimiser le graphe d’exécution. Celui-ci constitue le flux d’opérations qui sont exécutées lors de l’exploitation du modèle pendant l’entrainement: il permet d’observer les taches à réaliser lors de l’exécution du modèle et comment elles sont réalisées (notamment à quel moment).

9. Associer les traitements et les types de données :

Reponse:

10. En quoi consiste la sélection de caractéristiques ?

Reponse: il s’agit de la sélection d’un sous ensemble de caractéristiques d’entrées pour l’entrainement du modèle et ignorer celles répétitives ou inadaptées par méthodes de filtre ou empaquetage. On peut inclure d’écarter les caractéristiques sous représentées.

11. A quoi sert l’apprentissage par transfert ? A quel type de transformation il corresponds ?

Reponse: Il sert à utiliser les couches cachées d’un modèle existant comme cactéristiques d’apprentissage d’un nouveau modèle. L’on prend le modèle existant, l’on retire la couche de sortie et les sorties de couches cachées deviennent l’entrée du nouveau modèle entraîné. Il correspond à une transfomation par instance.

12. Quelle est la différence entre le fine tunning et l’extraction de caratéristiques par transfert ?

Reponse:

Le fine tuning consiste à réentraîner tous les poids de toutes les couches du modèle tandis que l’extraction de caratéristiques par transfert consiste à n’entraîner que ceux des couches cachées.

13. Quand il est approprié de faire de la validation croisée simple ou multiple ?

Reponse:

La validation croisée simple est appropriée lorsque l’on dispose de suffisamment de données tandis que la validation croisée multiple est adaptée lorsque l’on dispose de peu de données.

14. Comment calcule t-on la courbe ROC ?

Reponse: C’est une courbe qui représente la performance d’un modèle de classification à tous les seuils de classification. Elle représente deux paramètres(True Positive Rate et False Positive Rate). Les étapes de sa construction sont les suivantes:

Calculer le Recal/True Positive Rate (TPR):

\[TPR = \frac{TP}{TP+FN}\] - Calculer le False Positive Rate (FPR):

\[FPR = \frac{FP}{FP+TN}\] - Construire la courbe des deux statistiques pour différents seuils de classification 15. Quel est l’incovénient de l’utilisation de l’AuC ?

Reponse: L’AUC a pour inconvénient d’évacuer les informations de forme de la ROC et ne permet pas d’observer dans quelle région des paramètres les classifieurs se comportent différemment.

16. Quels sont les composantes de la matrice de confusion ?

Reponse: Elle est constituée du nombre de vrais positifs (TP), de faux positifs (FP), de faux négatifs (FN) et de vrais négatifs (TN).

17. Quelle différence entre ROC, Accuracy et F1_score ?

Reponse:
- La ROC est une courbe représentant les taux de vrais positifs (TPR) en fonction du taux de faux positifs (FPR) pour différents seuils de classification. - L’Accuracy permet de mesurer la précision globale du modèle:

\[Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\]

le \(F_{1\_score}\) est une mesure de l’exactitude d’un test et est obtenu à l’aide de la formule suivante:

\[F_{1\_score}=\frac{2TP}{2TP+FP+FN}\]

18. Qu’est-ce que le critère de coût d’un modèle ?

Reponse: C’est une fonction qui mesure l’écart entre la vérité (valeur réelle) et la prédiction (valeur prédicte) effectuée par un modèle.

19. Quelle est la relation entre l’entropie croisée et la KL-divergence ?

Reponse: L’entropie croisée de deux distributions p et q est égale à la somme de l’entropie de la distribution p et de la KL-divergence des distributions p et q:

\[H(p, q) = H(p)+D_{KL}(p||q)\]

20. Donnez un algrithme permettant d’exploiter un moment d’ordre 2 de la fonction de coût.

Reponse: L’algorithme de descente de gradient.

21. Qu’entends t-on par évanouissement du gradient ? Qu’est-ce qui l’explique ?

Reponse: Il s’agit du fait que la valeur du gradient de la fonction de coût tende vers 0 en partant de la couche d’entrée du réseau vers la couche de sortie, ce qui rend le modèle difficile à entraîner.

Cela peut s’expliquer par une mauvaise initialisation des poids du modèle (choix inadéquat de la variance de la distribution normale des poids); En appliquant l’algorithme de rétropropagation, les poids des neurones des différentes couches s’évanouissent en même temps que le gradient et ensuite cela se répercute sur l’optimisation de la fonction de coûts.

22. Que se passe t-il dans les graphes ci-dessous ? Quelles solutions pouvez-vous proposer ?

Reponse:

A:
- Problème: Just apprentissage
- Solution: Rien à faire.

Problème: Sousapprentissage

Solution:

      * Ajouter de la complexité au modèle
      * Ajouter plus de varibles
      * Entraîner plus longtemps

Problème: Surapprentissage

Solution:

      * Effectuer de la régularisation
      * Obtenir plus de données

Problème: Biais et variance élevées, prédictions incohérentes et erronnées la plupart du temps.

Solution:

    - Pour réduire la variance, envisager:

      * Réduire les variables d'entrée
      * Utiliser un modèle moins compliquer
      * Inclure plus de données d'entraînement
      * Augmenter le facteur de régularisation

    - Pour réduire le biais, songer à:

      * Utiliser un modèle plus complexe (ex: features polynomiaux)
      * Augmenter le nombre de variables
      * Diminuer le facteur de régularisation.

Fiche de révisions

Ameck DOSSEH

4/10/2022

Reponses aux questions: