1.Quel est l’objet d’un modèle de machine learning et partant de son optimisation ?
Reponse: Il s’agit d’obtenir une nouvelle représentation des données d’entrées pour construire des règles de prédictions sur de nouvelles données; la construction de cette nouvelle representation passe par l’ingenierie des donnees pour tenir compte de la complexite et augmenter les performances, implique l’utilisation de methodes d’optimisation amelioree et necessite l’utilisation de capacites materielles adaptees a la realisation d’operations complexes repetees.
2. Que réprésente un pipeline et que peut-on y retrouver comme bloc constitutifs ? Reponse: Le pipeline est une séquence de routines composées de procédures algorithmiques que les données d’entrées doivent traverser afin de produire la sortie escomptée du model d’apprentissage.
On pourra y distinguer :
3. Qu’est-ce que EDA ?
Reponse: On retrouve autour du concept d’ETL (Extract (data lake), Transform, Load(datawarehouse)), la notion de EDA qui a une double signification:
4. Qu’entends t-on par Garbage in Garbage out ?
Reponse: C’est une expression utilisee pour souligner l’importance de fournir a un modele d’apprentissage machine des donnees de qualite. Si des donnees de mauvaises qualite sont fournies a l’entree du modele afin qu’il apprenne, alors des predictions de mauvaises qualite seront egalement obtenu en sortie.
5. Pour optimiser une chaine d’apprentissage machine, faut-il la modéliser comme un problème mathématique à résoudre ?
Reponse: Non, il faut plutot voir l’optimisation d’une chaine d’apprentissage machine comme un ensemble de bonnes pratiques a mettre en oeuvre a toutes les etapes d’un pipeline (collecte des donnees, analyse, entrainement du modele, test du modele, selection de modele, …)
6. Représenter schématiquement un pipeline sur des données numériques.
Reponse:
7. A quels niveaux du pipeline les instances de calculs interagissent avec le stockage.
Reponse:
8. Afin de paralléliser les instances de traitements d’un modèle, que doit-on optimiser ?
Reponse: Il faut optimiser le graphe d’exécution. Celui-ci constitue le flux d’opérations qui sont exécutées lors de l’exploitation du modèle pendant l’entrainement: il permet d’observer les taches à réaliser lors de l’exécution du modèle et comment elles sont réalisées (notamment à quel moment).
9. Associer les traitements et les types de données :
Reponse:
10. En quoi consiste la sélection de caractéristiques ?
Reponse: il s’agit de la sélection d’un sous ensemble de caractéristiques d’entrées pour l’entrainement du modèle et ignorer celles répétitives ou inadaptées par méthodes de filtre ou empaquetage. On peut inclure d’écarter les caractéristiques sous représentées.
11. A quoi sert l’apprentissage par transfert ? A quel type de transformation il corresponds ?
Reponse: Il sert à utiliser les couches cachées d’un modèle existant comme cactéristiques d’apprentissage d’un nouveau modèle. L’on prend le modèle existant, l’on retire la couche de sortie et les sorties de couches cachées deviennent l’entrée du nouveau modèle entraîné. Il correspond à une transfomation par instance.
12. Quelle est la différence entre le fine tunning et l’extraction de caratéristiques par transfert ?
Reponse:
Le fine tuning consiste à réentraîner tous les poids de toutes les couches du modèle tandis que l’extraction de caratéristiques par transfert consiste à n’entraîner que ceux des couches cachées.
13. Quand il est approprié de faire de la validation croisée simple ou multiple ?
Reponse:
La validation croisée simple est appropriée lorsque l’on dispose de suffisamment de données tandis que la validation croisée multiple est adaptée lorsque l’on dispose de peu de données.
14. Comment calcule t-on la courbe ROC ?
Reponse: C’est une courbe qui représente la performance d’un modèle de classification à tous les seuils de classification. Elle représente deux paramètres(True Positive Rate et False Positive Rate). Les étapes de sa construction sont les suivantes:
\[TPR = \frac{TP}{TP+FN}\] - Calculer le False Positive Rate (FPR):
\[FPR = \frac{FP}{FP+TN}\] - Construire la courbe des deux statistiques pour différents seuils de classification 15. Quel est l’incovénient de l’utilisation de l’AuC ?
Reponse: L’AUC a pour inconvénient d’évacuer les informations de forme de la ROC et ne permet pas d’observer dans quelle région des paramètres les classifieurs se comportent différemment.
16. Quels sont les composantes de la matrice de confusion ?
Reponse: Elle est constituée du nombre de vrais positifs (TP), de faux positifs (FP), de faux négatifs (FN) et de vrais négatifs (TN).
17. Quelle différence entre ROC, Accuracy et F1_score ?
Reponse:
- La ROC est une courbe représentant les taux de vrais positifs (TPR) en fonction du taux de faux positifs (FPR) pour différents seuils de classification. - L’Accuracy permet de mesurer la précision globale du modèle:
\[Accuracy=\frac{TP+TN}{TP+TN+FP+FN}\]
\[F_{1\_score}=\frac{2TP}{2TP+FP+FN}\]
18. Qu’est-ce que le critère de coût d’un modèle ?
Reponse: C’est une fonction qui mesure l’écart entre la vérité (valeur réelle) et la prédiction (valeur prédicte) effectuée par un modèle.
19. Quelle est la relation entre l’entropie croisée et la KL-divergence ?
Reponse: L’entropie croisée de deux distributions p et q est égale à la somme de l’entropie de la distribution p et de la KL-divergence des distributions p et q:
\[H(p, q) = H(p)+D_{KL}(p||q)\]
20. Donnez un algrithme permettant d’exploiter un moment d’ordre 2 de la fonction de coût.
Reponse: L’algorithme de descente de gradient.
21. Qu’entends t-on par évanouissement du gradient ? Qu’est-ce qui l’explique ?
Reponse: Il s’agit du fait que la valeur du gradient de la fonction de coût tende vers 0 en partant de la couche d’entrée du réseau vers la couche de sortie, ce qui rend le modèle difficile à entraîner.
Cela peut s’expliquer par une mauvaise initialisation des poids du modèle (choix inadéquat de la variance de la distribution normale des poids); En appliquant l’algorithme de rétropropagation, les poids des neurones des différentes couches s’évanouissent en même temps que le gradient et ensuite cela se répercute sur l’optimisation de la fonction de coûts.
22. Que se passe t-il dans les graphes ci-dessous ? Quelles solutions pouvez-vous proposer ?
Reponse:
Problème: Sousapprentissage
Solution:
* Ajouter de la complexité au modèle
* Ajouter plus de varibles
* Entraîner plus longtemps
Problème: Surapprentissage
Solution:
* Effectuer de la régularisation
* Obtenir plus de données
Problème: Biais et variance élevées, prédictions incohérentes et erronnées la plupart du temps.
Solution:
- Pour réduire la variance, envisager:
* Réduire les variables d'entrée
* Utiliser un modèle moins compliquer
* Inclure plus de données d'entraînement
* Augmenter le facteur de régularisation
- Pour réduire le biais, songer à:
* Utiliser un modèle plus complexe (ex: features polynomiaux)
* Augmenter le nombre de variables
* Diminuer le facteur de régularisation.