Download StatBox 7
Transcript
Courbe d'apprentissage Erreur moyenne 0,3 0,25 0,2 Erreur sur l’échantillon test 0,15 0,1 Erreur sur l’échantillon d’apprentissage 0,05 0 52 10 15 20 26 31 36 41 46 52 57 62 67 72 78 83 88 93 98 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 Itérations La phase d’apprentissage et la phase de test La preuve d’un bon résultat Contrairement à la régression multiple, il n’est pas possible de faire un test de significativité du modèle. Une solution consiste à diviser aléatoirement l’échantillon initial en deux sous-échantillons. On estime le modèle sur l’un des souséchantillons, c’est la phase d’apprentissage. L’erreur moyenne doit être la plus petite possible. La deuxième phase consiste à tester le modèle sur l’autre sous-échantillon. Sur cet échantillon, on connaît la valeur de la variable étudiée. Si la valeur estimée n’est pas trop différente de la valeur observée, le modèle est probablement opérationnel. On pourra ensuite présenter au modèle des observations ou individus dont on ne connaît pas la valeur de la variable étudiée. Il est intéressant de faire d’abord une analyse statistique classique et ensuite une analyse neuronale. Cette première analyse donne un point de comparaison intéressant. Nombre de neurones dans la couche cachée : L’équivalent des facteurs Le nombre de neurones de la couche cachée correspond approximativement au nombre de facteurs en analyse factorielle. On introduit dans la couche cachée un nombre inférieur de neurones. En analyse en composantes neuronales, les neurones de la couche cachée jouent un rôle de compression des données ou de réduction du bruit. Si on définit un trop grand nombre de neurones dans la couche cachée en régression ou en analyse discriminante, le modèle risque d’apprendre ‘par cœur’ les données présentées en entrée et ne saura pas généraliser sur un jeu de données inconnu. Une règle approximative consiste à prendre la racine carrée du nombre de neurones en entrée. Mais il faut également prendre en compte la manière dont les données ont été codées au départ. Nature des données en entrée Il est possible a priori de soumettre à un réseau de neurones des données nominales ou quantitatives. L’expérience montre qu’une variable nominale transformée en plusieurs variables Oui/Non (ou en d’autres termes en variables binaires disjonctives) donne de meilleurs résultats. Il est dans ce cas conseillé de transformer les variables numériques en classes. Les variables numériques en entrée qui ont une distribution très grande (supérieure à plus ou moins 3 écart-types par rapport à la moyenne) donnent de moins bons résultats. Dans ce cas StatBox borne les données à plus ou moins 3 écart-types en entrée pendant la phase d’apprentissage. D’autre part pour éviter l’effet des unités de mesure, StatBox réduit l’amplitude des données à l’intervalle 0 et 1. L’amplitude initiale est ensuite reconstituée pour les données en sortie. La régression neuronale Les principes La régression neuronale permet d’établir un lien entre une variable numérique et plusieurs autres variables numériques ou non. Elle est comparable à la régression linéaire multiple. On utilise l’algorithme de rétropropagation StatBox Analyse à n variables 103