Fonction Statistique DROITEREG
Description
La fonction DROITEREG calcule les statistiques d’une droite par la méthode des moindres carrés afin de calculer une droite s’ajustant au plus près de vos données, puis renvoie une matrice qui décrit cette droite. Vous pouvez également combiner la fonction DROITEREG avec d’autres fonctions pour calculer les statistiques d’autres types de modèles linéaires dans les paramètres inconnus, y compris polynomial, logarithmique, exponentiel et série de puissances. Dans la mesure où cette fonction renvoie une matrice de valeurs, elle doit être tapée sous la forme d’une formule matricielle. Vous trouverez des instructions sous les exemples proposés dans cet article.
L’équation de la droite est la suivante :
y = mx + b
–ou–
y = m1x1 + m2x2 +… + b
en présence de plusieurs plages de valeurs x, où les valeurs dépendantes y sont une fonction des valeurs indépendantes x. Les valeurs m sont des coefficients correspondant à chaque valeur x, et b est une valeur constante. Vous remarquerez que y, x et m peuvent être des vecteurs. La matrice renvoyée par la fonction DROITEREG est de la forme {mn.mn-1…..m1.b}. La fonction DROITEREG peut également renvoyer des statistiques de régression supplémentaires.
Syntaxe
DROITEREG(y_connus, [x_connus], [constante], [statistiques])
La syntaxe de la fonction DROITEREG contient les arguments suivants :
Syntaxe
- y_connus Obligatoire. Série des valeurs y déjà connues par la relation y = mx + b.
- Si la plage de y_connus occupe une seule colonne, chaque colonne de l’argument x_connus est interprétée comme étant une variable distincte.
- Si la plage de y_connus occupe une seule ligne, chaque ligne de l’argument x_connus est interprétée comme étant une variable distincte.
- x_connus Facultatif. Série de valeurs x éventuellement déjà connues par la relation y = mx + b.
- La plage de x_connus peut inclure une ou plusieurs séries de variables. Si vous utilisez une seule variable, les arguments y_connus et x_connus peuvent être des plages de forme différente, à condition qu’elles aient la même dimension. Si vous utilisez plusieurs variables, l’argument y_connus doit être un vecteur (en d’autres termes, une plage comportant une seule ligne ou une seule colonne).
- Si l’argument x_connus est omis, il est supposé égal à la matrice {1.2.3….}, de même ordre que l’argument y_connus.
- constante Facultatif. Valeur logique précisant si la constante b doit être forcée à 0.
- Si l’argument constante est VRAI ou omis, la constante b est calculée normalement.
- Si l’argument constante est FAUX, b est égal à 0 et les valeurs m sont ajustées de sorte que y = mx.
- statistiques Facultatif. Valeur logique indiquant si d’autres statistiques de régression doivent être renvoyées.
- Si statistiques est VRAI, LA DROITE DROITE DROITE renvoie les statistiques de régression supplémentaires ; Par conséquent, le tableau renvoyé est {mn.mn-1,…,m1.b;sen.sen-1,…,se1.seb;r2,sey; F,df;ssreg,ssresid}.
- Si l’argument statistiques est FAUX ou omis, la fonction DROITEREG renvoie uniquement les coefficients m et la constante b.Les statistiques de régression supplémentaires sont les suivantes :
Statistique | Description |
---|---|
se1,se2,…,sen | Les valeurs d’erreur type correspondant aux coefficients m1,m2,…,mn. |
seb | La valeur d’erreur type correspondant à la constante b (seb = #N/A si l’argument constante a la valeur FAUX). |
r2 | Le coefficient de détermination. Compare les valeurs y estimées aux valeurs y réelles et varie entre 0 et 1. Un coefficient de détermination égal à 1 indique une corrélation parfaite de l’échantillon (aucune différence entre les valeurs y estimées et réelles). A l’inverse, un coefficient de détermination égal à 0 (zéro) indique que l’équation de régression ne peut servir à prévoir une valeur y. Pour plus d’informations sur le calculde 2, voir les « Remarques » plus loin dans cette rubrique. |
sey | L’erreur type pour la valeur y estimée. |
F | La statistique F ou valeur F observée. Utilisez ce paramètre pour déterminer si la relation observée entre les variables dépendantes et indépendantes est due au hasard. |
df | Les degrés de liberté. Ils vous aident à trouver les valeurs critiques de la statistique F dans une table statistique. Comparez les valeurs trouvées dans la table à la statistique F renvoyée par la fonction DROITEREG pour déterminer le niveau de confiance du modèle. Pour plus d’informations sur le mode de calcul de df, consultez les « Remarques » plus loin dans cette rubrique. L’exemple 4 ci-dessous illustre l’utilisation de F et df. |
ssreg | La somme de régression des carrés. |
ssresid | La somme résiduelle des carrés. Pour plus d’informations sur le mode de calcul de ssreg et de ssresid, consultez les « Notes » plus loin dans cette rubrique. |
L’illustration suivante montre l’ordre dans lequel les statistiques de régression supplémentaires sont renvoyées.
Notes
- Toute droite peut être décrite par sa pente et son ordonnée à l’origine :Pente (m) :
Pour connaître la pente d’une droite, généralement écrite sous la lettre m, prenez deux points sur la droite, (x1,y1) et (x2,y2). la pente est égale à (y2 – y1)/(x2 – x1).À l’origine (b) :
L’origine y d’une droite, généralement écrite sous la lettre b, est la valeur de y au point d’croiser l’axe des y.L’équation d’une droite est y = mx + b. Une fois connues les valeurs de m et de b, chaque point de la droite peut être calculé en fixant la valeur x ou y dans l’équation. Vous pouvez également utiliser la fonction TENDANCE.
- Si vous utilisez une seule variable indépendante x, vous pouvez obtenir directement les valeurs de la pente et de l’ordonnée à l’origine de la droite à l’aide des formules suivantes :Pente :
=INDEX(DROITE DROITE(known_y;known_x;s);1)Intercept à l’origine :
=INDEX(DROITE DROITE(known_y;known_x;s);2) - L’exactitude de la droite calculée par la fonction DROITEREG dépend du degré de dispersion de vos données. Le modèle de la fonction DROITEREG sera d’autant plus exact que les données seront plus linéaires. La fonction DROITEREG utilise la méthode des moindres carrés pour calculer le meilleur ajustement à vos données. Lorsque vous ne disposez que d’une seule variable indépendante x, les calculs de m et b s’appuient sur les formules suivantes :
où x et y sont des moyennes d’échantillon, à savoir x = MOYENNE(x_connus) et y = MOYENNE(y_connus).
- Les fonctions droite et courbe DROITE DROITE ET LOGEST peuvent calculer la meilleure courbe droite ou exponentielle qui correspond à vos données. Toutefois, vous devez choisir lequel des deux résultats correspond le mieux à vos données. Vous pouvez calculer la TENDANCE(known_y;known_x) pour une courbe droite ou LA CROISSANCE(known_you known_x) pour une courbe exponentielle. Ces fonctions, sans l’argument new_x, retournent une matrice de valeurs y prévues le long de cette courbe ou courbe à vos points de données réels. Vous pouvez ensuite comparer les valeurs prévues aux valeurs réelles. Vous pouvez les graphiquer tous les deux pour obtenir une comparaison visuelle.
- Dans une analyse de régression, Excel calcule, pour chaque point, le carré de la différence entre les valeurs y estimée et réelle. La somme de ces différences quadratiques est appelée « somme résiduelle des carrés », ssresid. Excel calcule ensuite la somme totale des carrés, sstotal. Si l’argument constante est VRAI ou est omis, la somme totale des carrés est la somme des différences quadratiques entre les valeurs y réelles et la moyenne des valeurs y. Si l’argument constante est FAUX, la somme totale des carrés (= somme des carrés des valeurs y réelles (sans soustraire la valeur y moyenne de chaque valeur y individuelle). Ensuite, la somme de régression des carrés, ssreg, peut être trouvée en faisant : ssreg = sstotal – ssresid. Plus la somme résiduelle des carrés est petite comparée à la somme totale des carrés et plus la valeur du coefficient de détermination r2est élevée, ce qui indique que l’équation résultant de l’analyse de régression explique la relation entre les variables. La valeur r2 est égale à ssreg/sstotal.
- Dans certains cas, une ou plusieurs des colonnes X (supposons que Y et X se soient des colonnes) peuvent ne pas avoir de valeur prédictive supplémentaire en présence des autres colonnes X. En d’autres termes, le fait d’éliminer une ou plusieurs colonnes X peut entraîner des valeurs Y prévues qui sont tout aussi précises. Dans ce cas, ces colonnes X redondantes doivent être omis du modèle de régression. Ce phénomène est appelé « colinéarité », car toute colonne X redondante peut être exprimée sous la forme d’une somme de multiples des colonnes X non redondantes. La fonction DROITE LINEST vérifie la colinéarité et supprime les colonnes X redondantes du modèle de régression lorsqu’elle les identifie. Les colonnes X supprimées peuvent être reconnues en sortie de la fonction DROITE comme ayant 0 coefficient en plus de valeurs de 0 se. Si une ou plusieurs colonnes sont supprimées comme redondantes, l’outil df est affecté, car le df dépend du nombre de colonnes X réellement utilisées à des fins prédictives. Pour plus d’informations sur le calcul de df, voir l’exemple 4. Si df est modifié en raison de la suppression de colonnes X redondantes, les valeurs de sey et F sont également affectées. La colinéarité doit être relativement rare dans la pratique. Toutefois, il est plus susceptible de se produire lorsque certaines colonnes X contiennent uniquement des valeurs 0 et 1 comme indicateurs du fait qu’un sujet fait ou non partie d’un groupe particulier. Si l’indice = VRAI ou est omis, la fonction DROITE insère une colonne X supplémentaire de toutes les 1 valeurs pour modéliser l’origine. Si vous avez une colonne avec un 1 pour chaque sujet s’il s’agit d’un homme, ou 0 si ce n’est pas le cas, et que vous avez également une colonne avec un 1 pour chaque sujet si femme, ou 0 si ce n’est pas le cas, cette dernière colonne est redondante, car les entrées dans celle-ci peuvent être obtenues en soustrayant l’entrée dans la colonne « indicateur homme » de l’entrée dans la colonne supplémentaire des 1 valeurs ajoutées par la fonction DROITE LINEST.
- La valeur de df est calculée comme suit lorsque aucune colonne X n’est supprimée du modèle en raison de la colinéarité : s’il y a k colonnes de x_connus et que l’argument constante est VRAI ou est omise, df = n – k – 1. Si l’argument constante est FAUX, df = n – k. Dans les deux cas, chaque colonne X ayant été supprimée en raison de la colinéarité augmente la valeur de df de 1.
- Lorsque vous entrez comme argument une constante matricielle telle que x_connus, utilisez le point pour séparer les valeurs d’une même ligne et le point-virgule pour séparer les lignes. Les caractères séparateurs peuvent être différents selon les paramètres régionaux.
- Notez que les valeurs y prédites par l’équation de régression peuvent ne pas être valides si elles se trouvent en dehors de la plage des valeurs y utilisées pour déterminer cette équation.
- L’algorithme utilisé dans la fonction DROITEREG est différent de celui utilisé dans les fonctions PENTE et ORDONNEE.ORIGINE. Cette différente peut induire des résultats différents lorsque les données sont non déterminées et colinéaires. Par exemple, si les points de données de l’argument y_connus sont 0 et que les points de données de l’argument x_connus sont 1 :
- DROITEREG renvoie la valeur 0. L’algorithme de la fonction DROITEREG est conçu pour renvoyer des résultats raisonnables pour des données colinéaires et, dans ce cas, une réponse au moins est possible.
- Les moyennes PENTE et INTERCEPT renvoyent #DIV/0! comme erreur. L’algorithme des fonctions PENTE et INTERCEPT est conçu pour ne rechercher qu’une seule réponse et dans ce cas il peut y en avoir plusieurs.
- En plus d’utiliser LOGREG pour calculer une statistique pour d’autres types de régression, vous pouvez utiliser DROITEREG pour calculer une plage d’autres types de régression en entrant des fonctions des variables x et y comme série x et y pour DROITEREG. Par exemple, la formule suivante :=DROITEREG(valeursy, valeursx^COLUMN($A:$C))fonctionne lorsque vous avez une seule colonne de valeurs y et une seule colonne de valeurs x pour calculer l’approximation cubique (polynomial de commande 3) de forme :
y = m1*x + m2*x^2 + m3*x^3 + b
Vous pouvez ajuster cette formule pour calculer d’autres types de régression, mais dans certains cas elle nécessite l’ajustement des valeurs de sortie et d’autres statistiques.
- La valeur du test F renvoyée par la fonction DROITEREG est différente de la valeur du test F renvoyée par la fonction TEST.F. La fonction DROITEREG renvoie la statistique F, alors que la fonction TEST.F renvoie la probabilité.
Exemples
Exemple 1 : pente et ordonnée Y
Copiez les données d’exemple dans le tableau suivant, et collez-le dans la cellule A1 d’un nouveau classeur Excel. Pour que les formules affichent des résultats, sélectionnez-les, appuyez sur F2, puis sur Entrée. Si nécessaire, vous pouvez modifier la largeur des colonnes pour afficher toutes les données.
y connus | x connus |
---|---|
1 | 0 |
9 | 4 |
5 | 2 |
7 | 3 |
Résultat (pente) | Résultat (ordonnée à l’origine) |
2 | 1 |
Formule (formule matricielle dans les cellules A7:B7) | |
=DROITEREG(A2:A5;B2:B5;FAUX) |
Exemple 2 : régression linéaire simple
Copiez les données d’exemple dans le tableau suivant, et collez-le dans la cellule A1 d’un nouveau classeur Excel. Pour que les formules affichent des résultats, sélectionnez-les, appuyez sur F2, puis sur Entrée. Si nécessaire, vous pouvez modifier la largeur des colonnes pour afficher toutes les données.
Mois | Ventes |
---|---|
1 | 3 100 € |
2 | 4 500 € |
3 | 4 400 € |
4 | 5 400 € |
5 | 7 500 € |
6 | 8 100 € |
Formule | Résultat |
=SOMME(DROITEREG(B1:B6, A1:A6)*{9\1}) | 11 000 € |
Calcule l’estimation des ventes du neuvième mois, en fonction des ventes des mois 1 à 6. |
Exemple 3 : régression linéaire multiple
Copiez les données d’exemple dans le tableau suivant, et collez-le dans la cellule A1 d’un nouveau classeur Excel. Pour que les formules affichent des résultats, sélectionnez-les, appuyez sur F2, puis sur Entrée. Si nécessaire, vous pouvez modifier la largeur des colonnes pour afficher toutes les données.
Superficie utile (x1) | Bureaux (x2) | Entrées (x3) | Âge (x4) | Valeur immobilière (y) |
---|---|---|---|---|
2310 | 2 | 2 | 20 | 142 000 € |
2333 | 2 | 2 | 12 | 144 000 € |
2356 | 3 | 1,5 | 33 | 151 000 € |
2379 | 3 | 2 | 43 | 150 000 € |
2402 | 2 | 3 | 53 | 139 000 € |
2425 | 4 | 2 | 23 | 169 000 € |
2448 | 2 | 1,5 | 99 | 126 000 € |
2471 | 2 | 2 | 34 | 142 900 € |
2494 | 3 | 3 | 23 | 163 000 € |
2517 | 4 | 4 | 55 | 169 000 € |
2540 | 2 | 3 | 22 | 149 000 € |
-234,2371645 | ||||
13,26801148 | ||||
0,996747993 | ||||
459,7536742 | ||||
1732393319 | ||||
Formule (formule de tableau dynamique entrée dans A19) | ||||
=DROITREG(E2:E12;A2:D12;VRAI;VRAI) |
Exemple 4 : utilisation des statistiques F et r2
Dans l’exemple précédent, le coefficient de détermination r2est de 0,99675 (cellule A17 de la fonction DROITE LINEST),ce qui indiquerait une relation étroite entre les variables indépendantes et le prix de vente. La statistique F vous permet de déterminer si les résultats présentant cette valeur de r2 élevée sont le fruit du hasard.
Supposons un instant qu’il n’existe pas de relation véritable entre les variables, mais que l’échantillon de 11 immeubles de bureaux constitué est tel que son analyse statistique démontre une relation étroite. On appelle Alpha la probabilité de se tromper en concluant à l’existence d’une relation.
Vous pouvez utiliser les valeurs F et df des résultats de la fonction DROITEREG pour évaluer la possibilité d’obtenir une valeur F supérieure par hasard. F peut être comparé avec les valeurs critiques dans les tables de distribution F publiées ou vous pouvez utiliser la fonction LOI.F d’Excel pour calculer la probabilité qu’une valeur F plus élevée se produise par hasard. La distribution F appropriée a les degrés de liberté v1 et v2. Si n est le nombre d’observations et que l’argument constante est VRAI ou omis, alors v1 = n – df – 1 et v2 = df. (Si l’argument constante = FAUX, alors v1 = n – df et v2 = df.) La fonction LOI.F d’Excel avec la syntaxe LOI.F(F,v1,v2) renverra la probabilité qu’une valeur F plus élevée se produise par hasard. Dans cet exemple, df = 6 (cellule B18) et F = 459.753674 (cellule A18).
En supposant que la valeur alpha est de 0,05, v1 = 11 – 6 – 1 = 4 et v2 = 6, le niveau critique de F est de 4,53. Étant donné que F = 459,753674 est beaucoup plus élevé que 4,53, il est très peu probable qu’une valeur F aussi élevée survient par hasard. (Avec alpha = 0,05, l’hypothèse selon laquelle il n’existe aucune relation entre known_y et known_x doit être refusée lorsque F dépasse le niveau critique, 4,53.) Vous pouvez utiliser la fonction FD F dans Excel pour obtenir la probabilité qu’une valeur F aussi élevée se produit par hasard. Par exemple, LA.F(459,753674; 4, 6) = 1,37E-7, une probabilité très faible. Vous pouvez conclure, soit en déterminant le niveau critique de F dans une table, soit en utilisant la fonction LOI.F, que l’équation de régression soit utile pour prévoir la valeur évaluée des immeubles de bureaux dans ce domaine. N’oubliez pas qu’il est essentiel d’utiliser les valeurs correctes de v1 et v2 qui ont été calculées au paragraphe précédent.
Exemple 5 : calcul de la statistique T
Un autre test d’hypothèse permet de déterminer si chaque coefficient de pente intervient dans l’estimation de la valeur immobilière d’un immeuble de bureaux proposée dans l’exemple 3. Par exemple, pour tester la signification statistique du coefficient d’âge, divisez -1400,23 (le coefficient de la pente âge) par 82,896 (l’erreur type estimée des coefficients d’âge renvoyée dans la cellule A15). Cela donne la valeur t observée suivante :
t = m4 ÷ se4 =-234,24 ÷ 13,268 =-17,7
Si la valeur absolue de t est suffisamment élevée, vous pouvez conclure que le coefficient de pente est utile dans l’estimation de la valeur immobilière d’un immeuble de bureaux dans l’exemple 3. Le tableau suivant illustre les valeurs absolues des 4 valeurs t observées.
Si vous vous reportez à la table correspondante d’un manuel de statistique, vous trouverez que la valeur critique t, bilatérale, pour 6 degrés de liberté et Alpha = 0,05 est 2,447. Cette valeur critique peut également être trouvée au moyen de la fonction LOI.STUDENT.INVERSE d’Excel. LOI.STUDENT.INVERSE(0,05,6) = 2,447. Dans la mesure où la valeur absolue de t (16,89) est supérieure à 1,94, l’âge est une variable significative dans l’estimation de la valeur immobilière d’un immeuble de bureaux. On peut ainsi tester la signification statistique de chacune des autres variables indépendantes. Le tableau suivant récapitule les valeurs t observées pour chaque variable indépendante.
Variable | Valeur t observée |
---|---|
Superficie utile | 4,82 |
Nombre de bureaux | 29,90 |
Nombre d’entrées | 4,72 |
Âge | 16,89 |
Toutes ces valeurs sont supérieures à 2 447 en valeur absolue. Par conséquent, toutes les variables utilisées dans l’équation de régression sont utiles pour prédire la valeur immobilière des immeubles de bureaux de ce quartier.