R squared en R : interprétation et calcul

R carré (R2) est une mesure d’erreur statistique particulièrement utilisée pour la mesure de la qualité des régressions linéaires. En programmation R , il peut être calculé en faisant appel à une fonction simple.

Pourquoi R2 en R est-il important ?

R carré est une mesure statistique qui mesure la qualité de l’ajustement d’un modèle de régression linéaire aux données. Il accepte des valeurs entre 0 et 1, et constitue une mesure centrale pour la qualité des modèles de régression.

Une interprétation de R carré indique la densité des données observées sur une ligne de régression calculée. Dans ce cas, plus la valeur de R carré est élevée, plus le modèle interprète bien les données. Une valeur de R carré plus basse démontre un ajustement inapproprié du modèle.

Conseil

Avec R, vous pouvez programmer une large gamme d’applications différentes. Si vous souhaitez héberger l’une d’entre elles, disposer de votre propre hébergement Web est la solution. Chez IONOS, vous pouvez louer un hébergement Web adapté à vos exigences individuelles grâce à plusieurs tarifs.

Le R carré en R et la régression linéaire

R carré en R est souvent utilisé dans le contexte de la régression linéaire. R étant un langage de programmation souvent employé dans le domaine des statistiques, il n’est pas étonnant que diverses fonctions R permettent d’aider au calcul :

x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)
model <- lm(y ~ x)
R

Dans l’exemple de code ci-dessus, dans un premier temps, deux vecteurs R nommés x et y sont créés, qui contiennent les ensembles de données servant à l’exécution de la régression linéaire. Dans ce cas, la variable dépendante est la variable y. Le modèle de régression est ensuite calculé avec la fonction R « lm() » et enregistré dans la variable model.

Calculate R-squared in R : calculer R2 en R

La valeur de R2 en R peut être obtenue à l’aide d’une fonction. Pour ce faire, vous n’avez besoin d’aucune connaissance mathématique approfondie, mais seulement de savoir comment utiliser la bonne fonction. C’est même un jeu d’enfant lorsque vous avez déjà les bases de la programmation.

La fonction qui peut être utilisée pour calculer la mesure statistique s’appelle « summary() ». Comme son nom l’indique, elle récapitule l’analyse de régression, y compris la valeur de R carré. L’exemple de code suivant, qui s’appuie sur la régression linéaire déjà calculée, illustre l’utilisation de la fonction « summary() » :

# Appeler la valeur de R carré
summary(model)$r.squared
R

Avec ce code, vous pouvez extraire la valeur de R carré du modèle de régression linéaire lm_model. La valeur de R carré indique dans quelle mesure le modèle interprète correctement la variance dans la variable dépendante y, en se basant sur la variable indépendante x.

Dans l’exemple de code ci-dessus, la fonction « summary() » est utilisée avec un modèle de régression déjà calculé. Simultanément, l’opérateur R « $ » est utilisé afin d’afficher uniquement la valeur de R carré parmi les valeurs qui retournent l’appel de la fonction. Dans notre exemple, la valeur est de 0,6.

Conseil

Vous souhaitez plonger plus profondément dans l’univers de la programmation R ? Des articles de notre guide vous y aident :

R-squared in R : interprétation de la valeur

Une fois la valeur de R carré déterminée, il reste à savoir comment interpréter le résultat. Pour ce faire, vous devez trouver l’intervalle spécifique qui peut accepter la valeur. Comme indiqué précédemment, la plage de valeurs de la valeur de R2 se situe entre 0 et 1.

  • 0 (aucun ajustement) : une valeur de R carré de 0 signifie que le modèle n’est globalement pas adapté aux données. Dans ce cas, il n’existe aucune relation linéaire entre les variables recherchées.
  • 1 (ajustement parfait) : une valeur de R carré de 1 indique que toutes les observations sont parfaitement adaptées à la ligne de régression. C’est extrêmement rare et peut parfois indiquer un surajustement.
  • 0,7 à 0,9 (bon ajustement) : une valeur de R carré dans cet intervalle indique que le modèle est très probablement suffisamment bien décrit par les données.
  • 0,5 à 0,7 (ajustement acceptable) : une valeur de R carré située dans la plage de 0,5 à 0,7 est acceptable, mais indique toutefois qu’il reste une marge de progression. Le modèle correspondant peut donc être encore amélioré
  • Moins de 0,5 (ajustement inapproprié) : une valeur de R carré inférieure à 0,5 indique que le modèle calculé ne décrit pas suffisamment précisément les données sous-jacentes. Dans ce cas, le modèle doit impérativement être ajusté afin de recevoir des résultats pertinents.
Note

Une valeur de R carré supérieure ne suffit pas à elle seule à juger de la qualité de votre modèle. D’autres facteurs, comme la validation du modèle, l’analyse des résidus et l’ajustement aux exigences spécifiques des données, doivent également être respectés dans le cadre de la détermination de la qualité d’un modèle de régression. La fonction « summary() » déjà présentée ci-dessus fournit quelques indicateurs supplémentaires que vous pouvez invoquer lors de l’évaluation.

Cet article vous a-t-il été utile ?
Page top