Springen naar inhoud

linear regression model


  • Log in om te kunnen reageren

#1

Pierre123

    Pierre123


  • 0 - 25 berichten
  • 2 berichten
  • Gebruiker

Geplaatst op 02 april 2014 - 19:59

Hoi,

Ik ben bezig om met een calibratie dataset een model te maken welke een eigenschap kan voorspellen. Nu heb ik verschillende soorten independent variables gebruikt om 1 dependent te voorspellen. Ik heb nu dus meerdere modellen.

Als ik ijk naar de R squared van deze modellen zie ik lage R squares dus 0.16 of 0.05 maar ook hoge 0.5 tot 0.6. Nu verwacht ik dat de modellen met een hoge R squared beter voorspellen maar mijn data doet anders vermoeden.

De Root-mean-square Error van de modellen beschrijft het verschil tussen de waargenomen hoeveelheid en de voorspelde hoeveelheid. Nu zie ik dat modellen met een hoge R squared ook een hoge RMSE hebben en dus een slechtere voorspelling.

Wie kan mij dit uitleggen?

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

paac

    paac


  • >250 berichten
  • 271 berichten
  • Ervaren gebruiker

Geplaatst op 02 april 2014 - 21:51

Dus je hebt meerdere "y = ax + b" modellen en niet één "y = ax + bz + ... + c" (MLR) model?

Verder kan het liggen aan de range van je x-values.
Als van model 1 de waarden tussen de 1 en 5 liggen en van model 2 de waarden tussen 10 en 50, zal bij een gelijke r² de RMSE waarschijnlijk hoger zijn bij model 2.

Misschien kun je kijken naar wat je RMSE gedeeld door je range("x-max" - "x-min") doet en of dit ook grote verschillen geeft.

Veranderd door paac, 02 april 2014 - 21:55

Plan? I don't need a plan, just a goal. The rest will follow on its own.
Clever waste of time: Level 31


#3

Pierre123

    Pierre123


  • 0 - 25 berichten
  • 2 berichten
  • Gebruiker

Geplaatst op 03 april 2014 - 08:36

Hoi Paac,

Ik heb inderdaad meerdere modellen "Ypredicted = ax + b ". Deze modellen zijn allemaal opgebouwd uit calibratiedata Yobserved. De waarde die voorspeld moet worden is elke keer hetzelfde alleen de coefficienten kunnen verschillend zijn doordat de modellen gebruik maken van verschillende independent variables. Ik kijk eigenlijk welke independent variables het beste Y voorspellen. De RMSE's zijn dus gelijk al te vergelijken omdat ze hetzelfde voorspellen en dus is de range ook steeds hetzelfde. Het enige wat ik dus niet snap is dat waarom in dit geval de R-squared hoog is en dus in mijn verwachting een betere voorspelling geven maar uiteindelijk de RMSE ook hoog is waardoor de voorspelling juist slecht is.

Bedankt!

#4

paac

    paac


  • >250 berichten
  • 271 berichten
  • Ervaren gebruiker

Geplaatst op 03 april 2014 - 09:03

Misschien kun je dan nog kijken of er grote afwijkingen zijn tussen je "Ypredicted - YReference" waarden.
Outliers die hierin voorkomen kunnen een aardige invloed hebben op je RMSE.

Ook kan het zijn dat er een non-lineariteit in je data zit, bv een curve waardoor je r² rond de 0.6 ligt, maar er wel een hogere RMSE ontstaat.

Plan? I don't need a plan, just a goal. The rest will follow on its own.
Clever waste of time: Level 31






0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures