Springen naar inhoud

Welk type voorspellend model gebruiken met deze data?


  • Log in om te kunnen reageren

#1

Masioni

    Masioni


  • 0 - 25 berichten
  • 1 berichten
  • Gebruiker

Geplaatst op 01 april 2014 - 13:03

Momenteel ben ik bezig met een onderzoek naar het maken van een voorspellend model voor een onverwachte toename van gebruikers op webservices nav online media aandacht. Bijvoorbeeld op (social)media sites 'ING saldo klopt niet' berichten -> meer ING klanten die inloggen op hun bankieren app om te kijken of zij er ook last van hebben.

Voor dit onderzoek heb ik twee als onafhankelijk variabelen drie datasets; alle relevante berichten uit Twitter mbt de webservice storingen van afgelopen jaar, idem voor Facebook en idem voor de grote online nieuwssites. De berichten staan hier in met timestamp (nauwkeurigheid van een minuut).

Als afhankelijke variabele heb ik een dataset met het aantal mensen dat inlogt op de webservice. Deze heeft een nauwkeurigheid van een half uur en is ook van afgelopen jaar.

De onafhankelijke variabele datasets wil ik omvormen naar datasets met een growthrate van het aantal berichten per 10 minuten, dat is een betere variabele dan alleen het aantal berichten per uur.
De afhankelijke variabele database pas ik aan door van de inlog aantallen de verwachte aantallen +10% af te halen. Zodoende is het merendeel van de database dus 0, en maar op een paar momenten daadwerkelijk een getal te zien. Dit getal is dan het aantal mensen meer dat inlogt dan verwacht op een bepaald moment.

De vraag is nu welk model ik hiervoor moet gebruiken. De moeilijkheden zijn:
-Het effect heeft een vertraging. Eerst berichten in media, 40 minuten (bijv.) later pas toename in gebruikers. Er moet dus een time-lag in.
-Het model moet alleen een voorspelling doen wanneer er een growth rate is van bijvoorbeeld 10+. Op andere momenten moet hij 0 voorspellen.
-Het model zou eigenlijk zijn voorspelde extra toename aan gebruikers een tijdje moeten vasthouden, aangezien de growth rate op een gegeven moment stopt, maar de berichten natuurlijk nog wel in media staan voor langere tijd. (dus hoogste punt van output moet bijv 3 uur lang als uitkomst blijven gelden)
-Dataset ene is per 10 minuten, ander per 30 minuten. (dit is eventueel aan te passen door de ander op te schalen)
-Output mag ordinaal zijn (dan deel ik het aantal mensen dat inlogt in in klasses) of continue.

Een multiple regression model lukt (volgens mij) niet met dergelijke data. Hooguit wanneer ik heel veel assumpties doe, maar dat probeer ik natuurlijk te voorkomen.

Kan SPSS uberhaupt een dergelijk iets, of moet ik naar een heel andere oplossing zoeken? Zeer geavanceerde modellen probeer ik te vermijden aangezien het toegepast moet gaan worden in een bedrijf, en het daarvoor beter is om iets te begrijpen dat makkelijk te interpreteren is.

Hartelijk dank alvast!

Veranderd door Masioni, 01 april 2014 - 13:28


Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

Saffron

    Saffron


  • >250 berichten
  • 457 berichten
  • Minicursusauteur

Geplaatst op 01 april 2014 - 21:45

Ik zou me niet beperken tot SPSS. Je wilt immers een model dat ook goed is en niet alleen makkelijk interpreteerbaar. Met dit soort time series en lags kom je snel in de Time-lagged models, autoregressie, vector autoregressie modellen, Granger models (sommige hiervan kunnen overigens wel in SPSS).
Waarom wil je eigenlijk die transformatie doen voor je afhankelijke variabele? Waarom dat niet ook gewoon een echte time serie laten zijn? Want hoe nauwkeurig zijn de 'te verwachten aantallen' ? Daar introduceer je misschien wel meer error mee.





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures