Springen naar inhoud

Spss, factoranalyse en error


  • Log in om te kunnen reageren

#1

Karen K

    Karen K


  • 0 - 25 berichten
  • 1 berichten
  • Gebruiker

Geplaatst op 27 maart 2008 - 10:02

Hallo,

Voor mijn thesis moet ik twee vragenlijsten testen op concurrente validiteit. Ze zijn gebaseerd op dezelfde theorie en het doel is na te gaan ofdat ze hetzelfde meten.

De eerste vragenlijst bestaat uit 50 items met telkens een schaal van -1 tot 7. Deze 50 items maken volgens de theorie deel uit van 11 variabelen. De tweede vragenlijst bestaat uit 24 items met een schaal van 1 tot 5. De 24 items maken volgens de theorie uit van 8 variabelen.

Mijn promotor heeft me gezegd allereerst de items te centreren (per proefpersoon; horizontaal, per dimensie; verticaal).
Daarna moest ik een pearson correlatie doen tussen de 11 gecentreerde variabelen en de 8 gecentreerde variabelen. Dat is allemaal gelukt.

Maar daarna stelde hij dat ik de 74 (50+24) gecentreerde items in een gemeenschappelijke Factoranalyse moest steken.
Dat heb ik gedaan maar ik kreeg een error nl. bij de Correlatie matrix 'This matrix is not positive definite' en bij Total Variance Explained 'Extraction cannot be done. This extraction is skipped'.

Heeft er iemand enig idee wat ik daarmee kan aanvangen? Ik kan mijn promotor al eventjes niet bereiken...

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 27 maart 2008 - 12:01

Hoi Karen,

Ik wil er wel even naar kijken (doe maar even via een PB).

Ferry

#3

DePurpereWolf

    DePurpereWolf


  • >5k berichten
  • 9240 berichten
  • VIP

Geplaatst op 27 maart 2008 - 12:28

Hoi Ferry of Karen, als jullie er uit komen, kan een van jullie dan wel hier posten wat er mis ging?

Ik heb het gevoel dat er veel mensen zijn die SPSS gebruiken en die er van kunnen leren.

(geef mij maar SAS)

#4

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 27 maart 2008 - 13:53

Nou, het punt zit/zat in de gehanteerde methode van FA (PAF, die niet werkte, en PCA, die wel werkt). SPSS valt in dit geval niks te verwijten :D

#5

MSpace

    MSpace


  • 0 - 25 berichten
  • 2 berichten
  • Gebruiker

Geplaatst op 07 mei 2009 - 12:03

Hallo,

Ik wilde hier nog even op doorvragen, als dat mogelijk is.

Ik wilde ook een PAF uitvoeren, maar kreeg dezelfde foutmelding. Nu wordt vanuit de Universiteit om diverse redenen wel aangeraden PAF te gebruiken en niet PCA.
Voordat ik evt. toch voor PCA zou kiezen, wil ik graag weten waarom de PAF niet werkt. Voldoen mijn variabelen misschien niet aan de voorwaarden voor PAF? Welke voorwaarden zouden dat kunnen zijn?

De items uit mijn vragenlijst zijn 5-puntsschalen en het zijn er zo'n 20.

Ik hoop dat iemand me uitleg kan geven. I.i.g. erg bedankt!

M.v.g. MSpace

#6

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 29 december 2010 - 13:34

Dit komt een heel pak later, maar ik zit met hetzelfde probleem en de voorgestelde oplossing is niet echt informatief. PCA laat inderdaad toe de analyses uit te voeren, maar er komt wel een foutmelding dat de gevonden factoroplossing met zorg moet ge´nterpreteerd worden. Dus PCA gebruiken in plaats van PAF, is niet echt hulpzaam om het probleem te begrijpen.

Na in wat boeken gedoken te hebben, heb ik factor analyse meer op een beredeneerde manier proberen uit te voeren, in plaats van het trial and error proberen. Hierin staat aangegeven dat op basis van de correlatiematrix je items die consistent te laag correleren (vb. tussen -0.2 en 0.2 voor alle correlaties met een bepaald item) en items die te hoog correleren (hoger dan 0.9) best kan uitsluiten. Dit heb ik gedaan, maar ik krijg vervolgens nog steeds de foutmelding.

Eerder had ik wel al eens enkel items uitgesloten die hoog correleren, en de laag correlerende items er wel nog ingehouden, en toen kreeg ik geen foutmelding meer.

Ik ben momenteel dus verward hoe de foutmelding tot stand komt en hoe ik een juiste oplossing kan bekomen zonder blindweg analyses te doen. Ik heb in totaal 59 items, waarbij ik wil nagaan of dit items kunnen gereduceerd worden tot een aantal betekenisvolle factoren. Initiaal sluit ik ongeveer 16 items uit. Het aantal subjecten in de dataset is ongeveer 2500. Is het omdat ik zoveel items uitsluit dat er problemen komen met de factoroplossing, terwijl te veel items dan ook weer problemen geven.

Als iemand me hier in wegwijs kan maken, zou dat super zijn. Alvast bedankt!!

#7

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 29 december 2010 - 13:40

Beste Imengine,

Uiteraard zijn er bij dit soort onderwerpen/problemen zelfde standaardoplossingen. Ik denk dat het zou helpen als je de syntax en de uitvoer hier zou kunnen plaatsen. Dan is het gemakkelijker te bekijken wat er gebeurt en wat de foutmeldingen precies zijn.

Een andere mogelijkheid is het bekijken van het bestand, maar dit is denk ik iets van later zorg.

Groeten
Ferry

#8

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 29 december 2010 - 13:58

Hoi ferry, eerst en vooral bedankt voor je snelle reactie!

Hieronder deel van de SPSS-syntax (ingekort met betekenisloze variabelenamen), in dit geval gewoon de PCA die ik gebruik (heb ook PAF eens uitgeprobeerd, door ULS te vervangen door PAF, maar die loopt dus helemaal niet). Zelf beperk ik me dus momenteel tot PCA, moet nog eens goed bekijken wat het verschil tussen PCA en PAF precies inhoudt en of dit onderscheid voor mij wel relevant is (ik gebruik de factor analyse nl. niet om schalen of vragenlijsten te valideren, het is eerder exploratief).

FACTOR
/VARIABLES=Variable01 Variable02 Variable03...
/MISSING LISTWISE
/ANALYSIS Variable01 Variable02 Variable03...
/PRINT INITIAL CORRELATION SIG EXTRACTION ROTATION FSCORE
/FORMAT SORT
/PLOT EIGEN ROTATION
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(100)
/ROTATION VARIMAX.


Voor de correlatiematrix krijg ik volgende foutmeldingen:
"This matrix is not positive definite"
"This matrix is ill-conditioned and may produced invalid results"

Voor de communaliteiten krijg ik volgende foutmeldingen:
"Squared multiple correlations cannot be found. The initial estimate of each communality is the maximum absolute correlation between the variable and many other variable in the analysis."
"One or more communalitiy estimates greater than 1 were encountered during iterations. The resulting solution should be interpreted with caution."


Alhoewel ik dus wel een factoroplossing verkrijg, sta ik een beetje skeptisch ten opzichte van het gebruik ervan, mede door mijn gebrek aan kennis met betrekking tot factor analyse en hoe de eigenschappen van matrix en communaliteiten de uiteindelijke factoroplossing hebben be´nvloed.

#9

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 30 december 2010 - 08:26

Hoi Imengine,

Ok, bedankt voor de informatie. Dat maakt het een stuk inzichtelijker. Zo te zien is er verder niks mis met je aanpak (afgaand op je syntax). Volgens mij ligt het daar dus niet aan. Dan maar wat andere schoten in de lucht die misschien helpen.

1. Het kan zijn dat het probleem ontstaat doordat 59 items worden toegevoegd. Als er een groot aantal is dat weinig met elkaar te maken heeft en een eigen dimensie meet, kan het zijn dat SPSS moeite heeft te convergeren. Op basis van de uitkomsten van de analyses die je nu hebt gedaan kun je zien of er zulke items zijn (die geen dimensie vormen met andere items). Deze kun je uit de analyses laten en vervolgens nog een keer de factoranalyse draaien. Zo kun je al explorerend bij een steeds betere oplossing komen.

2. De dataset bestaat uit 2500 respondenten. Hebben alle respondenten ook waardes op alle items? Of is er sprake van nonrespons op bepaalde items. Zo ja, dan kan het zijn dat de uiteindelijke dataset veel kleiner is dan de 2500 waarmee je bent begonnen. Dan is het een optie de slecht scorende items weg te laten.

3. Zijn alle items gemeten op hetzelfde meetniveau?

4. Heb je andere programma's dan SPSS tot je beschikking waarmee je de analyses kunt uitvoeren?

Groeten
Ferry

#10

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 03 januari 2011 - 10:42

Eerst en vooral mijn beste wensen voor het nieuwe jaar! ;) hopelijk heb je het goed in kunnen zetten. Bij deze ook bedankt voor je snelle reacties. Verder... wat betreft de factor analyse:

1. Het kan zijn dat het probleem ontstaat doordat 59 items worden toegevoegd. Als er een groot aantal is dat weinig met elkaar te maken heeft en een eigen dimensie meet, kan het zijn dat SPSS moeite heeft te convergeren. Op basis van de uitkomsten van de analyses die je nu hebt gedaan kun je zien of er zulke items zijn (die geen dimensie vormen met andere items). Deze kun je uit de analyses laten en vervolgens nog een keer de factoranalyse draaien. Zo kun je al explorerend bij een steeds betere oplossing komen.

Ik heb inderdaad opgemerkt dat dit het geval was, maar probleem bleek nog steeds. Ook heb ik items eruit gehaald die te hoog correleren (> 0.90). Ik denk dat er dan ongeveer 15 items wegvallen, maar het probleem bleef nog steeds.

2. De dataset bestaat uit 2500 respondenten. Hebben alle respondenten ook waardes op alle items? Of is er sprake van nonrespons op bepaalde items. Zo ja, dan kan het zijn dat de uiteindelijke dataset veel kleiner is dan de 2500 waarmee je bent begonnen. Dan is het een optie de slecht scorende items weg te laten.

Het is inderdaad wel zo dat niet alle respondenten waarden hebben op alle items. Nonrespons op bepaalde items bestaat echter niet. Over het algemeen varieert het aantal missende waarden tussen 50 en 400, er zijn echter ook items die een ongeveer 1000-1200 missende waarden hebben, dus ongeveer 1700 overblijvende waarden. Zou dit nog voldoende zijn? Of kan dit eventueel het probleem verklaren?

3. Zijn alle items gemeten op hetzelfde meetniveau?

Ze zijn allemaal ordinaal, maar het is wel zo dat er ook "data-variabelen" inzitten (met tijdsnotatie hh:mm) en dat de schalen wel verschillen. Die datavariabelen zou ik eventueel nog kunnen converteren. Zal de data-variabelen er eens tussenuit halen om te kijken of dit het probleem misschien verhelpt.

4. Heb je andere programma's dan SPSS tot je beschikking waarmee je de analyses kunt uitvoeren?

Ik beschik nog over Matlab, R en Stata. Met Stata heb ik wel nog nooit gewerkt.


Bedankt voor je vragen, het helpt me alleszins al om verder na te denken over mogelijke problemen bij de data.

#11

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 03 januari 2011 - 16:21

Als ik alle "time/date-variabelen" eruit haal lost het probleem zich op. Dit zijn er echter toch redelijk wat en reduceert het aantal items tot 33, terwijl ik opmerk dat er uit die 33 items ook nog redelijk wat zouden moeten wegvallen (vb. items die dubbel laden of factors die slechts uit 2 items bestaan).

Als ik gewoon puur op de correlaties afga, dan bekom ik 37 items na exclusies, maar hier zitten dus nog wel heel deel date-variabelen in en is er het probleem van de communaliteiten en het niet vinden van bepaalde gekwadrateerde correlaties.

Ik zal eens proberen te kijken of het probleem zich nog voordoet na conversie van de date-variabelen aangezien er in deze variabelen toch ook nog nuttige informatie zit naar de factoroplossing toe en ik toch wil proberen om die mee in de analyse te betrekken.

Veranderd door Imengine, 03 januari 2011 - 16:21


#12

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 03 januari 2011 - 21:29

Ook nog even de beste wensen.

En, het lijkt erop dat het de goede kant opgaat met de analyses?

Nog wel een vraag: die missende waarden zijn dat allemaal dezelfde respondenten? Zo ja, dan vallen die gewoon uit de analyses. Zo nee, dan verkleint je totale set enorm (stel dat bij 1 variabele 100 mensen missen en bij de volgende variabele 100 andere, dan zijn er al 200 totale missende waarden).

Succes!

#13

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 05 januari 2011 - 09:55

Heel hard bedankt voor je hulp! Ik denk dat ik er uit ben wat betreft het probleem. Het heeft alleszins te maken met enkele variabelen die ik zelf berekend had uit een combinatie van twee andere items. Alhoewel het maximaal aantal missende waarden op 1200 lag, en er nog andere items zijn die bijvoorbeeld 1100 missende waarden hebben, heeft het wegnemen van deze variabelen als gevolg dat er in de correlatiematrix geen foutmelding meer voorkomt. Zelfs als ik alle items uit de oorspronkelijke dataset in de analyse stop en de zelfberekende variabelen eruit haal, doet het probleem zich niet voor en krijg ik enkel het probleem van de communaliteiten (wat normaal is gezien er storende items inzitten).

Verder heb ik nog 1 algemeen vraagje wat betreft FA. Wat is eigenlijke de meest gangbare manier om FA te doen. Werkwijze die ik nu hanteer:
  • correlatiematrix inspecteren: items >0.9 eruithalen en items die geen enkele correlatie >=.3 hebben (indien er maar 1 enkele .30 correlatie voorkomt kan het ook zijn dat ik het item weglaat).
  • ik verkrijg dan ongeroteerde factoroplossing en geroteerde versie via VARIMAX (maar in principe zou het wel kunnen dat factoren nog gecorreleerd zijn, dus misschien hier toch ook een oblieke rotatie testen)
  • SPSS geeft zelf het aantal factoren aan op basis van eigenwaarden >=1
  • ik inspecteer de geroteerde versie op factoren waar slechts 1, 2 of 3 items op laden en verwijder eventueel deze items (richtlijn lading van 0.30)
  • nieuwe factoroplossing
  • eventueel items excluderen die op meer dan 1 factor laden
  • uiteindelijke factoroplossing

Nu mijn vragen:
Is het verplicht van items die op meer dan 1 factor laden te verwijderen? Waarom is het beter dit te doen of waarom niet?
Is het goed van af te gaan op de oplossing van SPSS, of kan ik best de oplossing bekijken, beslissen over het aantal factoren dat mij de best interpreteerbare oplossing lijkt, en vervolgens de analyse opnieuw uitvoeren, maar deze keer a-priori het aantal factoren aangegeven

Vb. van de code dan als ik bijvoorbeeld 3 sterke factoren zie terugkomen

FACTOR
/VARIABLES=...
/MISSING LISTWISE
/ANALYSIS ...
/PRINT INITIAL CORRELATION SIG EXTRACTION ROTATION
/FORMAT SORT
/PLOT EIGEN ROTATION
/CRITERIA FACTORS(3) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(100)
/ROTATION VARIMAX.


Alleszins al bedankt. Ik kan nu sowieso verder. Het enige probleem dat ik nu dus ondervind is dat het geen straight forward analyse-procedure is, met naar mijn aanvoelen een relatief sterke subjectieve component die ik toch zoveel mogelijk wil uitsluiten. Vandaar dus mijn vraag nog naar een soort "stappenplan". Maar goed, ik kan weer verder ;)

#14

ferry

    ferry


  • >250 berichten
  • 954 berichten
  • VIP

Geplaatst op 05 januari 2011 - 10:36

Ah, dat klinkt allemaal erg goed!

Eens kijken. De FA die je hier gebruikt is "explorerend", wat wil zeggen dat je gaandeweg tot je factoren komt. Het is ook mogelijk een "confirmerende" FA te doen. In dat geval bepaal je eerst de factoren (op basis van theoretische veronderstellingen) en toetst deze vervolgens. Het is gebruikelijk daarvoor een programma als LISREL te gebruiken.

Het weglaten van een item dat op 2 dimensies scoort heeft ermee te maken dat je ervoor wilt zorgen dat de gevonden dimensies zo onafhankelijk mogelijk van elkaar zijn. Als een item op 2 dimensies laadt, is het een kenmerk van beide factoren en dat wil je voorkomen. De gehanteerde rotatiemethode kan daarbij uiteraard verschil maken.

Er zit inderdaad een subjectief element in FA. SPSS vertelt je niet wat de inhoudelijke interpretatie is van de gevonden dimensies. Als een item of dimensie niet inhoudelijk te interpreteren is, heeft het vervolgens weinig zin daar iets mee te doen. Wat je kunt doen is vooraf een idee te hebben over welke items een dimensie vormen en dan bekijken of het overeenkomt met de data. Dat is niet toetsend, maar wel meer gestuurd.

#15

Imengine

    Imengine


  • >25 berichten
  • 85 berichten
  • Ervaren gebruiker

Geplaatst op 05 januari 2011 - 10:37

OkÚ bedankt, er lijkt me inderdaad interpretatie van de factoren mogelijk. Toch zeker voor de eerste 3 factoren die geŰxtraheerd worden, komt dit redelijk sterk naar voren en vind ik het ook relatief "betrouwbaar" gezien de items niet uit 1 en dezelfde vragenlijst komen.

----

Verder toch nog even een extra vraag. Bijvoorbeeld: visueel gezien op de scree plot, lijkt 5 factoren een goede keuze. Deze 5 factoren verklaren ongeveer 50% van de variantie in de data. Dit lijkt me echter weinig, dus toch beter van meerdere factoren op te nemen.

Vanaf welk percentage kan je de proportie verklaarde variantie als voldoende beschouwen? Nog eens bedankt voor de tijd die je hebt gestopt in het beantwoorden van de vragen ;) ik weet dat het er nogal veel zijn.

Veranderd door Imengine, 05 januari 2011 - 10:40






0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures