Handleiding statistiek SPSS, jaar 2021-2022 PDF

Title	Handleiding statistiek SPSS, jaar 2021-2022
Course	Databeheer en statistiek voor historici
Institution	Universiteit Gent
Pages	83
File Size	6.8 MB
File Type	PDF
Total Downloads	3
Total Views	128

Preview

CLICK TO PREVIEW PDF

Summary

Tutorial hoe je moet werken met het programma SPSS, te downloaden op Athena....

Description

STATISTIEK VOOR HISTORICI INLEIDING TOT SPSS

Isabelle Devos Wouter Ryckbosch Wouter Ronsijn Christa Matthys Sofie De Veirman

Databeheer en statistiek voor historici Academiejaar 2021-2022

1

INHOUDSTAFEL

Inhoudstafel ............................................................................................................................... 2 1 |Inleiding ................................................................................................................................. 4 1.1 Werken met SPSS .............................................................................................................. 4 1.2 De Data Editor.................................................................................................................... 6 1.2.1

Data View .................................................................................................................... 7

1.2.2

Variable View .............................................................................................................. 8

1.3 De SPSS Statistics Viewer ............................................................................................. 10 1.4 Bestanden opslaan, openen en converteren ............................................................... 11 2 |Gegevens voorstellen ...................................................................................................... 12 2.1 De frequentieverdeling en het taartdiagram ............................................................. 16 2.2 Het staafdiagram ............................................................................................................. 20 2.3 Het geclusterd staafdiagram en stapeldiagram ........................................................ 22 2.4 Het lijndiagram ................................................................................................................ 27 3 |Verdelingen, centrale tendentie en spreiding ..................................................... 31 3.1 De frequentieverdelingen (bis) ...................................................................................... 32 3.2 De centrale tendentie en spreiding .............................................................................. 37 3.3 De boxplot .......................................................................................................................... 40 4 |Tijdreeksen ......................................................................................................................... 43 4.1 Het werken met tijdreeksen in SPSS .......................................................................... 43 4.2 Een tijdreeks grafisch voorstellen ................................................................................ 44 4.3 Het construeren van een index ..................................................................................... 48 4.4 Het voortschrijdend gemiddelde ................................................................................... 51 4.5 Het periodiek gemiddelde .............................................................................................. 52 4.6 De trend grafisch weergeven ......................................................................................... 55 5 |Kruistabellen & Chi²-analyse ...................................................................................... 58 5.1 De kruistabel ..................................................................................................................... 58 5.2 De nulhypothese en χ²..................................................................................................... 61 5.3 Voorwaarden voor een geldige χ²-test en Fishers exacte test ................................ 63 2

6 |Correlatie en rangcorrelatie ....................................................................................... 65 6.1 Het spreidingsdiagram ................................................................................................... 65 6.2 De correlatiecoëfficiënt ................................................................................................... 67 6.3 Partiële correlatie ............................................................................................................ 68 6.4 Rangcorrelatie................................................................................................................... 70 7 |Regressie .............................................................................................................................. 72 7.1 Grafische voorstelling ..................................................................................................... 72 7.2 De regressieanalyse ......................................................................................................... 73 7.3 Het introduceren van een time lag .............................................................................. 75 7.4 Controle op een specificatiefout .................................................................................... 77 7.5 Lineaire trend en logaritmische transformatie ......................................................... 78

3

1 | INLEIDING

1.1 Werken met SPSS SPSS, voluit IBM SPSS (Statistical Package for the Social Sciences) Statistics, is een software programma om op een toegankelijke en gebruiksvriendelijke manier een groot aantal statistische bewerkingen uit te voeren die vaak gebruikt worden in de humane en sociale wetenschappen. Ook zowat alle statistische bewerkingen, analyses of voorstellingswijzen die courant door historici gebruikt worden, zijn eenvoudig in SPSS terug te vinden. Voor het opstellen van deze handleiding maakten we gebruik van SPSS versie 27, hoewel er weinig verschil is ten opzichte van de meeste voorgaande edities. Het is wel niet raadzaam om gebruik te maken van versies lager dan SPSS 16. SPSS wordt ter beschikking gesteld via Athena, in de categorie ‘Academic’. Bij het gebruik van SPSS via Athena hapert het programma soms (bv. het programma reageert niet of het scherm wordt zwart). Het opslaan van bestanden als een ‘.zsav’-bestand in plaats van een ‘.sav’-bestand vermindert de kans op dergelijke haperingen. Indien dergelijke haperingen toch nog voorkomen, druk je op Shift-F2, en dan nogmaals op Shift-F2. Daarnaast is het ook mogelijk om SPSS op je eigen computer te installeren. Meer informatie daarover vind je in het document ‘2021_Athena_handleiding_deel2_SPSS’ op Ufora, en via https://helpdesk.ugent.be/athena/. In tegenstelling tot bij MS Office, is er bij SPSS geen mogelijkheid om de taal van het pakket aan te passen. Alle dialogen verlopen in het Engels. Wanneer SPSS opent, krijg je het volgende startvenster: een dialoogvenster met de vraag wat je wilt doen. De twee belangrijkste opties zijn: 1. het maken van een nieuwe dataset (‘New Dataset’) of 2. het openen van een bestaande dataset (recent bestand aanklikken of ‘Open another file…’).

4

1. 2.

Van zodra je een bestaande dataset hebt geopend, of ervoor hebt gekozen om een nieuwe aan te maken, verschijnen twee vensters. Het belangrijkste venster van SPSS is de ‘Data Editor’. Het is hier dat gegevens ingevoerd en bewerkingen aangebracht worden. Daarnaast verschijnt de ‘Output Viewer’ wanneer het resultaat van bepaalde handelingen, berekeningen, analyses, grafieken en tabellen in SPSS opgevraagd worden. Naast de Data Editor en de Output Viewer biedt SPSS ook nog de mogelijkheid om te werken met een ‘Syntax Editor’, waarmee je het programma opdrachten kan laten uitvoeren door middel van programmeertaal. Daarvan zal in de loop van deze inleidende cursus geen gebruik gemaakt worden.

5

1.2 De Data Editor Menubalk

Bovenaan de Data Editor vinden we de menubalk, die toegang verschaft tot verschillende menu’s. De belangrijkste zijn de volgende: • • • •

•

•

•

File: opdrachten met betrekking tot het openen, opslaan en afsluiten van bestanden in SPSS. Edit: opdrachten met betrekking tot het kopiëren en plakken van cellen in de data editor. View: biedt enkele keuzes met betrekking tot wat je in je data editor te zien wil krijgen. Data: hier vinden we bewerkingen waarmee de volledige dataset in de data editor (tijdelijk) kan worden gewijzigd. Bijvoorbeeld door het invoegen van nieuwe variabelen (insert variable), het selecteren van bepaalde delen van de dataset (select cases), het afzonderlijk behandelen van verschillende onderdelen van de dataset (split file),… Transform: geeft mogelijkheden met betrekking tot het manipuleren van afzonderlijke variabelen in de dataset. Bijvoorbeeld het uitvoeren van rekenkundige bewerkingen (compute) of het hercoderen van waarden in een bepaalde variabele (recode). Analyze: hier vinden we de mogelijkheden terug om de gegevens in onze dataset statistisch te analyseren. De gevraagde resultaten van die analyses verschijnen dan in de Output Viewer. De relevante analysetechnieken zullen uitgebreid besproken worden wanneer ze aan bod komen in de loop van de cursus. Graphs: hiermee kunnen allerlei mogelijke grafieken opgevraagd worden, die eveneens in de Output Viewer verschijnen. De optie ‘Legacy Dialogs’ biedt een arsenaal aan veel gebruikte, eenvoudig op te roepen grafieken.

6

•

Help: hier vind je niet alleen de goed uitgewerkte tutorials van SPSS, maar ook de help-bestanden met doorgaans erg nuttige informatie over de statistische mogelijkheden van het programma.

De opties ‘Utilities’, ‘Extensions’ en ‘Window’ zijn (voor deze cursus) van ondergeschikt belang. Onder de menubalk staan nog enkele handige knoppen die vooral tijdbesparend kunnen werken, waaronder bijvoorbeeld de ‘Dialog Recall’ optie: Daarmee kan je snel één van de laatst gekozen bewerkingen, grafieken of tabellen opnieuw opvragen.

1.2.1 Data View

variabele waarnemingseenheid cel

Het grootste deel van de data editor wordt in beslag genomen door het gebied waar data ingegeven kunnen worden. Gegevens worden in SPSS op grotendeels dezelfde manier ingevoerd als in een Access-tabel. Elke horizontale rij stelt een ‘waarnemingseenheid’ voor, door SPSS ‘cases’ genoemd (de ‘records’ in Access), bv. personen. Elke verticale kolom stelt dan weer een variabele (‘Variable’) voor, de soorten informatie die je over je cases hebt, bv. geslacht. Op het snijpunt van een rij en een kolom vinden we telkens een cel. Die cel bevat dan de waarde die de waarnemingseenheid (rij) aanneemt voor die specifieke variabele (kolom), bv. ‘vrouw’. Gegevens invoeren in de cellen van de data editor kan eenvoudigweg door er dubbel op te klikken of door de cel te selecteren en vervolgens enter te toetsen. Vooraleer je data kan invoeren moet je, net als bij het maken van tabellen in Access, eerst variabelen aanmaken in de ‘Variabele View’ van de Data Editor. Links onderaan het scherm kan je makkelijk wisselen tussen de Data View (in Access: de gegevensbladweergave) en Variable View (in Access: de ontwerpweergave). 7

1.2.2 Variable View

In de Variable View wordt elke variabele uit de dataset voorgesteld als een rij. De eerste rij in de Variable View komt dus overeen met de eerste kolom (variabele) uit de Data Editor, enzovoort. Aangezien het de bedoeling is om in SPSS statistische bewerkingen los te laten op je gegevens, is het raadzaam om het definiëren van je variabelen erg zorgvuldig te doen, aangezien een incorrecte of onzorgvuldige definiëring van variabelen al snel voor problemen kan zorgen. • •

•

•

•

Allereerst krijgen variabelen uiteraard een ‘Name’ toebedeeld. In tegenstelling tot wat het geval is bij Access kan je geen spaties in de naam gebruiken. Vervolgens moet het ‘Type’ variabele aangeduid worden. De meeste variabelen zullen wellicht numeriek zijn, al zal je hier en daar ook wel te maken krijgen met tekst-variabelen (in SPSS ‘String Variables’) zoals persoonsnamen, en in meer uitzonderlijke gevallen met ‘Currencies’ of ‘Dates’. Je kan het type veranderen door in de Variable View de cel ‘Type’ van de desbetreffende variabele te selecteren, en vervolgens op de knop (…) die rechts in het vak verschijnt te klikken. Daar kies je dan de gewenste optie (String, Currency, Data, enz.). De kolom ‘Width’ duidt het aantal karakters van de variabele aan. Bij een numerieke variabele staat standaard 8 aangeduid. Je kan in de ‘Width’-cel van de desbetreffende variabele het aantal gemakkelijk aanpassen door op de pijltjes te klikken. Los van het aantal karakters kan je ook het aantal ‘Decimals’ definiëren. Standaard staan bij numerieke variabelen 2 cijfers achter de komma aangeduid. Opnieuw kan je dit zelf aanpassen via de ‘Decimals’-cel. Voorts kan je ook een ‘Label’ meegeven: een langere beschrijving van de variabele, waarin je wel spaties kan gebruiken, die bijvoorbeeld bij grafieken of tabellen zal

8

•

•

•

gebruikt worden. Het label van de variabele verschijnt dus in de Output Viewer, de naam niet, die verschijnt enkel in de Data Viewer. Het gebruik van ‘Values’ kan bijzonder handig zijn wanneer je numerieke gegevens wilt groeperen, of wanneer je met nominale of ordinale gegevens werkt maar deze toch als numerieke gegevens wilt invoeren. Wanneer je op de rechterkant van de cel (…) klikt, verschijnt een menu. Zo kan je bijvoorbeeld aan het cijfer “1” het label “vrouw” meegeven en aan het cijfer “2” het label “man”. Vergeet niet op ‘add’ te klikken wanneer je een label hebt ingevoerd. De optie ‘Missing’ geeft je de mogelijkheid om met verschillende types ontbrekende data te werken. Dit is belangrijker dan het lijkt. Ontbrekende of niet ingevulde numerieke gegevens worden in de data view door SPSS standaard aangeduid met een ‘.’, ontbrekende of niet ingevulde tekstgegevens resulteren in een lege cel. Bij het maken van grafieken of tabellen of het uitvoeren van statistische bewerkingen, worden deze ‘missing values’ doorgaans genegeerd, of krijg je de keuze voorgeschoteld hoe je precies deze gegevens in rekening wilt brengen. Gecompliceerder wordt het echter wanneer je met verschillende soorten ontbrekende gegevens te maken krijgt, en je die op verschillende manieren in je analyse wilt betrekken. Zo kan je onderscheid maken tussen data die ontbreken omdat ze verloren gegaan zijn, en data die ontbreken omdat ze nooit opgesteld zijn. Bij het verwerken van een 19de-eeuwse volkstelling kan het bijvoorbeeld van groot belang zijn te weten of een bepaald antwoord niet beschikbaar is omdat het onleesbaar blijkt, dan wel omdat het niet genoteerd werd en door de vragensteller wellicht als ‘niet van toepassing’ beschouwd werd. In dergelijke gevallen is het belangrijk om in het gegevensbestand verschillende types ‘Missing’ values te definiëren. Dit doe je op een analoge manier als bij het bepalen van de ‘Values’ hierboven: je kiest een bepaalde waarde die als missing gedefinieerd wordt, en geeft die een bepaald label mee. Typisch worden waarden als ‘-1’ of ‘9999’ gebruikt om bepaalde types ontbrekende gegevens aan te duiden. Bij het uitvoeren van bewerkingen of het opmaken van tabellen en grafieken zal je dan steeds de keuze krijgen welke types ontbrekende waarden je wel en welke je niet wilt opnemen. Heel belangrijk is om het correcte type meeteenheid aan te geven bij ‘Measure’. Je hebt de keuze tussen een nominale (nominal), ordinale (ordinal) en kwantitatieve/ numerieke / kardinale variabele (scale).

De opties ‘Columns’, ‘Align’ en ‘Role’ zijn op dit moment van ondergeschikt belang. Je kan veel van de hiervoor genoemde zaken (bv. het aantal decimalen) ook eenvoudig op andere variabelen toepassen. Door in de cel op de rechtermuisknop te klikken, kan je copy en paste gebruiken - en op die manier heel wat tijd besparen. Je kan deze opties ook voor het hele bestand ineens instellen door in het menu ‘Edit’ gebruik te maken van ‘Options’ en vervolgens bij ‘Data’ de gewenste instellingen aan te duiden. Na het definiëren van je variabelen kan je opnieuw overschakelen naar de ‘Data View’ (links onderaan) van de data editor om je gegevens in te voeren. De in de ‘Variable View’ gedefinieerde variabelen zullen nu in de kolommen van de data view ingevuld staan. Je kan nu rij per rij overgaan tot het invoeren van je gegevens.

9

Helemaal onderaan de data editor, ten slotte, staat de statusbalk, waarop de bewerkingen in uitvoering verschijnen, maar waar bijvoorbeeld ook te zien valt of een bepaalde filter (via ‘Select Cases’, cf. infra), split (via ‘Split File’, cf. infra) of weging (via ‘Weight Cases’, cf. infra) actief zijn op je dataset. Het toevoegen van een nieuwe variabele gebeurt in SPSS door in de variabele view een volledige rij te selecteren (de rij waar je de variabele wilt invoegen) door er aan de linkerzijde naast te klikken, vervolgens op de rechtermuisknop te klikken en de optie ‘Insert Variabele’ te kiezen. Met de optie ‘Clear’ kan je een geselecteerde variabele opnieuw verwijderen.

1.3 De SPSS Statistics Viewer

In de SPSS viewer of ‘output viewer’ komen de resultaten van statistische analyses en opgevraagde grafieken of tabellen terecht. Het grootste deel van het scherm (de rechterzijde) is daarvoor voorzien. Telkens een nieuwe bewerking uitgevoerd wordt die nieuwe ‘output’ tot resultaat heeft, verschijnt deze hier onder elkaar in hetzelfde venster. In de linkerkolom wordt een inhoudstafel van alle output in het venster gegeven, waarmee je makkelijker het overzicht kan bewaren. De lay-out van de tabellen en grafieken in de viewer kan je steeds aanpassen door er dubbel op te klikken. Daardoor verschijnt een nieuw venster waarin bijvoorbeeld de schaalverdeling op de assen, de legende, de kleuren, titels en dergelijke meer aangepast kunnen worden (infra).

10

1.4 Bestanden opslaan, openen en converteren SPSS maakt gebruik van twee soorten bestanden. Enerzijds zijn er de datagegevens, die in een bestand met de extensie ‘.sav’ of ‘.zsav’ bewaard worden. Anderzijds zijn er de outputbestanden met de resultaten van analyses, die de extensie ‘.spv’ krijgen (bij oudere SPSS-versies is dat ‘.spo’). Je doet er bij het uitvoeren van bewerkingen goed aan steeds beide bestanden te bewaren: één met de gegevens in de dataset, en een ander met de output van de bewerkingen en analyses. Het opslaan van een bestand doe je via File > Save (as). Een reeds gemaakt bestand terug openen doe je via File > Open. Daar kies je ofwel voor ‘Data’ als je de gegevens opnieuw wenst te consulteren of voor ‘Output’ indien je de resultaten van een vorige analyse opnieuw wilt zien. Wanneer je een bestand wilt openen, kan je door het fileytpe (‘Files of type’) te veranderen ook bestanden met een andere extensie dan ‘.sav’ of ‘.spv’, zoals Excel files, openen. In het cursusonderdeel ‘databeheer’ werkten we met MS Access 2016. Access wordt meestal gebruikt voor het databankontwerp en de opslag van gegevens, terwijl SPSS de statistische analyses voor zijn rekening neemt. Het is dus zinvol om te weten hoe je de gegevens die je in Access hebt opgeslaan, kunt openen met SPSS. Rechtstreeks Accessbestanden openen in SPSS lukt evenwel niet. Daarom exporteren we de gegevens uit onze geslecteerde Access-tabel eerst naar Excel. Bestanden met de extensies .xls en .xlsx kunnen immers wel geopend worden in SPSS. Tabellen die je uit Access geëxporteerd hebt naar Excel kan je op deze manier openen in SPSS. Raadpleeg het document ‘Data exporteren uit Access’ op Ufora om te lezen hoe je gegevens uit Access kan exporteren als Excel bestand.

11

2 | GEGEVENS VOORSTELLEN

We verzamelden in het SPSS databestand ‘Gevangenen_onbewerkt.zsav’ de gegevens van meer dan 4000 gevangenen die tussen 1832 en 1876 ingeschreven werden in het gevangenisregister van Brugge. Bij hun gevangenname werd niet alleen hun naam genoteerd (hier werd enkel de voornaam overgenomen), maar ondermeer ook hun geslacht, leeftijd, lichaamslengte en het beroep dat ze op dat moment uitoefenden. Er werd ook aangegeven voor welk misdrijf ze gevangen genomen werd...