WESP: Waarlijk Eenvoudig Statistisch Pakket

Statistiek houdt zich bezig met het verzamelen en ordenen van gegevens en het trekken van conclusies op basis hiervan. De computer wordt bij de RUG al vanaf het prille begin van de ZEBRA gebruikt om statistische berekeningen te maken. Hier zullen we ingaan op de ontwikkeling van statistische programmatuur bij de RUG, in het bijzonder het pakket WESP: Waarlijk Eenvoudig Statistisch Pakket.

De geschiedenis van de statistische programmatuur laat zien dat dit terrein een voortrekkersrol heeft gespeeld bij het toegankelijk maken van de computer voor een breed publiek. Dit komt vooral door de grote aandacht die aan gebruiksvriendelijkheid, het gemak waarmee een programma kan worden bediend, is besteed, wat kan worden verklaard uit de doelgroep, Sociale Wetenschappers die programmatuur willen gebruiken en weinig belangstelling hebben voor programmeren. De ontwikkeling van WESP bij de RUG paste hierin.

De ZEBRA

Al rond 1960 werden op de ZEBRA statistische programma's gedraaid, bijvoorbeeld voor de berekening van correlatie-coëfficiënten. De berekening van de samenhang van een tiental vragen van een psychologische test afgenomen bij enige tientallen proefpersonen kostte een kwartier. Een pc voert dezelfde berekening nu uit binnen een seconde. Even spectaculair is de verandering in het gebruiksgemak: bij de ZEBRA werden de gegevens met ponsband ingevoerd en werden de verschillende wegen in een programma gekozen door een schakelaar om te zetten. Nu kan de gebruiker menu-gestuurd gegevens invoeren en keuzen opgeven. Een andere belangrijke ontwikkeling is dat in vroeger jaren er voor elke methode een apart programma was met specifieke eisen aan de vorm waarin de data moesten worden ingevoerd, terwijl in de huidige tijd vrijwel alle statistische berekeningen met één enkel pakket, bijvoorbeeld SPSS, kunnen worden uitgevoerd. Door de grote inspanning die het kostte een programma op de ZEBRA te ontwikkelen en de beperkte geheugen- en rekencapaciteit, bleef het statistische werk op die machine uiterst beperkt.

ZAEHL

In de TR4-tijd, 1964 – 1972, heeft het in Duitsland ontwikkelde programma ZAEHL gezorgd voor een spectaculaire groei van het statistisch rekenen. Achteraf moet dit programma, dat eigenlijk slechts een tabelleer-programma was waaraan de chi² toets en de exacte toets van Fisher waren toegevoegd, als uiterst beperkt en zeer gebruiksonvriendelijk worden gekwalificeerd. Maar in die tijd -de zestiger jaren- speelde het programma een wezenlijke rol in onderzoek, in het bijzonder voor enquête-verwerking. De gebruikers van het programma kwamen vooral uit de hoek van de Sociale Wetenschappen.

WESP

De overgang in 1972 naar Control Data computers heeft een significante invloed gehad op het statistisch rekenen bij de RUG. Voor het bepalen van het beleid op dit gebied werd in 1971 een overleg tussen Rekencentrum en gebruikers, na enige tijd geformaliseerd in de LISTORgroep, gestart. Dit was een vroege vorm van inspraak van de gebruiker. Het eerste resultaat van dit overleg was de ontwikkeling van het algemene statistische pakket GRONSTA (GRONingen STAtistiek), later omgedoopt in WESP (de naam is bedacht door H.J. van Linde). Dit is het eerste -en enige- algemene statistische pakket dat ooit in Nederland is ontwikkeld. In die tijd kon dat nog, terwijl dit soort omvangrijke programmatuur nu slechts is voorbehouden aan grote, commerciële instellingen. De ontwikkeling van WESP was uiterst leerzaam en heeft (mede) geleid tot een prominente rol van de RUG bij het platform voor statistische programmatuur in Nederland, de Contactgroep Statistische Programmatuur (CSP) van de Vereniging Voor Statistiek (VVS).

De overleggroep stelde vast welke statistische methoden in het pakket moesten worden opgenomen, waarna de Rekencentrum-medewerkers L.Th. van der Weele, D.M. van der Sluis en Tj. van der Meer de stuurtaal voor het pakket definieerden en de programmering in ALGOL60, met stukken machinecode, ter hand namen. De basis voor het programma werd gevormd door een aantal ALGOL60-programma's die al voor de TR4 waren ontwikkeld, zoals programma's voor correlatie-coëfficiënten, factoranalyse, regressie, de Student t-toets en de Mann-Whitney U-toets. Veel aandacht werd besteed aan controles op correctheid van de ingevoerde gegevens en aan data-transformatie. Variabelen werden gedefinieerd door een (volg)nummer in plaats van een naam en de stuurtaal was wat primitief, maar -voor die tijd- waarlijk eenvoudig te hanteren. Er werd een uitgebreide handleiding voor gebruik van WESP gemaakt. Zeer spoedig ontstond de behoefte aan cursussen WESP. W.F. Zeelenberg heeft daarvoor het Cursusboek WESP ontwikkeld. De cursus duurde 4 dagen, waarin de opdrachten van WESP werden geleerd en veel praktische oefeningen werden gedaan. In de cursus werd WESP geoefend door onderzoeksmateriaal van de Socioloog J.L. Peschar te analyseren. Dit materiaal bevatte gegevens van leerlingen uit de laatste klas van de Lagere School waarmee de invloed van het sociaal milieu op school- en beroepsloopbanen werd geanalyseerd.

Opdracht 22 luidde.

Toets de volgende hypothesen:

a. Jongens hebben andere schoolvoorkeuren dan meisjes.

b. Er is verband tussen de opleiding van de vader en de schoolwens van zijn kind.

c. Jongens blijven vaker zitten dan meisjes.

Het materiaal paste uitstekend in de geest van die tijd, grote aandacht voor sociale aspecten van de maatschappij. De constructie van een variabele 'milieu' in een van de opdrachten leidde soms tot heftige discussies. Een cursist liep weg van de cursus omdat hij het ongepast vond zo over het milieu te praten … .

Het ponsen en corrigeren van de 'jobs' kostte veel tijd omdat de fout in de opdrachten -vrijwel altijd ging het eerst een paar keer verkeerd- pas werd ontdekt na de cyclus inlezen, verwerken, printen. De cursisten werden ook ingewijd in de computerwereld door een dia-band serie, waarin onder meer allerlei apparatuur werd getoond.

Stelling 7 bij het proefschrift van Peschar luidt: "Het onderwijs in statistische computerprogrammapakketten dient verder te worden geïntegreerd in de studieprogramma's van sociale wetenschappen." Generaties van studenten hebben in die tijd dan ook hun eerste stappen op het gebied van het statistisch rekenen gedaan met WESP.

WESP ging uit van invoer van instructies en data via ponskaarten. Bij een beetje enquête ging het om bakken met kaarten. Bij een bestand met 1000 individuen en 400 variabelen, betrof het zo'n 6000 ponskaarten. Het werd dan ook dringend aanbevolen een kenmerk in de kaart te ponsen opdat de volgorde met een sorteermachine kon worden hersteld als de bak met kaarten viel.

pponsponskaarten

TTWESP

Al snel ontstond door de opkomst van de terminal behoefte aan een interactieve versie van het pakket, waarmee op een vraag-en-antwoord manier met het programma kon worden gecommuniceerd. De data werden daarbij via de terminal ingevoerd of -bij voorkeur- eerst op een file gezet. Deze versie, TTWESP genaamd (TT stond voor Teletype Terminal), werd ontwikkeld door T. Wierstra en H.F. Vogt. Hoe primitief TTWESP (achteraf) ook was, in die tijd van 'batch-verwerking' was het een zeer moderne aanpak. Het hele RC-team heeft daarna nog gestaag gewerkt aan omzetting van het pakket in Fortran en aan uitbreiding van de mogelijkheden van WESP.

Het WESP-pakket is ook nog gebruikt bij verschillende Nederlandse universiteiten en wetenschappelijke instituten, zelfs bij de universiteit van Stuttgart, met een handleiding in het Duits.

Publiciteit

WESP is op enige congressen gepresenteerd, en wel: ECODU, Davos 1974, Compstat, Leiden 1978 en Contactgroep Statistische Programmatuur, Utrecht 1978. Een lezing over TTWESP is gegeven op ECODU, Geilo, 1976.

Ook zijn er, behalve de Nederlandse en Duitse Handleiding en het Cursusboek, de volgende publicaties over WESP verschenen.

L.Th. van der Weele: "WESP, an easy to use statistical package", ECODU-17 Proceedings, 1974, 411-417.

T. Wierstra: "TTWESP, an interactive statistical package", ECODU-21 Proceedings, 1976.

L.Th. van der Weele, D.M. van der Sluis, T. Wierstra, T. van der Meer, H.F. Vogt: "WESP, Waarlijk Eenvoudig Statistisch Pakket", MDN 3, 1978, 77-81.

Wat kon WESP?

De volgende statistische methoden waren opgenomen in het pakket.

· Frequentieverdelingen en kruistabellen, met een Chi²-toets.

· 'Momenten': gemiddelde, standaarddeviatie en coëfficiënten van scheefheid en kurtosis.

· Een-weg variantieanalyse en de toets van Kruskal-Wallis.

· Pearson, Spearman en Kendall correlatie- coëfficiënten, partiële correlatie en factoranalyse met diverse rotatie-methoden en de berekening van factorscores.

· Meervoudige lineaire regressie.

· Student t-toets voor onafhankelijke steekproeven en voor gepaarde waarnemingen.

· De Tekentoets, de Mann-Whitney U-toets en de Wilcoxon symmetrie-toets.

· De een- en tweesteekproeven toets van Kolmogorov-Smirnov.

Alle methoden hadden voorzieningen voor missing data, 'list-wise' en 'pair-wise', een aspect waaraan veel aandacht werd besteed. Een sterk punt van (TT)WESP was dat de data-matrix in groepen kon worden onderverdeeld, waarop de analyses afzonderlijk konden worden uitgevoerd.

De data-transformatie omvatte op bestandsniveau het toevoegen van individuen en variabelen aan het data-bestand en het transponeren van de data-matrix. Er kon een aselecte steekproef uit het data-bestand worden getrokken. Ook konden missing data worden vervangen door het gemiddelde van de variabele. Op een tamelijk primitieve manier konden variabelen worden getransformeerd, bijvoorbeeld de logaritme worden genomen of met een rekenkundige uitdrukking. Een reeks van variabelen kon worden gesommeerd, minimum en maximum van de reeks kon worden bepaald en het aantal keren dat de score gelijk was aan een criterium-waarde. Ook konden variabelen worden gecombineerd tot nieuwe variabelen met behulp van logische operatoren.

Hoe zag de instructie van WESP eruit?

Om een beeld te geven van het pakket, geven we voorbeelden van enige instructies.

Inlezen van data

READDATA

filenaam, NCARD=2, IDENT=1, CARDN=3

I9AI99I9ADEI

I9B BBBI9I9

< ponskaarten met scores >

END

De data waren geponst in twee kaarten (NCARD=2), met een identificatienummer in de posities 1 en 2 (IDENT=1) en een kaartnummer, 1 resp. 2, in kolom 3 (CARDN=3). Een letter betekent het begin van een veld en de maximale waarde die in de kolom mag voorkomen. I99 betekent dat de maximale waarde van de variabele 999 is, D betekent dat waarden groter dan 4 niet zijn toegestaan.

Na het inlezen krijgen de variabelen een volgnummer: 1 - 11.

Frequentie-tabellen

ONEWAYFREQ

3-9 END

Er worden frequentie-tabellen berekend voor de variabelen 3 t/m 9.

Kruistabellen

CROSSTAB

3-4, 5, 7, 8. 7, 8, 9 - 4, 5

END

Kruistabellen worden berekend voor variabele 3 met 4, 5, 7 en 8 en voor de variabelen 7, 8 en 9 met zowel 4 als 5.

Student t-toets voor onafhankelijke steekproeven

STUDENT

1, 2, 10 - 11 END

Voor elke combinatie van twee groepen waarin het bestand is verdeeld, wordt de Student t-toets berekend voor de variabelen 1, 2 en 10 t/m 11.

Correlatie-coëfficiënten, per groep en voor de groepen 'gepoold' samengenomen

CORRELATE

GROUP, POOLED

1, 2, 10 - 11 END

Voor alle groepen apart en voor de groepen tezamen genomen, wordt de correlatie-matrix voor de variabelen 1, 2, 10 en 11 uitgerekend.

Data-transformatie

MANIPULATE

filenaam

RECODE

4 = IF 4=3, 4 THEN 2.

5 = IF 5=3 THEN 2 ELSE IF 5=4, 5 THEN 3.

ADD 12 = 2, 10, 11.

END

De codes 3 en 4 worden bij variabele 4 omgezet in de code 2.

Bij variabele 5 wordt de code 3 omgezet naar 2 en de codes 4 en 5 naar 3.

De (nieuwe) variabele 12 wordt de som van de variabelen 2, 10 en 11.

Bij de data-transformatie wordt een nieuwe file gevormd, waaraan een naam moet worden gegeven.

Bemind, maar ook gehaat

Met WESP zijn door medewerkers en studenten van alle faculteiten zeer veel data geanalyseerd, in de toptijd enige honderden, meestal langdurige, jobs per dag. Met name de Sociale Wetenschappers maakten daarmee de faam van de kwantitatieve aanpak van hun discipline bij de RUG (Kouwer, Gadourek) zeer waar. De ponsmachines werden lange tijd bezet door mensen die hun omvangrijke data-bestanden ponsten, de kaartlezer deed er vele minuten over voordat de bak met kaarten was ingevoerd, de printer was zeer lang bezig met de omvangrijke uitvoer. En de wachtrij voor verwerking door de computer vermeldde veel WESP-jobs. Dit tot ongenoegen van gebruikers uit de Faculteit der Wiskunde en Natuurwetenschappen. Een van hen ontwierp dan ook een 'banner-page' met de veelzeggende tekst "KILL ALL WESP". Maar aan de andere kant, heeft WESP een wezenlijke bijdrage geleverd aan veel onderzoek. We geven een kort overzicht uit de honderden onderzoeken waarbij WESP is gebruikt. Enquêtes zijn verwerkt door Sociologen en Sociaal-geografen en er zijn psychologische test gevalideerd. Economen hebben CBS-gegevens geanalyseerd. Bij de afdeling Orthodontie is een onderzoek naar kaakgewrichtsafwijkingen bij kinderen met WESP geanalyseerd. De afdeling Longziekten heeft de statistische analyse van diverse onderzoeken bij CARA-patiënten uitgevoerd. Door de afdeling Traumatologie zijn de ongevalsgegevens verwerkt. Voor de Meldkamer van de Politie zijn analyses uitgevoerd van binnengekomen meldingen. Totaal zijn er meer dan eenhalf miljoen WESP-jobs op achtereenvolgende Control Data machines verwerkt.

Tot eind tachtiger jaren de concurrentie met het mondiale pakket SPSS, de pc en de inspanning voor conversie naar een nieuwe computer te groot werden. Bij het afscheid vertoonde de 'banner-page' een wespje dat op zijn rug lag … .

Laatst gewijzigd:04 oktober 2024 12:20

WESP: Waarlijk Eenvoudig Statistisch Pakket

Functioneel

Standaard

Volledig