vrijdag 18 mei 2018

statistiek

Bias: onzuiverheid

gemmiddelde vs mediaan (middelste waarde in een gesorteerde gegevensset)

standdarddeviatie= geeft spreiding aan in een gegevensset. de gemiddelde afstand van de gegevens tov het gemiddelde

percentiel van een score
 is het percentage waarden in de gegevensset dat onder deze score ligt. Bijv jouw score ligt op het  90% percentiel dwz dat 90% vd kandidaten lager scoorde dan jij

Standaardscore (Z-score):
geeft het aantal std deviaties boven of onder het gemiddelde. handige manier om resultaten in juiste verhouding te presenteren.

Verdeling/distriubtie waarin niet alleen alle mogelijke waarden vd gegevensset worden weergegeven maar ook hoe vaak elke waarde voorkomt.

Normale verdeling. Bekende verdeling, gebaseerd op continue numerieke gegevens zonder vaste stappen of sprongen.


Foutmarge
geeft maximaal te verwachten afwijking aan in vergelijking met een onderzoek van de gehele populatie. Meestal in percenten. dit heeft niets te maken met echte fouten, je krijgt altijd een foutmarge , als je minder dan de een complete populatie onderzoekt, ook al voer je het perfect statistisch uit

Parameter:
statistiek wordt  vaak gebruikt om een parameter van een populatie te schatten opbv een onderzochte steekproef, waarna je iets probeert te zeggen over de overeenkomstige waarde van de gehele populatie


Betrouwbaarheidsinterval: statistisch resultaat , bijv een gemiddelde of een percentage, waarbij je foutmarge optelt en aftrekt. Verzameling waarden waar een bepaalde populatieparameter zeer waarschijnlijk binnen valt. 

Geen opmerkingen:

Een reactie posten

Datums bepalen adhv begin en einddatum in Dataframe

Voorbeeld op losse velden  ####################################################################### # import necessary packages from datetime...