Machine Learning de basis
y=f(X)
y is output/label
gelabelde data is y:
X (ook wel Features (of variabelen))
X (ook wel Features (of variabelen))
Testdata
x y
1 2
2 4
3 6
4 8
f(x)=y ==> dit is het model y=2.X met 100% goed
andrew Ng. Coursera
supervised learning
Je hebt informatie over de uitkomsten uit het verleden en die kan je betrekken in het model
Vorm 1 Regressie:
Vorm 1 Regressie:
je probeert een getal te voorspellen
y=f(X)
y: windenenergieproduktie
Features of X (ML terminologie)
x :windkracht, windrichting, generatorkenmerken
Vorm2 Classificate
je probeert categorie te voorspellen.
bijv
y : Spam/Geen Spam
x : woordentellingen, email metadata
unsupervised learning
je hebt geen informatie over uitkomsten uit het verleden. toch kan je gaan voorspellen.
lineair regression
Heett een analytische oplossing.
Specifiek vs Generiek
Bij het modelleren moet je een tradeof zien te zoeken tussen specifiek en generiek
zie intuitieve classificatie :k-nearrest neighbor
binnen straal k tel het aantal buren in een kleur
als je k heel klein maakt dan dan kan je er naast zitten
als je k groot maakt dan dan kom je altijd op de grootste uit.
hyperparameters
Bij de keuze van een model moeten daarna de juiste parameter van het model ingesteld worden (hyperparameter). Hoe kom je hier achter? door te proberen.
deze parameter weet je vaak niet van te voren dus daarom moet je dit door proberen uit te zoeken.
Hierbij moet je opletten dat je niet je test set gebruikt om de hyperparameters te valideren.
TESTSET blijf je altijd af
Beter is om een trainset op te spliten in train en validation set. en nog beter Cross validation.
Cross validation.
Splits trainset op in folds. Gebruik alle folds als validation. Hierdoor gebruik je alle train data om te valideren.. Hopelijk heb je dan de juiste hyperparameters gevonden
classificatie
precision
Recal
lineair regression
Heett een analytische oplossing.
Specifiek vs Generiek
Bij het modelleren moet je een tradeof zien te zoeken tussen specifiek en generiek
zie intuitieve classificatie :k-nearrest neighbor
binnen straal k tel het aantal buren in een kleur
als je k heel klein maakt dan dan kan je er naast zitten
als je k groot maakt dan dan kom je altijd op de grootste uit.
Testset
testset altijd opplisten in training en test set om je model te kunnen testenhyperparameters
Bij de keuze van een model moeten daarna de juiste parameter van het model ingesteld worden (hyperparameter). Hoe kom je hier achter? door te proberen.
deze parameter weet je vaak niet van te voren dus daarom moet je dit door proberen uit te zoeken.
Hierbij moet je opletten dat je niet je test set gebruikt om de hyperparameters te valideren.
TESTSET blijf je altijd af
Beter is om een trainset op te spliten in train en validation set. en nog beter Cross validation.
Cross validation.
Splits trainset op in folds. Gebruik alle folds als validation. Hierdoor gebruik je alle train data om te valideren.. Hopelijk heb je dan de juiste hyperparameters gevonden
classificatie
precision
Recal
Geen opmerkingen:
Een reactie posten