Python Knowledge Center: Machine Learning

Machine Learning de basis

y=f(X)

y is output/label

gelabelde data is y:

X (ook wel Features (of variabelen))

Testdata

x y

1 2

2 4

3 6

4 8

f(x)=y ==> dit is het model y=2.X met 100% goed

andrew Ng. Coursera

supervised learning

Je hebt informatie over de uitkomsten uit het verleden en die kan je betrekken in het model

Vorm 1 Regressie:

je probeert een getal te voorspellen

y=f(X)

y: windenenergieproduktie

Features of X (ML terminologie)

x :windkracht, windrichting, generatorkenmerken

Vorm2 Classificate

je probeert categorie te voorspellen.

bijv

y : Spam/Geen Spam

x : woordentellingen, email metadata

unsupervised learning

je hebt geen informatie over uitkomsten uit het verleden. toch kan je gaan voorspellen.

lineair regression

Heett een analytische oplossing.

Specifiek vs Generiek
Bij het modelleren moet je een tradeof zien te zoeken tussen specifiek en generiek

zie intuitieve classificatie :k-nearrest neighbor
binnen straal k tel het aantal buren in een kleur

als je k heel klein maakt dan dan kan je er naast zitten
als je k groot maakt dan dan kom je altijd op de grootste uit.

Testset

testset altijd opplisten in training en test set om je model te kunnen testen

hyperparameters
Bij de keuze van een model moeten daarna de juiste parameter van het model ingesteld worden (hyperparameter). Hoe kom je hier achter? door te proberen.

deze parameter weet je vaak niet van te voren dus daarom moet je dit door proberen uit te zoeken.
Hierbij moet je opletten dat je niet je test set gebruikt om de hyperparameters te valideren.
TESTSET blijf je altijd af

Beter is om een trainset op te spliten in train en validation set. en nog beter Cross validation.

Cross validation.
Splits trainset op in folds. Gebruik alle folds als validation. Hierdoor gebruik je alle train data om te valideren.. Hopelijk heb je dan de juiste hyperparameters gevonden

classificatie

precision
Recal

Python Knowledge Center

vrijdag 18 augustus 2017

Machine Learning

Machine Learning de basis

supervised learning

unsupervised learning

Testset

Geen opmerkingen:

Een reactie posten

Datums bepalen adhv begin en einddatum in Dataframe

Zoeken in deze blog