vrijdag 18 augustus 2017

BIG DATA infrastructuur

Als je pc niet meer genoeg power en geheugen heeft om je python te processen zal je over moeten stappen naar een externe server




van Jupiter notebook naar embeded data analytics in 4 stappen

Datalake
plek waar je data staat (ongestructureerd etc)

Processing framewerk( om te trainen) :
tool om te werken met grote datasets (bijv Spark). Gedistribueerd om grote datasets te trainen. Dan geen scikit module meer gebruiken maar Spark gebruiken in je python.
PraktijkL ontwikkelaar ontwikkelt op laptop met Scikit learn en zet het daarna over naar Spark
(vaak bouwt data-scientist het model en gooit het over de schutting naar de data-engineer)


Data Ingest(bijvoorbeeld tool Kafka):
tool waarmee we data binnen krijgen en opslaan in Datalake. bijv kliks van personen bij een  webshop. Events

Presentation
Data Cache : hele snelle database. waar we
Endpoint: Service. Webproces van klant vraagt aan eindpoint wat zijn recommandations.


alternatieve om de boel te versnellen wordt er een Real time stream processing voor de hele snelle transacties

De heet de  Landa architectuur

Geen opmerkingen:

Een reactie posten

Datums bepalen adhv begin en einddatum in Dataframe

Voorbeeld op losse velden  ####################################################################### # import necessary packages from datetime...