Als je pc niet meer genoeg power en geheugen heeft om je python te processen zal je over moeten stappen naar een externe server
van Jupiter notebook naar embeded data analytics in 4 stappen
Datalake
plek waar je data staat (ongestructureerd etc)
Processing framewerk( om te trainen) :
tool om te werken met grote datasets (bijv Spark). Gedistribueerd om grote datasets te trainen. Dan geen scikit module meer gebruiken maar Spark gebruiken in je python.
PraktijkL ontwikkelaar ontwikkelt op laptop met Scikit learn en zet het daarna over naar Spark
(vaak bouwt data-scientist het model en gooit het over de schutting naar de data-engineer)
Data Ingest(bijvoorbeeld tool Kafka):
tool waarmee we data binnen krijgen en opslaan in Datalake. bijv kliks van personen bij een webshop. Events
Presentation
Data Cache : hele snelle database. waar we
Endpoint: Service. Webproces van klant vraagt aan eindpoint wat zijn recommandations.
alternatieve om de boel te versnellen wordt er een Real time stream processing voor de hele snelle transacties
De heet de Landa architectuur
Abonneren op:
Reacties posten (Atom)
Datums bepalen adhv begin en einddatum in Dataframe
Voorbeeld op losse velden ####################################################################### # import necessary packages from datetime...
-
value_counts geef per waarde het aantal voorkomens in een bepaalde df_iris.species.value_counts() versicolor 50 setosa 50 v...
-
import textfiles # Open a file: file file = open('opa.txt','r') # Print it print(file.read()) # Check whether file ...
-
scikit-learn, a standard library for machine learning in Python. It describes itself like this: Machine Learning in Python •Simple and...
Geen opmerkingen:
Een reactie posten