• analysis

Big Data

#timeseries #nosql #textsearch #mapreduce #spark #stream #batch

Met IoT sensor data problemen voorspellen, transacties op een veilige manier laten gebeuren of met text search intelligent informatie ophalen: data intensieve applicaties steunen op een complexe data architectuur. Je duikt diept in schema flexibility, isolation levels, Index structures, partitioning en nog veel meer zodat je gefundeerde keuzes kan maken als data architect. Je zal begrijpen dat het CAP Theoreum (Consistency, Availability and Partioning, choose 2) een sterke vereenvoudiging is, en je leert hoe je keuzes van database ontwikkelaars kan begrijpen en inschatten voor jouw applicatie.

Je slaat je data op in een relationele database, time series database of document store. We gaan aan de slag met o.a. de relationele database MySQL, de timeseries database InfluxDB en het gedistribueerde ElasticSearch, dat je zowel voor search, document store, analytics als geospatiale data kan inzetten.

Deze module bouwt ook de data lake die er voor zorgt dat de Machine & Deep learning modellen die je bouwt van data voorzien worden. Afhankelijk van de situatie bouw je een stream processing architectuur met message queue (zoals Kafka) of een batch processing met frameworks zoals Hadoop of Spark (PySpark). Je leert ook gebruik maken van o.a. AWS cloud services zodat je kan inschatten wanneer je beroep doet op de kracht van het Amazon of Azure cloud platform en wanneer je toch beter aan de slag gaat met open source componenten. In staat zijn hardware & software keuzes te maken om een Reliable, Available, Maintainable & Scalable (RAMS) data intensieve applicatie te ontwerpen is de doelstelling van deze module.