powered by

  • analysis

Big Data

#timeseries #nosql #textsearch #mapreduce #spark #stream #batch #cloud

Tools:

Elasticsearch, Kafka, InfluxDB, AWS, MySQL, PySpark

Met IoT sensor data problemen voorspellen, transacties op een veilige manier laten gebeuren of met text search intelligent informatie ophalen: data intensieve applicaties steunen op een complexe data architectuur! Je duikt diept in schema flexibility, isolation levels, index structures, partitioning en nog veel meer zodat je gefundeerde keuzes kan maken als data architect. Je zal begrijpen dat het CAP Theoreum (Consistency, Availability and Partioning, choose 2) een sterke vereenvoudiging is. Je leert hoe je (architecturale) keuzes van databaseontwikkelaars kan doorgronden en hoe je deze kan gebruiken voor jouw applicatie.

Je slaat je data op in een relationele database, time series database of document store. We gaan aan de slag met o.a. de relationele database MySQL, de time series database InfluxDB en het gedistribueerde Elasticsearch, dat je zowel voor search, document store, analytics als geospatiale data kan inzetten. Steevast werken we met Docker, dit is nu eenmaal de snelste en populairste containertechnolgie om met complexe (Big Data) softwarearchitecturen aan de slag te gaan!

Deze uitdagende module bouwt eveneens de data lake die ervoor zorgt dat de machine & deep learning modellen die je bouwt van data voorzien worden. Afhankelijk van de situatie bouw je een stream processing architectuur met een message queue (zoals Apache Kafka) of een batch processing met frameworks zoals Apache Hadoop of Apache Spark (PySpark). Je leert ook gebruik maken van o.a. AWS cloud services zodat je kan inschatten wanneer je beroep doet op de kracht van het Amazon of Azure cloud platform en wanneer je toch beter aan de slag gaat met open source componenten. In staat zijn hardware & software keuzes te maken om een Reliable, Available, Maintainable & Scalable (RAMS) data intensieve applicatie te ontwerpen is de doelstelling van deze module.