Big Data pour le développement

Big Data pour le développement

Contexte du cours

introduction

Dans le cadre du pilier renforcement des capacités du projet Big Data for Development, AIMS-NEI a conçu un programme de formation basé sur le Big Data for Development (BD4D-SCP) enseigné sur l'ensemble du réseau AIMN-NEI, d'abord au Rwanda, maintenant au Sénégal , et bientôt au Cameroun.

Le cours s'adresse aux personnes passionnées par la science des données en général et plus particulièrement dans l'analyse et le traitement des mégadonnées, ayant au moins quatre ans d'études de premier cycle ou au moins deux à trois ans d'expérience en tant que professionnel de la statistique ou tout autre sujet lié à la science des données.

Un certain nombre de formations à court terme sont en cours pour atteindre les objectifs de notre projet BD4D d'augmenter le nombre d'utilisateurs de données scientifiques en Afrique et de fournir une plate-forme permettant aux praticiens d'interagir.

Toujours dans le cadre du renforcement des capacités, l'AIMS-NEI organisera le premier atelier de formation pour les cadres supérieurs, intitulé: Exploiter la puissance du Big Data (LPBD). L'objectif de cet atelier est de faire découvrir aux dirigeants l'ère du Big Data, en démontrant comment ce phénomène bouleverse les entreprises traditionnelles et ouvre la porte à de nouveaux produits et services.

Information pour andidates

Processus de sélection

Aperçu du cours

Les ensembles de données deviennent de plus en plus gros au fur et à mesure que la population mondiale augmente et que les choses deviennent de plus en plus connectées. Les logiciels et techniques de traitement de données traditionnels ne peuvent pas gérer ces ensembles de données à grande échelle. Ce cours enseigne les bases du traitement d'ensembles de données à grande échelle à l'aide de Python.

En outre, le cours enseigne également comment effectuer des tâches informatiques courantes telles que la gestion des données et la création de modèles d'apprentissage automatique avec Python. Ce cours adopte une approche pratique pour doter les participants des outils les plus essentiels en temps opportun.

Ce cours met l'accent sur l'apprentissage lié à la pratique, en tant que tel, il comprend de nombreux exercices pour donner aux participants suffisamment de temps pour s'exercer

Approcher

Ce cours adopte une approche pratique pour doter les participants des outils les plus essentiels en temps opportun. Les cours commencent par les principes de base de Python et se concentrent principalement sur les structures de données, puis se déplacent rapidement vers les principales bibliothèques pour la science des données en Python.

Ensuite, le cours passe au traitement du Big Data en fournissant d'abord de brefs concepts théoriques sur le sujet, puis enseigne Apache Spark, un outil avancé pour le traitement de grands ensembles de données. Ensuite, il propose des conférences d'introduction à l'apprentissage automatique avant de passer à une explication détaillée de la façon de construire ces algorithmes en python. Ce cours favorise l'apprentissage par la méthode pratique.

Objectifs du cours

  1. Comprendre les concepts avancés du langage Python: structures de données, fonctions, classes etc.
  2. Effectuer des tâches informatisées sur les données en utilisant le langage Python: ingestion de données, traitement, visualisation, récupération Web, etc.
  3. Traitez un ensemble de données à grande échelle (20 Go +) sur un ordinateur personnel à l'aide d'Apache Spark et utilisez des plates-formes de «cloud computing».
  4. Familiarisez-vous avec les bases théoriques des algorithmes d'apprentissage automatique courants.
  5. Être capable de créer et d'évaluer des modèles d'apprentissage automatique à l'aide de la bibliothèque «scikit-learn».

Calendrier des cours

Jour 1: Concepts avancés en Python. Lors de ce premier jour, le cours se concentrera sur le langage de programmation Python afin de construire une base solide pour le reste du matériel de cours. Les participants seront initiés aux techniques pratiques du niveau intermédiaire au niveau avancé, telles que l'écriture de fonctions, les classes, la gestion des erreurs, le conditionnement du code Python, etc.

Jour 2: Python pour la science des données: le jour 2 se concentre sur l'exécution de tâches courantes de science des données à l'aide de Python. Nous expliquerons comment utiliser les données, traiter, analyser, visualiser, `` Web Scraping '' et plus encore en utilisant Python, tout en introduisant des packages essentiels (Pandas, Geopandas, Numpy, Matplotlib, etc.) pour effectuer ces tâches.

Jour 3: Gestion du Big Data: le troisième jour, le cours couvre la gestion de grands ensembles de données à l'aide de Python.

Les sujets suivants seront abordés en plus de l'introduction au Big Data, du multitraitement en Python, d'Apache Spark, de l'utilisation des plates-formes cloud courantes, etc.

Jour 4: Machine Learning (ML) en Python. Le quatrième jour, le cours débutera par une conférence d'introduction à l'apprentissage automatique. le reste de la journée sera consacré à l'exécution de diverses tâches de ML (par exemple, préparation des données, création de modèles, évaluation et interprétation) à l'aide du package scikit-learn en Python. \

Jour 5: Rassembler tout cela: le dernier jour, nous nous concentrerons sur les compétences acquises dans ce cours pour résoudre des problèmes de science des données du monde réel en examinant des études de cas.

Les études de cas potentielles à couvrir incluent: comment traiter les images satellites nocturnes (géospatiale), comment traiter les enregistrements d'appels volumineux à partir de téléphones portables (données mobiles) et comment créer des modèles ML pour imputer les données de capteur manquantes (données de capteur).

Conditions préalables

Programmation: possibilité d'écrire un programme simple en Python (niveau Python basique)

Maths et statistiques: Formation en statistique, science des données des sciences quantitatives.