Les caractéristiques du langage Python
Pourquoi choisir Python pour l'analyse de données ?
Installation et configuration
Philosophie de Python (indentation, objet, etc.)
Les types de données
Appels de fonctions et méthodes
Structures de contrôles (boucle, test, exceptions)
Structures de données et séquences (tuple, liste, primitives, dict)
Les principales bibliothèques de Python (NumPy, Pandas, Matplotlib, Ipython, SciPy)
Espace de noms, périmètre et fonctions locales
Manipuler les fonctions comme des objets
Les fonctions anonymes (lambda)
Syntaxe d'appels étendus (*args, **kwargs)
La manipulation de données par l¿utilisation de la librairie Pandas
Introduction du concept de Dataframe comme structure de données central pour l'analyse de données
Comment interroger ces structures ? Comment ces structures sont indexées ?
Traitement de « données manquantes »
Fusion de dataframes
Manipulation des dates
Application de mesures statistiques variées sur les DataFrames
Bonne compréhension des problèmes d'échelle de mesure, de normalisation
Création de métriques d¿analyse
Introduction aux bases de la visualisation de données
Focalisation sur la génération de graphes grâce à la librairie Matplotlib : démonstration de l'application de graphes Matplotlib à la visualisation de problèmes
Les formats de données structurées : CSV, flux XML et JSON
Lecture et écriture de fichiers
Manipulation des données issues de ces fichiers par des structures Python adaptées
Fonctions d'accès et de download de données en ligne
Présentation des principales bibliothèques d'analyse de données Python : NumPy, SciPy, IPython (Jupyter)
Fonctions de manipulation et de calcul matriciel (Numpy)
Fonctions de Statistiques Descriptives (SciPy) : quantiles et des fonctions de répartition pour différentes lois statistiques
Fonctions de comparaison de populations, mesures d'association, etc (SciPy)
Fonctions de classification automatique (SciPy) : k-means
Les outils pour lire l'activité (Timeit, cProfile)
Paralléliser vos traitements avec le multiprocessing
Calcul distribué avec la librairie Celery
Les faiblesses du multithreading