Catalogue des documents imprimés de la bibliothèque
Normal view MARC view

Le machine learning avec Python : la bible des data scientists / Andreas C. Müller et Sarah Guido ; [traduction de l'anglais, Daniel Rougé]

Ouvrage
Traduction de: Introduction to machine learning with Python, O'Reilly Media = cop. 2017Auteur principal: Müller, Andreas C., AuteurCo-auteur: Guido, Sarah, AuteurRougé, Daniel, 1952-2020, mathématicien, TraducteurLangue : français, de l'oeuvre originale, anglaisPays : France.Publication : Paris : First interactive, DL 2018Description: 1 vol. (XII-376 p.), ill., couv. ill., 23 cmISBN : 9782412034460.Résumé : La 4e de couv. indique : "Le machine learning (ou apprentissage automatique) est désormais partie intégrante de nombreuses applications commerciales et projets de recherche. Mais ce domaine ne reste pas l'apanage des grandes entreprises dotées d'un département en recherche et développement. Si vous connaissez un minimum le langage de programmation Python, vous apprendrez grâce à ce livre à concevoir vos propres solutions de machine learning. Avec la masse de données qui circulent actuellement, la seule limite que peuvent connaître vos applications de machine learning, c'est votre imagination. Cet ouvrage énumère les étapes nécessaires à la création d'une application de machine learning réussie avec Python et la librairie scikit-learn. Ses auteurs se sont efforcés de ne pas trop insister sur les aspects mathématiques de l'apprentissage automatique, mais plutôt sur les utilisations pratiques de ces algorithmes. Si vous êtes déjà quelque peu familiarisé avec les librairies NumPy et matplotlib, vous n'en serez que plus à l'aise. Au programme de ce livre : concepts fondamentaux et applications de machine learning ; avantages et inconvénients d'utiliser les algorithmes de machine learning les plus courants ; comment représenter les données traitées par le machine learning, et sur lesquelles se concentrer ; méthodes avancées d'évaluation de modèle et ajustement des paramètres ; le concept de pipeline pour le chaînage des modèles et l'encapsulation du flux de travail ; techniques de traitement des données textuelles ; suggestions pour améliorer vos compétences en apprentissage automatique et en sciences des données".Bibliographie : Index.Sujet - Nom commun: Apprentissage automatique | Python (langage de programmation) | Exploration de données

Le nom de l'éditeur (O'Reilly) de la version anglaise du livre figure sur la page de couverture

Index

La 4e de couv. indique : "Le machine learning (ou apprentissage automatique) est désormais partie intégrante de nombreuses applications commerciales et projets de recherche. Mais ce domaine ne reste pas l'apanage des grandes entreprises dotées d'un département en recherche et développement. Si vous connaissez un minimum le langage de programmation Python, vous apprendrez grâce à ce livre à concevoir vos propres solutions de machine learning. Avec la masse de données qui circulent actuellement, la seule limite que peuvent connaître vos applications de machine learning, c'est votre imagination. Cet ouvrage énumère les étapes nécessaires à la création d'une application de machine learning réussie avec Python et la librairie scikit-learn. Ses auteurs se sont efforcés de ne pas trop insister sur les aspects mathématiques de l'apprentissage automatique, mais plutôt sur les utilisations pratiques de ces algorithmes. Si vous êtes déjà quelque peu familiarisé avec les librairies NumPy et matplotlib, vous n'en serez que plus à l'aise. Au programme de ce livre : concepts fondamentaux et applications de machine learning ; avantages et inconvénients d'utiliser les algorithmes de machine learning les plus courants ; comment représenter les données traitées par le machine learning, et sur lesquelles se concentrer ; méthodes avancées d'évaluation de modèle et ajustement des paramètres ; le concept de pipeline pour le chaînage des modèles et l'encapsulation du flux de travail ; techniques de traitement des données textuelles ; suggestions pour améliorer vos compétences en apprentissage automatique et en sciences des données"

P. ix Préface P. ix Qui devrait lire ce livre ? P. x Pourquoi nous avons écrit ce livre P. x Naviguer dans le livre P. xi Conventions utilisées dans ce livre P. xii Utiliser les exemples de code P. 1 1. Introduction P. 2 Pourquoi l'apprentissage automatique ? P. 2 Les problèmes que l'apprentissage automatique peut résoudre P. 5 Comprendre votre but et comprendre vos données P. 6 Pourquoi Python ? P. 6 scikit-learn P. 7 Installer scikit-learn P. 8 Librairies et outils essentiels P. 8 Jupyter Notebook P. 9 NumPy P. 9 SciPy P. 10 matplotlib P. 11 pandas P. 12 mglearn P. 13 Python 2 versus Python 3 P. 13 Versions utilisées dans ce livre P. 15 Une première application : classifier des espèces d'iris P. 16 À la rencontre des données P. 19 Mesurer la réussite : entraîner et tester les données P. 20 Au commencement de tout : vérifier vos données P. 22 Construire votre premier modèle : les K plus proches voisins P. 24 Faire des prédictions P. 25 Évaluer le modèle P. 26 Résumé et perspectives P. 29 2. Apprentissage supervisé P. 29 Classification et régression P. 30 Généralisation, surapprentissage et sous-apprentissage P. 33 Relation entre complexité du modèle et taille du jeu de données P. 33 Algorithmes pour l'apprentissage automatique supervisé P. 34 Exemples de jeux de données P. 38 Les k plus proches voisins P. 48 Modèles linéaires P. 71 Classifieurs bayésiens naïfs P. 73 Arbres de décision P. 86 Ensembles d'arbres de décision P. 95 SVM à noyau P. 107 Réseaux de neurones (deep learning) P. 121 Estimer l'incertitude pour les classifieurs P. 122 La fonction de décision P. 124 Prédire les probabilités P. 127 Classification multiclasse et incertitude P. 129 Résumé et perspectives P. 133 3. Apprentissage non supervisé et prétraitement P. 133 Types d'apprentissages non supervisés P. 134 Les défis de l'apprentissage non supervisé P. 135 Prétraitement et recalibrage P. 135 Différents types de prétraitement P. 136 Appliquer des transformations aux données P. 139 Recalibrer de la même manière le jeu d'apprentissage et le jeu de test P. 141 Effet du prétraitement sur l'apprentissage supervisé P. 142 Réduction de la dimension, extraction de caractéristiques et apprentissage de variétés P. 143 Analyse en composantes principales (PCA) P. 159 Factorisation en matrices non négatives (NMF) P. 167 Apprentissage de variétés avec t-SNE P. 171 Clustering P. 171 Partitionnement en k-moyennes P. 185 Clustering agglomératif P. 189 DBSCAN P. 194 Comparer et évaluer les algorithmes de clustering P. 209 Résumons les méthodes de clustering P. 209 Résumé et perspectives

P. 213 4. Représentation des données et ingénierie des caractéristiques P. 214 Variables catégorielles P. 215 Encodage one-hot (variables indicatrices) P. 220 Les nombres peuvent encoder des catégories P. 222 Binning, discrétisation, modèles linéaires et arbres P. 226 Interactions et polynômes P. 234 Transformations non linéaires univariées P. 237 Sélection automatique de caractéristiques P. 238 Statistiques univariées P. 240 Sélection de caractéristiques basée sur le modèle P. 242 Sélection itérative de caractéristiques P. 243 Savoir utiliser l'expertise P. 252 Résumé et perspectives P. 253 5. Évaluation et amélioration du modèle P. 254 Validation croisée P. 255 Validation croisée dans scikit-learn P. 256 Bénéfices de la validation croisée P. 257 Validation croisée à k-plis stratifiée et autres stratégies P. 263 Recherche sur grille P. 263 Exemple simple de recherche sur grille P. 264 Le danger du surapprentissage des paramètres et du jeu de validation P. 266 Recherche sur grille avec validation croisée P. 278 Métriques dévaluation et scoring P. 278 Ne jamais oublier le but final P. 279 Métriques dévaluation pour la classification binaire P. 300 Métriques pour la classification multiclasse P. 303 Métriques de régression P. 303 Utiliser des métriques d'évaluation dans la sélection de modèles P. 305 Résumé et perspectives P. 307 6. Chaînage d'algorithmes et pipelines P. 308 Sélection de paramètres avec prétraitement P. 310 Construire des pipelines P. 311 Utiliser des pipelines dans des recherches sur grille P. 314 Interface générale de la classe Pipeline P. 315 Créer facilement un pipeline avec make_pipeline P. 317 Accéder aux attributs des étapes P. 317 Accéder aux attributs d'un pipeline depuis GridSearchCV P. 319 Étapes de prétraitement et paramètres du modèle P. 321 Effectuer une recherche sur grille pour trouver quel modèle utiliser P. 322 Résumé et perspectives P. 325 7. Travailler avec des données textuelles P. 325 Types de données représentés sous forme de chaînes de caractères P. 327 Exemple d'application : analyse de sentiment dans des commentaires de films P. 330 Représenter les données textuelles sous forme de sacs de mots P. 331 Appliquer une représentation par sac de mots à un jeu de données jouet P. 333 La représentation par sac de mots appliquée aux critiques de films P. 337 Mots vides (stop words) P. 338 Pondérer les données avec tf-idf P. 341 Investiguer les coefficients du modèle P. 342 Des sacs avec plusieurs mots (n-grammes) P. 347 Tokenisation avancée, racinisation et lemmatisation P. 350 Modèles de sujets et partitionnement de document P. 350 L'allocation de Dirichlet latente (LDA) P. 357 Résumé et perspectives P. 359 8. Pour conclure P. 359 Aborder un problème d'apprentissage automatique P. 360 Est-ce qu'il y des humains dans la boucle ? P. 361 Du prototype à la production P. 362 Tester des systèmes de production P. 362 Construire votre propre estimateur P. 363 Pour aller plus loin P. 363 Théorie P. 364 Autres packages et ressources pour l'apprentissage automatique P. 365 Ranking, systèmes de recommandation, et autres types d'apprentissage P. 365 Inférence, programmation et modélisation probabiliste P. 366 Réseaux de neurones P. 367 Recalibrer les jeux de données P. 368 Améliorer vos compétences P. 368 Conclusion P. 369 Index