Analyse et Prédiction de la Dépression Étudiante : Un Projet de Machine Learning

La santé mentale des étudiants est un sujet crucial. J’ai eu l’occasion de développer un projet de machine learning visant à analyser et prédire les risques de dépression chez les étudiants. L’objectif était d’explorer comment des facteurs tels que la pression académique, les habitudes de sommeil ou certaines variables de style de vie peuvent influencer le bien-être mental.

Le projet en quelques mots :

Construit en Python avec Jupyter Notebook, ce projet s’appuie sur un modèle de régression logistique pour évaluer le risque de dépression. Le processus a impliqué plusieurs étapes clés :

Préparation des Données : Un travail essentiel de nettoyage et de pré-traitement des données issues d’un dataset sur la dépression étudiante (Student Depression Dataset.csv) a été réalisé.
Ingénierie et Sélection de Caractéristiques (Feature Engineering & Scaling) : J’ai identifié et transformé les variables les plus pertinentes pour le modèle, en veillant à les mettre à l’échelle correctement.
Entraînement du Modèle : Le modèle de régression logistique a été entraîné sur ces données.
Évaluation des Performances : Le modèle a atteint une précision (accuracy) de 85% et un score ROC AUC de 92%, indiquant une bonne capacité à distinguer les étudiants à risque.

Ce qui a été mis en place :

L’analyse et le modèle sont contenus dans le notebook principal ProjetClasse.ipynb.
Les fichiers du modèle entraîné (.joblib), ainsi que les « scalers » et autres éléments de pré-traitement, sont sauvegardés pour une réutilisation facile.
Le projet est prêt pour un déploiement web via Streamlit, avec les fichiers nécessaires préparés, permettant de rendre le modèle interactif.

Technologies utilisées :

Python 3
Pandas & NumPy pour la manipulation des données.
Scikit-learn pour le machine learning (régression logistique, métriques d’évaluation).
Seaborn & Matplotlib pour la visualisation des données.
Streamlit envisagé pour le déploiement d’une interface utilisateur.

Au-delà des aspects techniques du machine learning, ce projet m’a sensibilisé à l’importance de l’analyse de données dans des domaines aussi sensibles que la santé mentale. Il a renforcé mes compétences en :

Préparation et exploration de données.
Construction et évaluation de modèles prédictifs.
Compréhension des métriques clés comme l’accuracy et le score ROC AUC.
La démarche pour rendre un modèle de machine learning accessible (via Streamlit).

Lors du déploiement Streamlit en ligne, j’ai rencontré un petit défi technique : une erreur FileNotFoundError. Celle-ci indiquait que l’application ne parvenait pas à localiser nos fichiers .joblib (contenant le modèle sauvegardé et les préprocesseurs) dans l’environnement de déploiement.

Cause : Localement, l’application trouvait les fichiers car ils étaient dans le même dossier. Cependant, en ligne, les chemins d’accès relatifs simples n’étaient plus suffisants.

Solution : Pour résoudre ce problème et rendre notre code plus robuste, j’ai intégré le module os de Python. j’ai modifié notre script pour construire des chemins d’accès absolus aux fichiers .joblib, relatifs à l’emplacement du script principal de l’application

Code Source juste ici

Voir la demo en ligne juste ici

Publications similaires

Le TOTP : la preuve qu’une sécurité de grade bancaire peut être simple : un secret partagé, une horloge synchronisée et un peu de mathématiques (HMAC).

Maîtriser l’Observabilité : Pourquoi j’ai choisi la stack LGTM pour mon projet.

On ne finit jamais un logiciel. On le prépare à survivre.

Système de Gestion de Bibliothèque – Architecture Microservices Cloud Native

Planifier pendant des mois pour tout recommencer ? Il existe une meilleure façon de travailler.