Dans les coulisses de l’IA : Le secret de la Descente de Gradient

Hey Salut la team je voudrais parler aujourd’hui d’un concept un peu technique qui est au cœur de tout le machine learning moderne pour certains algorithmes, de la ligne de régression aux IA génératives comme ChatGPT ou Midjourney : la Descente de Gradient (ou « Gradient Descent »).

Si vous avez déjà entendu « l’IA apprend », ce que vous devez comprendre, c’est qu’elle est (probablement) en train de faire une descente de gradient.

Je vous explique a ma façon:

1. L’Objectif c’est toujours trouver la « Meilleure » Ligne.

Prenons un cas simple : on a des points (X=[1, 2, 3], Y=[2, 4, 6]) et un modèle y = wx + b. Le but du jeu est simple : trouver les meilleurs w et b possibles.

Mais que veut dire « meilleur » ?

2. La Fonction de Coût (MSE)

« Meilleur » signifie « celui qui se trompe le moins ». Pour mesurer « à quel point on se trompe », on a besoin d’un juge. C’est la fonction de coût (ou Loss Function).

Dans notre cas, nous avons utilisé le Mean Squared Error (MSE) :

3. L’Analogie : Perdu sur la Montagne (dans le brouillard)

Cet exemple es plus parlant a mon avis.

Le problème : Vous êtes dans un brouillard total. Vous ne voyez pas la vallée. Vous ne pouvez que tâter le sol autour de vous.

Comment faites-vous pour descendre ?

4. La Boucle : Tâter, Descendre, Répéter

C’est le cœur de l’algorithme. C’est une boucle en 3 étapes :

Étape 1 : Tâter le sol (Calculer le Gradient)

  • Vous tendez la main pour sentir la pente. C’est le Gradient.
  • Le Gradient est un vecteur (une flèche) qui vous dit : « La direction de la plus forte montée est par là. »
  • (Dans notre exemple, c’était le calcul de grad_w et grad_b).
  • Le gradient vous dit où est le « haut ».
  • Vous faites quoi ? Vous allez dans la direction exactement opposée.
  • C’est le « moins » dans w_nouveau = w_actuel - (alpha * grad_w).
  • Vous faites un petit pas en descendant la pente.

Étape 3 : Répéter

  • Vous avez bougé. Vous êtes (normalement) un peu plus bas.
  • Vous recommencez : vous re-calculez le gradient à votre nouvelle position (Étape 1), vous refaites un pas (Étape 2).
  • Vous répétez cela 100, 1000, 1 million de fois jusqu’à ce que la pente soit plate (vous êtes au fond de la vallée).

5. Les Nuances (Les « Boutons » à régler)

C’est bien beau, mais cette « descente » a des règles.

Le bouton le plus important : alpha (Le Learning Rate)

alpha est la taille de votre pas.

La méthode de « descente » : Batch vs. SGD

Quand vous « tâtez le sol », comment faites-vous ?

6. Pourquoi la descente de Gradient?

Il y’a une formule « directe » (les « Moindres Carrés ») pour trouver w et b d’un coup. Mais Pourquoi dans ce cas s’embêter avec cette histoire de montagne ?

Voici le pourquoi : La formule « directe » ne fonctionne que pour ce jouet.

 Différence entre la régression et la logistique :

  • Linéaire : y= wx + b. La sortie est un nombre (ex: 4.5, -10, 1000).
  • Logistique : y= sigma(wx + b). La sortie est forcée entre 0 et 1.

La Fonction de Coût :

  • Linéaire : On utilise le MSE (Mean Squared Error) car on mesure une distance.
  • Logistique : On utilise le Log Loss (Cross-Entropy) car on mesure l’erreur sur une probabilité.

Les 5 Modèles principaux que j’ai utilisé perso

A. Régression Linéaire

B. Régression Logistique

C. Arbres de Décision

D. k-Nearest Neighbors (kNN)

E. Naïve Bayes

L’astuce « Naïve » : Il suppose que les mots n’ont aucun lien entre eux (indépendants). C’est faux, mais ça marche super bien pour le texte.

F. Ensembles de Forêts Aléatoires (Random Forests)


G. Modèles Avancés de Décision et d’Optimisation

1. Boosting (XGBoost, LightGBM, CatBoost)