
Il s'agit d'un article d'introduction expliquant l'intuition de base, l'idée mathématique et la portée des fonctions de base radiale dans le développement de modèles d'apprentissage automatique prédictifs.
Dans l'apprentissage automatique, la résolution de problèmes basée sur des algorithmes basés sur des hyperplans dépend fortement de la distribution des points de données dans l'espace. Cependant, c'est un fait connu que les données du monde réel suivent rarement des hypothèses théoriques.
Il existe de nombreuses fonctions de transformation qui peuvent convertir la forme naturelle des points de données en distributions théoriquement recommandées en persévérant dans les modèles cachés des données. Radial Basis est l'une de ces fonctions renommées qui est abordée dans de nombreux manuels d'apprentissage automatique. Dans cet article, nous découvrirons l'intuition de base, les types et l'utilisation de la fonction de base radiale.
La fonction de base radiale est une fonction mathématique qui prend une entrée à valeur réelle et génère une sortie à valeur réelle basée sur la distance entre la valeur d'entrée projetée dans l'espace à partir d'un point fixe imaginaire placé ailleurs.
Cette fonction est couramment utilisée dans de nombreux algorithmes d'apprentissage automatique et d'apprentissage en profondeur tels que les machines à vecteurs de support, les réseaux de neurones artificiels, etc.
Comprenons le concept et l'utilisation de cette fonction mathématique.
En temps réel, chaque fois que nous résolvons des problèmes complexes d'apprentissage automatique à l'aide d'algorithmes tels que SVM, nous devons projeter tous nos points de données dans un espace multidimensionnel imaginaire où chaque caractéristique sera une dimension.
Supposons que nous ayons un problème de classification pour prédire si un étudiant réussira ou échouera à l'examen.
Nous avons les caractéristiques suivantes comme variables indépendantes :
Ainsi, ces 3 variables indépendantes deviennent 3 dimensions d'un espace comme celui-ci-
Considérons que nos points de données ressemblent à ceci où-
La couleur verte représente les étudiants qui ont réussi l'examen
La couleur rouge représente les étudiants qui ont échoué à l'examen
Maintenant, SVM va créer un hyperplan qui parcourt ces 3 dimensions afin de différencier les élèves ayant échoué et réussis-
Donc, techniquement maintenant, le modèle comprend que tous les points de données qui tombent d'un côté de l'hyperplan appartiennent aux étudiants qui ont réussi les examens et vice versa.
Dans notre exemple, il était facile de créer l'hyperplan car un hyperplan linéaire et droit suffisait à discriminer les 2 catégories. Mais dans les projets complexes en temps réel, ces relations peuvent être violées dans de nombreux scénarios. Surtout lorsque vous avez des centaines de variables indépendantes, il n'y a aucune possibilité d'obtenir une relation linéaire entre les points de données de sorte qu'il sera difficile de créer un hyperplan optimal.
Dans de tels scénarios, les chercheurs appliquent généralement la fonction de base radiale à chacun des points de données afin qu'ils puissent passer un hyperplan linéaire à travers les points de données pour résoudre facilement le problème.
Considérez que nos points de données ressemblent à ceci dans l'espace-
Il est clair que nous ne pouvons pas utiliser un hyperplan linéaire tel qu'il puisse regrouper les points de données selon leurs classes.
RBF nous aidera dans ce genre de scénarios.
Certains chercheurs projetteront généralement ces points de données dans des dimensions beaucoup plus élevées afin que la distance entre les points de données augmente afin qu'ils puissent appliquer une fonction (RBF ou toute autre fonction) pour construire un hyperplan. Mais il n'est pas nécessaire de construire des dimensions élevées puisque c'est toujours la décision du statisticien/chercheur qui comprend les modèles dans les données.
Ensuite, nous devons marquer un point imaginaire dans l'espace comme celui-ci là où nous en avons besoin.
Après cela, nous devons dessiner des cercles concentriques basés sur ce point imaginaire.
La distance entre le centre et tout point de données positionné dans la limite du cercle s'appelle le rayon.
Après avoir calculé le rayon, nous devons passer cette valeur dans une fonction mathématique (RBF) qui renverra une valeur réelle. La valeur renvoyée sera l'amplitude transformée d'un point de données particulier utilisé pour d'autres procédures.
Il existe plusieurs types de fonctions de base radiale. Chacun d'eux transformera la valeur d'entrée d'une manière différente. Certains d'entre eux sont-
Où,
La fonction ressemblera à ceci par rapport au temps,
Où,
Où,
J'expliquerai intuitivement ce que ces fonctions feront intuitivement dans l'espace. Il y a 2 processus différents qui sont effectués par ces fonctions-
Le processus d'expansion ressemblera visuellement à ceci-
Le processus de compression ressemblera visuellement à ceci-
Après l'expansion et la compression, les points de données auraient été transformés comme ceci-
Maintenant, nous pouvons facilement construire un hyperplan linéaire qui peut classer les points de données comme ceci-
Parfois, RBF est également utilisé avec des réseaux de neurones artificiels avec une couche cachée. Dans de tels types de réseaux, RBF sera utilisé comme fonctions d'activation dans les couches cachées. Outre la couche cachée, il y aura une couche d'entrée qui contient plusieurs neurones où chacun d'eux représente une variable de caractéristique et la couche de sortie aura une somme pondérée des sorties de la couche cachée pour former les sorties du réseau.
Ces réseaux sont appelés réseaux RBF.
Dans cet article, nous avons discuté de l'une des fonctions de transformation les plus utiles en apprentissage automatique. J'ai essayé d'expliquer ce concept compliqué sans de nombreux calculs mathématiques approfondis de manière lucide ciblant les débutants dans l'espace d'apprentissage AIML.
Cette fonction est disponible en tant que bibliothèque intégrée dans la plupart des langages de programmation orientés science des données tels que Python ou R. Par conséquent, il est facile de l'implémenter une fois que vous avez compris l'intuition théorique. J'ai ajouté les liens vers certains des matériaux avancés dans la section des références où vous pouvez approfondir les calculs complexes si vous êtes intéressé.