Aperçu
Dans cette section, nous verrons comment inclure correctement la géographie dans notre processus de modélisation avec Akur8.
Contrairement à d'autres solutions, Akur8 permet de calculer des coefficients pour chaque code postal présent dans la base de données géographique. Ce calcul est effectué dans la même solution de tarification et le résultat peut être inspecté sur une carte zoomable.
Dans cette documentation, nous analyserons l'impact du facteur de lissage dans le contexte géographique et nous verrons l'importance de construire le coefficient géographique avant d'introduire des variables régionales.
Mise en place d'un enrichissement géo
Format des données géographiques
Tout ce dont nous avons besoin pour créer un projet de géographie dans Akur8 est une base de données "LOCATION DATA". Le "LOCATION DATA" peut être identique à la "SOURCE DE DONNÉES". Cette base de données doit contenir les informations suivantes :
codes postaux (ou autre identifiant de localisation)
Coordonnées GPS (Latitude, Longitude) ou projections
Le code postal servira de lien entre la base de données *LOCATION DATA* (données de localisation) et la base de données *DATA SOURCE* (source de données) utilisée pour construire le modèle GLM.
Afin de se conformer aux exigences de notre outil, une base de données *LOCATION DATA* (données de localisation) appropriée contiendra :
Un format numérique pour les coordonnées
Coordonnées GPS ou projetées
Dans Akur8, nous prenons en charge deux types de systèmes de coordonnées différents. Pour utiliser au mieux l'outil, le format de système de coordonnées suggéré est Latitude et Longitude.
Ce choix produit des graphiques affichant les valeurs des coefficients pour chaque emplacement dans 'LOCATION DATA' sur des cartes géographiques interactives, offrant une meilleure expérience utilisateur et la possibilité d’explorer la carte.
Il est possible de choisir comme coordonnées la version projetée de celles-ci, (en sélectionnant 'projected' ci-dessus). Le résultat est un graphique en nuage de points où seuls les points projetés sont inclus.
Codes postaux manquants
Les codes postaux manquants se réfèrent aux modalités de la variable géographique qui :
sont présentes dans la "SOURCE DE DONNÉES" mais pas dans les "DONNÉES DE LOCALISATION", ou
sont présentes dans les "DONNÉES DE LOCALISATION" mais ont des coordonnées invalides.
Sans activer le bouton "Autoriser les codes postaux manquants", tous les codes postaux dans la "SOURCE DE DONNÉES" doivent être associés à un code postal dans les "DONNÉES DE LOCALISATION" pour pouvoir lancer une recherche sur grille.
Lorsque le bouton "Allow missing zip codes" (Autoriser les codes postaux manquants) est activé, les codes postaux manquants sont traités comme des catégories indépendantes, ce qui permet de générer des modèles même si tous les codes postaux ne sont pas concordants. Cela est possible tant que le nombre de codes postaux manquants n'excède pas 10 % du nombre total de codes postaux dans la « SOURCE DE DONNÉES ».
Un coefficient pour chacun de ces codes postaux sera ajusté aux données, sans utiliser d'informations géographiques. Ces coefficients ne peuvent pas être consultés sur la plateforme, mais sont inclus dans le fichier lors de l'exportation du modèle.
Les informations sur le pourcentage de risque géographique non assigné dans la source de données 'DATA SOURCE' sont disponibles après la recherche par grille dans l’onglet *Statistics* (Statistiques) de n’importe quel modèle.
Le paramètre de lissage
Le signal géographique est considéré de manière continue à travers les positions relatives réelles des codes postaux. Par conséquent, on peut s'attendre à ce que cette variable change de manière fluide entre des points proches. Lors de la modélisation des coefficients géographiques pour notre modèle, deux facteurs inconnus doivent être pris en compte :
la fiabilité des observations dans la base de données 'DATA SOURCE',
le taux auquel les emplacements proches ou éloignés peuvent s'influencer mutuellement.
Le paramètre de continuité dans la géographie reflète précisément le compromis entre ces deux phénomènes. Le choix de l'hyperparamètre « smoothness » pour le lissage géographique produira des modèles avec la variable géographique supplémentaire ayant différents niveaux de sensibilité au signal observé dans la base de données.
Comme nous pouvons le voir, les graphiques ci-dessous sont ordonnés par niveau décroissant de continuité. Un niveau élevé de continuité correspond à une répartition globale plus petite des coefficients qui varient peu sur de courtes distances.
Au contraire, un faible niveau de continuité crée des coefficients avec une répartition globale plus large qui peut changer considérablement sur de courtes distances.
Quantization
L'approche générale que nous avons pour calculer les coefficients géographiques suit le principe selon lequel chaque code postal se voit attribuer son propre coefficient.
Cependant, il est possible de réaliser un regroupement automatique des coefficients, adapté à une approche zonale, en activant le bouton QUANTIZATION (Quantification) :
Cela donnera lieu à une variable géographique avec uniquement le nombre préfixé de coefficients différents spécifiés (3 dans l'exemple de l'image ci-dessus).
Partitionnement géographique
Comme expliqué ci-dessus, les modèles géographiques d'Akur8 suivent le principe selon lequel les zones proches devraient avoir un niveau de risque similaire.
La fonctionnalité *Partition geography* (Partitionnement géographique) permet à l'utilisateur de rompre ce comportement en déclarant des sous-régions (sous-ensembles de codes postaux) ; les codes postaux appartenant à des sous-régions différentes ne sont pas tenus d'avoir des niveaux de risque similaires, peu importe leur proximité. En d'autres termes, les observations de risque dans une sous-région n'influencent pas l'estimation du risque des autres sous-régions. Dans la modélisation géographique standard d'Akur8, il peut arriver que des régions éloignées s'influencent mutuellement - par exemple, avec des bases de données géographiques incluant des îles éloignées. Cette fonctionnalité peut être utilisée pour s'assurer qu'aucune influence à longue distance n'affecte l'ajustement. Un autre cas d'utilisation est lorsque les réglementations exigent que les risques d'une région ne fassent pas augmenter les tarifs des régions voisines. Compartimenter la modélisation avec cette fonctionnalité garantit le respect de ces réglementations.
Pour utiliser cette fonctionnalité, les DONNÉES DE LOCALISATION utilisées doivent contenir une colonne supplémentaire « variable de partition géographique », assignant chaque code postal à une sous-région. Cette variable de partition doit comporter moins de 256 modalités, et chaque sous-région créée doit avoir au moins 4 codes postaux correspondants. Lors de la préparation du modèle géographique, il suffit d'activer le bouton *Geography partition* (Partition géographique) et d'écrire le nom de la variable de partition dans le champ.
Cela se traduira par une variable géographique qui montre des différences claires entre les différentes sous-régions.
Par défaut, la moyenne des coefficients pour chaque sous-région sera égale à 0. Si « Fit partition base level » (*Ajuster le niveau de base de la partition*) est activé, une constante sera ajoutée pour chaque sous-ensemble. Dans l'image suivante, une constante a été ajustée pour le modèle à gauche, tandis que le modèle à droite a une constante égale à zéro.
Lorsque vous consultez la carte des coefficients, il est possible d’utiliser la liste déroulante "Filter by partitions" (Filtrer par partitions) pour sélectionner quelles sous-régions doivent être affichées.
Si une variable géographique a été ajustée en utilisant la géographie Partition, et qu'un modèle de classification géographique est construit dessus, alors le filtrage reste disponible.
Recherche en grille géographique
Comme pour les calculs de génération de modèle précédents, le résultat est affiché dans une recherche en grille pour évaluer le compromis entre performance et complexité. Comme auparavant, la performance est montrée en termes de GINI mais peut être changée pour un certain nombre de métriques. La complexité est affichée en termes de l'Indice de Moran que nous expliquons dans la sous-section suivante.
Distance de Moran
La distance de Moran correspond au rayon d'une région circulaire qui contient des points avec un score de corrélation entre les distances relatives et les coefficients supérieur à 50 %.
Intuitivement, pour un observateur situé dans un code postal donné, la distance de Moran donne une distance moyenne à parcourir pour observer un changement important dans le coefficient de risque associé à la variable géographique.












