Elements d'arithmétique spatiale

Musique recommandée pour la lecture Paolo Conte

Un espace peut se décrire selon une séquence de points l’occupant de façon régulière, des lignes le quadrillant, une série continue de surfaces l’occupant tout entier ou encore en enfermant l’espace derrière une grille continue et nommer champ ce qui y est enfermé. L’espace représenté y conserve en principe toujours les mêmes propriétés et il est facile de passer d’une description à l’autre comme illustré ci-dessous. Divers systèmes seront utilisés pour représenter tous les phénomènes étudiables, mais chaque passage d'un système à l'autre comporte le risque d'ajouter une information qui n'existait pas ou d'en enlever une qui était précisément la caractéristique recherchée dans un système particulier.

Ainsi un ordre alphabétique permettra bien de nommer chaque objet, mais seule
une suite ordonnée permettra de comparer les grandeurs relatives entre elles,
alors que seule une échelle normée permettra de mesurer des rapports entre objets.
Enfin, pour comparer des ordres de grandeurs il faudra utiliser une échelle logarithmique,
bien différente de l’ABC...

Unwin et al, Geographic Information Analysis

Suivant la classe de données nominale, ordinale ou quantitative et leur représentation en points, lignes, aires ou champs, il y aura 12 catégories de données spatiales.

Chacune a son propre set de méthodes d’analyse, dont plusieurs très utiles pour accompagner un géographe dans l'étude d'un phénomène. L’échelle logarithmique demande un traitement différent car il vise un autre but, celui de comprendre les ordres de grandeurs et la relation complexe entre contexte et expression locale d'un phénomène.

Jacques Bertin, sémiologie graphique

Un point est situé dans un espace XY (1) et indique une troisième variable Z dont la hauteur exprime la valeur de la fonction étudiée (2).

Il est aisé de le représenter en 3 dimensions (3)

Les relations entre éléments peuvent être illustrés

comme des lignes entre des points (4) ou

comme points entre des lignes dans une matrice (5) .

La nature des relations
est indiscernable dans la représentation géométrique (6)

mais immédiatement visible dans une matrice triée (7).

L’efficacité de la figure 7 est d’immédiatement mettre en évidence la relation entre 3 et B, qui serait invisible sans tri préalable des données sur la matrice des données.

L’efficacité d’un tri préliminaire se voit encore mieux sur les figures 8 à 10, dans lesquelles l'ordre alphanumérique est remplacé par un ordre porteur de sens, ce qui permet de mettre en évidence les relations existant entre deux séries de données qui structurent un espace sémantique commun.

5 lignes et 5 colonnes définissent une matrice de 25 valeurs. La production de viande est exprimée en % et chaque colonne a le même total de 100%.

Mais tant que les données ne sont pas triées, il est impossible de comparer les séries et de voir ce qui les différencie.

Une fois les données triées, les structures deviennent parfaitement visibles:

le volume total de type de viande produit dans chaque pays:

une structure générale différenciant l’Allemagne et la Hollande d’un côté et la France et l’Italie de l’autre, avec la Belgique et le Luxembourg sans profil clair.

Au delà du débat sur le végétarisme, n’est-ce une image claire dont on se souvient?

Le but de cette démonstration est de rappeler l’utilité de faire une analyse préalable de ses données avant de les manipuler pour en comprendre la structure intrinsèque.

Pour éviter de tricher inconsciemment, il faut non seulement s’abstenir de déplacer des pixels, mais aussi de jouer consciemment avec la structure de l’image...

Jacques Bertin, sémiologie graphique

Crédit des 2 images: Unwin et al, Geographic Information Analysis

Malheureusement, toute analyse mathématique est un défi, car toute manipulation de données entraîne presque toujours une modification des caractéristiques de ces données.

Soient deux tableau de trente-six chiffres répartis sur 6 colonnes et 6 lignes remplies de façon aléatoire. Le tableau de gauche est porté en ordonnée alors que celui de droite est porté en abscisse, et une équation du premier ordre indiquera la relation entre ces deux jeux de données.

Les moyennes de 2 chiffres horizontaux puis verticaux sont alors calculées, ce qui permet d’établir 2 nouveaux graphiques qui figurent à droite. Avec trois séries de chiffres ayant la même moyenne et la même variance (c-à-d la même distance moyenne à la valeur moyenne), il est possible de générer 3 droites de pente différente dont l’origine passent par 1,26, 10.38 ou 13.59.

Le R carré indique le coefficient de corrélation entre la droite et les données, et miracle de cette manipulation, la droite du bas représente mieux cette série de nombres aléatoires que celle basée sur l’ensemble des points… à moins que la manipulation n’aie simplement introduit une nouvelle perspective qui n’a rien à voir avec la série de nombres aléatoires. En effet, il ne devrait y avoir aucun rapport entre eux puisqu’ils ont tous été tirés aléatoirement, ce qui démontre en passant qu’un coefficient de corrélation de 0.69 n’a pas grande valeur statistique…

Existe-t-il des manipulations de données qui n’ont pas de tels effets pervers? Trier les données n’en a pas par définition, tout comme les représenter sur une échelle logarithmique non plus, mais toute autre modification peut potentiellement perdre ou ajouter du sens qui n’existe pas dans la réalité que l'on étudie (rappelez-vous dans l'introduction les animaux qui changent d'espèce suivant la transformation des systèmes de coordonnées).

Comme mentionné plus haut, une échelle logarithmique permet de comparer des ordres de grandeur, mais surtout aussi de décrire un phénomène à la bonne échelle spatiale et de temps. Cet exemple d’échelle bi-logarithmique (c-à-d que les deux axes sont représentés avec une échelle logarithmique) représente l’extension spatio-temporelle des aquifères dont la vie sur Terre dépend.

Il illustre le fait que très souvent un phénomène local est de courte durée, alors qu’un phénomène global s’étendra sur de très longues périodes. Or généralement, c’est l’ordre de grandeur directement supérieur qui permettra de donner un sens à un phénomène quelconque, comme l’a proposé Gregory Bateson, un biologiste qui étudiait l’écologie des systèmes mentaux au milieu du XXème siècle.

Andrew Miall, updating uniformitarianism

Andrew Miall a développé un système de classification des dépôts sédimentaire en 12 classes qui incluent leur récurrence temporelle, le taux de sédimentation et leur potentiel de préservation. Contrairement au graphique précédent ou les dimensions spatiales et temporelle évoluent en parallèle, les taux de sédimentation varient de façon inverse: à l’échelle de la centaine de million d’année le taux est quasi nul, alors qu’il sera énorme à l’échelle des jours ou des semaines. Cette contradiction apparente se résout lorsqu’on inclut le potentiel de préservation, qui est minime dans la plupart des cas.

Ls rchvs glgqs snt trs ncmplts (les archives géologiques sont très incomplètes)

Le livre de la société géologique de Londres sur le temps (Strata and Time) insiste sur le fait que les archives géologiques sont extrêmement partielles: Il faut imaginer un dossier dont il manquerait des tomes et des chapitres entiers, avec des pages manquantes dans les chapitres restants, et une partie importante des pages illisibles, sans parler d’une préservation seulement partielle des lettres d’un mot imprimé.

Mais être conscient de la partialité des archives ne suffit pas, Il faut encore réussir à séparer la tendance générale du simple bruit local, une aventure intellectuelle excitante qui nous servira de point de départ.

Sur la figure ci-contre, la moyenne est représentée par le plan gris, les points les plus proches sont plus élevés, alors que les points plus éloignés sont plus petits que la moyenne. S'y ajoute pourtant une variation locale qui doit être analyse en se basant sur les relations de tous les points entre eux. A la fin d'une telle analyse, il est parfois possible de décrire les variations d'un champ continu avec des points, des lignes ou des surfaces significatives.

Unwin et al, Geographic Information Analysis

Cette différence entre variation locale et régionale est illustrée dans l'image de gauche dans laquelle la densité de points diminue du bas à gauche vers le haut à droite, ce qui est un effet de premier ordre. Sur l’image du centre par contre, trois nuages sont bien identifiables, ce qui correspond à un effet de deuxième ordre. L’image de droite combine ces deux effets qu'une analyse soigneuse permettra peut-être de mettre en évidence.

Si l’analyse statistique est dangereuse, l’analyse géométrique est-elle plus sûre? La célèbre carte établie par le Dr Snow sur le nombre de cas de choléra à Londres en 1849 indique le nombre de cas par maison, ce qui lui a permis d'identifier la pompe située au coin de Broad Street et Cambridge Street comme la source probable de contamination par le vibrio du choléra.

Mark Monmonier, How to lie with maps

Dans son livre Comment mentir avec des cartes, Monmonnier reprend la carte de Snow et propose différents découpages de quartiers autour de la fameuse pompe. Une région découpée selon l’image du haut efface toute différence entre quartiers, le découpage du milieu suggère la fausse conclusion qu’il y aurait deux pôles principaux de contamination alors que seul celui du bas permettra de trouver la source de contagion soit un seul point. Rappelons simplement que le Dr Snow avait pour hypothèse de travail que le choléra se transmet par l'eau de boisson et que par conséquent il cherchait une source ponctuelle.

Peter Steevens, Les formes dans la nature

Un architecte, Peter Steevens, propose dans son livre Les formes dans la nature une série de schémas d’occupation de l’espace qui s’approcheraient de la façon la plus efficace de remplir un espace uniformément constellé de points. Longtemps un éclatement de lignes depuis le centre a constitué la majorité des réponses, reflétant la nature totalitaire des sociétés qui les engendraient. Cette solution a toutefois l’avantage d’avoir le plus court chemin entre le centre et tous les points mais aussi la plus grande distance totale.

Une réflexion ultérieure sur la façon la plus efficace de relier tous les points a permis l’émergence du modèle de la spirale, dont l’efficacité de la construction permet de rejoindre tous les points par le plus court chemin mais avec le chemin moyen le plus long. Plus tard il devint clair qu’il fallait non seulement tenir compte de la longueur totale du chemin, mais aussi de la moyenne de chaque segment vers chaque point, et les solutions uniques furent remplacées comme par enchantement par des réseaux complexes dépendant de la taille (grandeur absolue) et de la forme (grandeur relative). Ces modèles ont remplacé les certitudes d’antan, comme la modélisation remplace peu à peu les équations de l’époque classique, avec des débats portant de plus en plus sur l’erreur résiduelle et la capacité d’imitation la plus fidèle possible de la réalité. Ceci est une claire régression vers la science des Grecs qui cherchaient à «sauver les phénomènes» plutôt qu’à les expliquer avec des équations démontrables. Nous retrouverons certains de ces éléments lors de l’analyse des réseaux hydrographiques et verrons comment les eaux de surface se plient à l’un ou l’autre de ces modèles.

Sur cette image satellite en fausses couleurs émerge un cercle au milieu d’un paysage poli par le passage incessant d’un vent qui a creusé de nombreux sillons. Parmi ces points, ces lignes, ces surfaces, comment passer à un champ ayant une signification et éviter de simplement étudier la consistance insignifiante d’une série de chiffres aléatoires ? L'hypothèse de la chute d'une comète pour expliquer cette forme est-elle raisonnable?

Avant de se lancer dans les analyses morphologiques, il reste un mot à dire sur l’approche graphique et les couleurs. Alors que les analyses plongent profondément dans le savoir géologique et les observation de terrain depuis le ciel, la symbologie est directement inspirée de l’école de sémiologie graphique de Jacques Bertin dont certains éléments sont d'ailleurs décrits ici ou là sur ce site. Selon cette approche, outre les deux dimensions du plan sur lequel seront disposés tous les éléments à représenter, il ne sera finalement possible que de varier la taille, la valeur, le grain, la couleur, l’orientation ou la forme de chaque point pour en exprimer la grandeur absolue et relative sur une échelle nominale, ordonnée, normée ou logarithmique.

Jacques Bertin, la sémiologie graphique

Ainsi défileront une histoire littéraire, une phénoménologie d’abord relative puis absolue et enfin une description des ordres de grandeur en jeu, permettant soudain après lecture attentive de préciser le contexte dans lequel se déroulera la scène jouée en noir et blanc ou en couleurs.

Edward Tufte, Beautiful evidence

Enfin un mot sur les couleurs, dont l’utilisation suit l’école d’Eduard Imhof, le père de la carte topographique suisse. Ces deux exemples montrent l'importance de la couleur, l’un avec des couleurs criardes, l’autre avec des couleurs pastels dont les tons les plus foncés servent uniquement à souligner de petites zones d’une côte marine s’enfonçant dans les profondeurs abyssales de la mer du Japon. Le choix des couleurs est critique et fera l’objet d’un soin particulier dans les représentations à venir.

Sur cette carte également tirée du livre d’Edward Tufte Beautfiful évidence, est évidente l’importance de la couleur pour souligner les éléments structuraux les plus importants du paysage, mis en évidence au bas de l'image si plate lorsqu’elle devient tout à coup monochrome...

Analyse morphologique du Sri Lanka

Eléments​d'arithmétique spatiale

Eléments
d'arithmétique spatiale