Site personnel de Robert Pastorelli 

création en janvier 2024

Curieux

  • CURIEUX sous les projecteurs de GEPHIjanvier 13th, 2024CURIEUX sous les projecteurs de GEPHI
    La lettre d’actualités n°7 du DES (novembre 2019) présentait, entre autre, une approche de l’espace
    sémantique de l’unité lexicale « curieux » avec l’outil Gargantext.
    Nous reprenons ici cette même approche à l’aide d’un autre outil : Gephi.
    Gephi est un logiciel libre et gratuit d’analyse et de visualisation de réseaux qui peut être téléchargé,
    pour windows, Mac OS X et Linux, sur Internet: https://gephi.org/
    On trouve sur Internet une vaste documentation sur ce logiciel, les algorithmes de spatialisation et
    les calculs statistiques utilisés, son mode d’emploi et de nombreux exemples d’application , en
    particulier : http://www.martingrandjean.ch/gephi-introduction
    Initialement développé par des étudiants de l’université de technologie de Compiègne (UTC), Gephi
    a été sélectionné pour le Google Summer of Code de 2009 à 2013 et a remporté en 2010 le prix
    Duke’s Choice d’Oracle dans la catégorie Innovative Technical Data Visualization.
    Gephi analyse les réseaux de données en faisant appel à la théorie des graphes : éléments reliés
    entre eux par des liaisons.
    Nous ne présenterons pas ici les algorithmes utilisés, d’un contenu technique statistique et
    informatique complexe, des documentations spécialisées peuvent être trouvés sur Internet. Nous ne
    présenterons pas non plus le détail des manipulations du logiciel qui sont simples, « presse-bouton ».
    Gephi ne demande aucune technicité informatique même s’il est parfois sensible et requiert une
    certaine expérience !
    Cet article vise à fournir une introduction attractive à Gephi à partir d’exemples élémentaires sur le
    réseau des synonymes du mot « curieux ».
    Analyse du réseau des synonymes de « curieux »
    Le DES fournit 55 synonymes directs de « curieux » puis 933 synonymes de ces synonymes.
    Le réseau de ces 988 mots est constitué par toutes les relations de synonymie qui, bien que
    symétriques, peuvent être considérées sous forme de liens « dirigés », les liens partant d’un terme
    lexical vers ses synonymes.
    Importons dans Gephi le fichier texte des 2150 liens du réseau de ces mots.
    Ce fichier se présente sous la forme simple d’un lien par ligne avec la source et la destination (target)
    du lien :

    Nous pouvons alors analyser ce réseau avec Gephi et en produire des représentations graphiques.
    Gephi permet de réaliser trois actions différentes sur les graphes :
    – les spatialisations, techniques de représentations visuelles des graphes à l’écran (espace plan
    de dimension 2). Il faut noter que les positions des nœuds dans l’espace (le plan) ne sont pas
    des positions signifiantes en soi ni par rapport à la thématique étudiée mais seulement un
    positionnement esthétique qui vise à optimiser la visualisation du graphe pour en permettre
    l’analyse. On peut en effet même déplacer manuellement certains points si jugé nécessaire
    pour un meilleur aspect.
    – le calcul de statistiques, valeur issues de la théorie des graphes :
    o Degré : nombre de liens entrant, sortant, total, pour chaque nœud,
    o Modularité : détection de communautés, sous-graphes de nœuds qui sont les plus
    liés entre eux par rapport au reste du réseau,
    o et bien d’autres : diamètre, densité, PageRank, composantes connexes, coefficient
    de clustering, centralité Eigenvector, plus courts chemins …
    – l’application de filtres, nombreux , pouvant être calculés et enchainés, pour réduire le graphe
    à une de ses sous-partie selon certains paramètres.
    Les spatialisations se font selon des algorithmes liés à la structure des graphes. les statistiques, issues
    également de la théorie des graphes, permettent d’affecter des valeurs numériques discriminantes
    aux nœuds ou au liens, valeurs qui permettront de paramétrer la visualisation d’une spatialisation.
    Les filtres utilisent les propriétés du graphe et/ou les statistiques pour en extraire un sous-graphe.
    Deux premiers exemples sur le graphe du réseau complet des 988 mots.
    Un résultat est très rapidement et simplement obtenu avec le choix d’une représentation visuelle du
    graphe, ici la spatialisation « Force Atlas 2 » avec quelques paramètres standard (dissuader les Hubs,
    empêcher le Recouvrement, Echelle).
    Force Atlas 2 est basée sur la spatialisation de force. L’algorithme applique l’idée que la densité des
    relations fonde les communautés d’une part et que la proximité spatiale manifeste le mieux
    visuellement les communautés d’autre part. Les algorithmes de force construisent une distribution
    spatiale à 2 dimensions qui vise à organiser des forces de répulsion et d’attraction entre nœuds . Les
    nœuds sont comme des particules chargées qui exercent une force de répulsion et les liens, au
    contraire, exercent une force d’attraction entre les nœuds. Les calculs sont dynamiquement
    présentés à l’écran et peuvent être arrêtés et relancés volontairement ce qui permet de « jouer »
    avec les paramètres de l’algorithme. Pour approfondir :
    https://medialab.sciencespo.fr/publications/Jacomy_Heymann_Venturini-Force_Atlas2.pdf
    Ensuite, optimisation de la visualisation avec les spatialisations « Ajustement des Labels » et
    « Déchevauchement » et enfin, le choix de visualisation des points et des labels des mots, ici
    proportionnelle au nombre de liens (synonymes) partant de chaque mot.
    Gephi construit dynamiquement à l’écran cette représentation
    Ce graphe peut être exporté au format pdf avec le choix de paramètres d’aperçu.
    Complet11.pdf
    Un autre résultat permet de mettre en évidence des communautés au sein du réseau complet.
    A la spatialisation « Atlas Force2 » et aux ajustements visuels précédents on ajoute le calcul (pressebouton) de la statistique « modularity » avec un paramètre de « résolution » égal à 1, 11
    communautés sont trouvées, algorithme : Vincent D Blondel, Jean-Loup Guillaume, Renaud
    Lambiotte, Etienne Lefebvre, c’est la méthode dite de Louvain.
    Les sous-graphes (communautés) sont calculés à partir du nombre de liens (synonymes) de chaque
    nœud (mots). La modularité regroupera les unités lexicales les plus liées entre elles par rapport au
    reste du graphe. L’algorithme va, de manière itérative, associer les nœuds en communauté de plus
    en plus large tout en recherchant les communautés les plus denses.
    Cette statistique est ensuite utilisée pour mettre en évidence visuelle les sous-groupes. La taille et la
    couleur des nœuds (mots) sont fonctions de la « modularity ».
    Utiliser le zoom pour lire les mots.
    Complet22.pdf
    Sur les visualisations du réseau complet, on constate que de nombreux synonymes de niveaux 2 ne
    sont reliés qu’à un seul synonyme de niveau 1 (liens en périphérie du graphe complet22). Un premier
    filtre consistera à réduire le graphe aux seuls 55 synonymes directs de « curieux » avec leurs 502
    liens entre eux.
    Le filtre utilisé sera « réseau ego-centré » sur le nœud « curieux » avec une profondeur de 1.
    On se ramène ainsi à un réseau de 56 points et de 502 liens.
    On y applique une spatialisation pour avoir une représentation visuelle agréable et parlante.
    On retrouve alors le graphe d’adjacence de « curieux ». La taille des nœuds est proportionnelle au
    nombre de liens.
    Adjacence2.pdf
    Ensuite, nous pouvons analyser et visualiser ce seul sous-graphe.
    Spatialisation avec « Atlas Force2 » et ses compléments adaptatifs.
    Un résultat obtenu où la taille des nœuds est fonction du nombre de liens (le degré) :
    Spatial-forceatlas2-degre.pdf
    Utilisation de l’indice de modularité. On se rapproche des résultats obtenus avec la notion d’espace
    sémantique (Sabine Ploux, Bernard Victorri,6 Mar 2006, Construction d’espaces sémantiques à l’aide de
    dictionnaires de synonymes. Traitement Automatique des Langues, ATALA, 1998, pp.161-182. halshs-00009433)
    bien que la méthode statistique appliquée soit très différente.
    En fonction de l’objectif, on peut déterminer le nombre de communautés en jouant sur le paramètre
    « résolution » du calcul de la modularité.
    Tableau des synonymes dans 5 communautés
    amateur-trice
    chercheur
    collectionneur-euse
    dilettante
    fouilleur
    fouinard
    fouineur
    fureteur
    indiscret
    inquisiteur
    investigateur
    amusant
    beau
    drolatique
    drôle
    intéressant
    original
    piquant
    pittoresque
    plaisant
    truculent
    Bizarre
    bizarroïde
    extraordinaire
    extravagant
    insolite
    inusité
    rare
    singulier
    unique
    anxieux
    attachant
    attentif
    avide
    badaud
    désireux
    dilettante
    flâneur
    fouille-au-pot
    intéressé
    intrigué
    juge
    regardant
    soucieux
    spectateur-trice
    voyeur
    surprenant
    paradoxal
    inouï
    incroyable
    Inconcevable
    incompréhensible
    inattendu
    étrange
    étonnant
    déconcertant
    Spatialisation associée : Modularite5classes.pdf
    Tableau des synonymes dans 10 communautés
    anxieux
    attentif
    avide
    désireux
    intéressé
    intrigué
    soucieux
    amateur-trice
    dilettante
    badaud
    flâneur
    regardant
    spectateur-trice
    voyeur
    chercheur
    collectionneur-euse
    fouilleur
    fouinard
    fouineur
    fureteur
    indiscret
    inquisiteur
    investigateur
    bizarroïde
    extravagant
    insolite
    singulier
    amusant
    bizarre
    drolatique
    drôle
    original
    plaisant
    truculent
    étonnant
    inconcevable
    incroyable
    inouï
    paradoxal
    surprenant
    attachant
    beau
    intéressant
    piquant
    pittoresque
    extraordinaire
    inusité
    rare
    unique
    curieux
    déconcertant
    étrange
    fouille-au-pot
    inattendu
    incompréhensible
    juge
    Spatialisation associée : Modularite10class.pdf
    Gephi permet également de réaliser un site Web dynamique, avec une simple fonction d’« export »,
    grâce à « sigmaexporter » l’un de ses nombreux plugin. L’export obtenu (dossiers de fichiers de taille
    très réduite) doit être placé sur un serveur Web.
    Ce site Web reprend la dernière spatialisation obtenue pour en faire une visualisation interactive du
    graphe des mots. On peut, sur cette page Web dynamique et interactive, rechercher un mot ou une
    communauté de mots et voir (graphiquement et littéralement) les synonymes qui lui sont liés ou lui
    appartiennent.
    Site Web de la spatialisation en 5 communautés des synonymes de « curieux »
    https://synonymes-semantique.000webhostapp.com
    Robert Pastorelli le 10-12-2019
Concevoir un site comme celui-ci avec WordPress.com
Commencer