Thèses & HDR

2013

Morlane-Hondere F., « Une approche linguistique de l'évaluation des ressources extraites par analyse distributionnelle automatique »,
Dans cette thèse, nous abordons du point de vue linguistique la question de l'évaluation des bases lexicales extraites par analyse distributionnelle automatique (ADA). Les méthodes d'évaluation de ces ressources qui sont actuellement mises en oeuvre (comparaison à des lexiques de référence, évaluation par la tâche, test du TOEFL...) relèvent en effet d'une approche quantitative des données qui ne laisse que peu de place à l'interprétation des rapprochements générés. De ce fait, les conditions qui font que certains couples de mots sont extraits alors que d'autres ne le sont pas restent mal connues. Notre travail vise une meilleure compréhension des fonctionnements en corpus qui régissent les rapprochements distributionnels. Pour cela, nous avons dans un premier temps adopté une approche quantitative qui a consisté à comparer plusieurs ressources distributionnelles calculées sur des corpus différents à des lexiques de références (le Dictionnaire électronique des synonymes du CRISCO et le réseau lexical JeuxDeMots). Cette étape nous a permis, premièrement, d'avoir une estimation globale du contenu de nos ressources, et, deuxièmement, de sélectionner des échantillons de couples de mots à étudier d'un point de vue qualitatif. Cette deuxième étape constitue le coeur de la thèse. Nous avons choisi de nous focaliser sur les relations lexico-sémantiques que sont la synonymie, l'antonymie, l'hyperonymie et la méronymie, que nous abordons en mettant en place quatre protocoles différents. En nous appuyant sur les relations contenues dans les lexiques de référence, nous avons comparé les propriétés distributionnelles des couples de synonymes/antonymes/hyperonymes/méronymes qui ont été extraits par l'ADA avec celles des couples qui ne l'ont pas été. Nous mettons ainsi au jour plusieurs phénomènes qui favorisent ou bloquent la substituabilité des couples de mots (donc leur extraction par l'ADA). Ces phénomènes sont considérés au regard de paramètres comme la nature du corpus qui a permis de générer les bases distributionnelles étudiées (corpus encyclopédique, journalistique ou littéraire) ou les limites des lexiques de référence. Ainsi, en même temps qu'il questionne les méthodes d'évaluation des bases distributionnelles actuellement employées, ce travail de thèse illustre l'intérêt qu'il y a à considérer ces ressources comme des objets d'études linguistiques à part entière. Les bases distributionnelles sont en effet le résultat d'une mise en oeuvre à grande échelle du principe de substituabilité, ce qui en fait un matériau de choix pour la description des relations lexico-sémantiques.
2013, Université de Toulouse 2-Le Mirail, Sciences du langage, Thèse de Sciences du langage, CLLE, Tags: Linguistique de corpus, Sémantique distributionnelle, Type de publication: Thèses & HDR

2012

Tanguy L., « Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problèmes »,
Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 dernières années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagières disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagières, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroître de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel.
2012, Université de Toulouse 2, Linguistique, Mémoire d'Habilitation à Diriger des Recherches en Linguistique, CLLE, Tags: Linguistique, Tal, Type de publication: Thèses & HDR

2011

Bégault B., « Enjeux de la diffusion électronique des recherches : pratiques informationnelles et validation des connaissances en sciences de l’ingénieur »,
Au XVIIe siècle, le « journal » apparaît comme un vecteur de la diffusion scientifique ; au XVIIIe siècle, il affirme des fonctions de certification de la découverte scientifique. La revue devient alors une pratique de la science. Sa place en sciences, techniques, et médecine repose sur plusieurs phénomènes : la conception d'une science expérimentale, le besoin de conserver le cheminement des découvertes scientifiques, la nécessité de leur validation et le besoin de procurer l'exclusivité des découvertes. Le chercheur écrit pour diffuser les connaissances qu'il a acquises et s'adresse à ceux de ses collègues qui travaillent dans le même domaine que lui. L'avènement de l'informatique et des technologies de communication marque ensuite une grande étape dans l'accès à l'information spécialisée. Les revues scientifiques imprimées qui représentent le mode privilégié de diffusion de la connaissance sont alors fortement concurrencées par d'autres supports de diffusion, la revue électronique et les archives ouvertes. Dans quel contexte, la diffusion électronique a t-elle fait son apparition ? Ce n'est qu'à partir de 1998 que l'intégration des revues électroniques devient effective et massive grâce à la mise en ligne des collections de périodiques de la plupart des grands éditeurs scientifiques et de sociétés savantes. La facilité d'accès à l'électronique a modifié le paysage de l'édition scientifique et la revue papier a vu apparaître à ses côtés une revue électronique qui a trouvée son audience et son lectorat. Quels sont les usages des revues électroniques par les chercheurs ? Ont-ils évolué depuis l'apparition des revues électroniques ? Les disciplines sont-elles un facteur de leur intégration ou de leur non-intégration dans les pratiques informationnelles ? Quels enjeux pour la diffusion des connaissances représentent les revues électroniques ? Assistons-nous à une substitution ou une coexistence ? Pour connaître précisément la réalité actuelle de l'intégration des revues électroniques dans les pratiques informationnelles des chercheurs en sciences de l'ingénieur, une approche qualitative a été choisie. Il s'agira de comprendre les principaux obstacles au développement d'autres supports de diffusion ainsi que les changements que ces supports induisent dans les pratiques de la communauté des chercheurs. Puis, il conviendra de s'interroger sur une éventuelle emprise des chercheurs sur ces nouvelles formes d'édition scientifique et de les comparer avec d'autres changements de modalités de diffusion des recherches plus anciens.
2011, Editions Universitaires Européennes, Université de Toulouse, Sciences de l'information et de la communication, Publication de la thèse de doctorat en Sciences de l’information et de la communication soutenue à l’Université de Toulouse, 2008, Tag: Diffusion electronique, Type de publication: Thèses & HDR

2002

Ertzscheid O., « Le lieu, le lien, le livre : les enjeux cognitifs et stylistiques de l’organisation hypertextuelle »,
L'enjeu de ce doctorat est de montrer comment la perception et les pratiques liées à la figure de l'hypertexte permettent d'entrevoir de profonds bouleversements dans notre rapport à l'écrit (document numérique, nouveaux genres littéraires, textualité renouvelée), à l'organisation de la connaissance, ainsi qu'à la manière dont s'agrègent, se constituent, se développent et se transforment les différents types de rapport au réel présents dans toute organisation sociale réticulée. L'analyse critique de ces transformations nous permet de préciser comment se met progressivement en place une nouvelle écologie cognitive, en quoi elle est rendue nécessaire, et quels sont les outils (typologie englobante des processus de liaison entre entités) et les pratiques sociales émergentes qui la fondent. Dans notre premier chapitre, nous faisons d'abord un point sur les effets déjà mesurables de l'organisation hypertextuelle dans le rapport à l'écrit pour isoler les transformations cognitives occasionnées par ce nouveau support, pour isoler également la nouvelle organisation des structures traditionnelles de l'énonciation dans le processus de communication (rapports auteur-lecteur, agencements collectifs d'énonciation). Nous concluons par une typologie des nouveaux genres hypertextuels (liés notamment à l'utilisation de générateurs) et sur le statut littéraire de ces productions. Notre second chapitre aborde les aspects plus « théoriques » de l'organisation hypertextuelle au travers de l'étude systématique de ses procédés de liaison. Après un état de l'art de la question, nous définissons une typologie englobante des liens hypertextuels prenant en compte leurs aspects informatiques, les structures rhétoriques et formelles qui les sous-tendent et les différents types de rapport entre ces « entités-liens » autorisant à qualifier différentes organisations hypertextuelles. Sur tous ces points, les propositions formulées dans ce travail devront permettre d'améliorer les pratiques de navigation et de réduire certains effets liés (surcharge cognitive, désorientation). Notre troisième chapitre montre que ce que ces liens révèlent du fonctionnement de la pensée humaine (mode essentiellement associatif) est en train de changer la manière dont les systèmes et les organisations sociales se constituent et se développent, en mettant en place, de manière effective, des artefacts et de processus habituellement implicites et dont l'enjeu sera, pour le chercheur, d'accompagner le passage à l'explicite. Ce dernier chapitre s'appuie sur le dispositif expérimental FoRSIC et l'utilisation qu'il fait de différents types ontologiques, ce dernier étant caractéristique des ces nouveaux rapports au savoir que notre travail essaie de qualifier plus que de quantifier.
2002, Thèse de Sciences de l'information et de la communication, Université de Toulouse 2, Thèse de Sciences de l’information et de la communication, Tags: Document, Hypertexte, Type de publication: Thèses & HDR

2001

Zinna A., « Les Objets d’écriture et leurs interfaces. Textes interactifs et hypertextes », 2001, Université de Limoges, Mémoire de HDR de Sciences du langage, Tags: Écriture, Hypertexte, Type de publication: Thèses & HDR

1997

Tanguy L., « Traitement automatique de la langue naturelle et Interprétation : Contribution à l'élaboration d'un modèle informatique de la Sémantique Interprétative », 1997, Université de Rennes 1, Thèse de Linguistique, Tags: Ambiguïtés, Analyse automatisée, Analyse distributionnelle, Analyse morphologique, Analyse syntaxique, Analysis of accidents/incidents, Annotation de corpus, Antonymie, Apprentissage, Archives ouvertes, Articles scientifiques, Auteur, Autopoïese, Categorization, Citation, Communication, Complexity, Compréhension, Connaissance, Contexte professionnel, Corpus, Dictionnaires informatisés, Difficult query, Diffusion, Discours, Document, Document numérique, Documentation, Documents électroniques, Ecran, Écriture, Enseignement, Ergonomie, Ergonomie cognitive, Esa, Évaluation, Google, Guide d'utilisation, Hypermédia, Hypertexte, Indexation, Information, Information scientifique, Informatique, Interaction homme-machine, Internet, Journal, Langage, Lecture à l'écran, Lexicologie, Libre accès, Linguistic features, Linguistique, Linguistique de corpus, Morphologie dérivationnelle, Morphologie lexématique, Multilingue, Multimédia, Natural language processing, Navigation, Nlp, Numérique, Observatoire, Organisation du discours, Parcours, Pratiques, Pratiques informationnelles, Pratiques professionnelles, Recherche d'information, Références bibliographiques, Reformulation de requêtes, Réseaux, Réseaux-sociaux, Savoirs, Sémantique, Sémantique distributionnelle, Sémantique lexicale, Sémiotique, Similarité de second ordre, Structures de discours, Structures énumératives, Tal, Tic, Tlfi, Traductions, Traitement de données, Trec, Usages, Utilisateurs, Wikipédia, Type de publication: Thèses & HDR