
Das VAMoS-Logo
VAMoS - Verarbeitung, Analyse und Modellierung natürlicher Sprache - ist ein in hohem Maße inhaltlich und methodisch vernetzter, interdisziplinärer Studiengang, der sehr forschungsnah konzipiert ist. Als Verantwortliche für den Studiengang wollten wir, dass unser Logo diese Eigenschaften wiederspiegelt. Daher war früh klar, dass wir eine Netzwerkstruktur im Logo aufgreifen wollten, zumal sie auch mit Blick auf die methodischen Inhalte des Studiengangs repräsentativ ist. Netzwerke und Netzwerkanalysen werden in der computerlinguistischen und psycholinguistischen Forschung häufig zu Modellierungs-, Visualisierungs- und Analysezwecken verwendet.
Ausgehend von einem konkreten, detailreichen Netzwerk abstrahierten wir zunehmend, bis wir zu der abstrakteren Form im Logo kamen, die die Themenbereiche Verarbeitung, Analyse und Modellierung sowie die Fachbereiche Computerlinguistik, Psycholinguistik und die gemeinsamen linguistischen Grundlagen in ihrer Vernetzung beinhaltet. Dabei haben wir die detailreiche Variante des Netzwerks nicht aufgegeben: Sie finden sie auf unseren Webseiten, je nach Inhalt der Seite mal als Gesamtnetzwerk, mal als Ausschnitt aus dem Gesamtnetzwerk.
Für Interessierte haben wir hier dargestellt, auf welcher Datengrundlage und mit welchen Methoden wir das detailreiche Netzwerk erstellt haben. Wir nutzten dazu Verfahren, die B.A.-Studierende von VAMoS bereits im zweiten Semester einsetzen können.

Startpunkt für unser Logo war dieses semantisch-lexikalische Netzwerk. „Semantisch-lexikalisch“ deshalb, weil es Beziehungen zwischen Wörtern herstellt, wobei die Art dieser Beziehungen davon abhängen, wie ähnlich sich die Wörter in ihrer Bedeutung sind.
Zur Visualisierung eines solchen Netzwerks gehören mehrere Schritte: (1) Die Auswahl der Wörter; (2) die Berechnung der Ähnlichkeiten zwischen den Wörtern; (3) ein Kriterium, das entscheidet, zwischen welchen Wörtern eine Verbindung gezogen wird; (4) ein Algorithmus, der bestimmt, wie sich die einzelnen Wörter im Raum verteilen.
Die Wörter, die in diesem Netzwerk enthalten sind, wurden größtenteils der Homepage des Sprachwissenschaftlichen Instituts sowie den Veranstaltungsankündigungen zum Wintersemester 2021/22 entnommen. Gesucht wurden Schlüssel- und Fachbegriffe insbesondere aus den Fachbereichen aus VAMoS und der allgemeinen wissenschaftlichen Praxis, und das ganz nach alter Schule: Lesen, finden und notieren. Nach dieser ersten Vorauswahl wurden einige wenige weitere Begriffe durch Angehörige des Instituts ergänzt, sodass die Liste von 153 auf vorläufig 162 Wörter aufgestockt wurde.
Dass es Wörter gibt, die sich in ihrer Bedeutung ähnlicher sind als andere, ist auch ohne linguistisches Vorwissen intuitiv nachvollziehbar; man vergleiche zum Beispiel die Wortpaare „Hund“ – „Katze“ und „Hund“ – „Telefon“. Um ein semantisch-lexikalisches Netzwerk zu erstellen, müssen solche Ähnlichkeiten quantifiziert werden. Wie ähnlich sich zwei Wörter in ihrer Bedeutung sind, kann in Python oder R berechnet werden, Programmierumgebungen, mit denen Studierende von VAMoS schon in den ersten Semestern vertraut gemacht werden. Für R entwickelten Günther et al. (2014) ein Paket, LSAfun, mit in R leicht Ähnlichkeiten zwischen Wortpaaren berechnen lassen. Als Grundlage dieser Berechnung benötigten wir einen sogenannten semantischen Raum, in dem Bedeutungen als Merkmalskombinationen dargestellt werden - wir nutzten den von Fritz Günther bereitgestellten Raum de_wiki. Für unser Netzwerk konnten wir damit die Ähnlichkeitsbeziehungen zwischen sämtlichen Zwei-Wort-Kombinationen bestimmen. Da jedoch nicht alle der 162 ausgewählten Wörter in de_wiki enthalten waren, mussten wir die Wortliste auf 126 Begriffe reduzieren.
Als nächstes musste ein Kriterium dafür gefunden werden, welche Wörter im Netzwerk miteinander verbunden werden und welche nicht. Die im LSAfun-Paket enthaltenen Funktionen verleihen der Bedeutungsähnlichkeit zweier Wörter einen Zahlenwert. Für die Wörter „Psycholinguistik“ und „Kognition“ wurde zum Beispiel ein vergleichsweise hoher Wert von 0,541 berechnet – das zeigt an, dass sie sich durchaus ähnlich sind. Für unser Netzwerk entschieden wir, dass es zwischen Wörtern, deren semantische Ähnlichkeit einen Wert kleiner als 0,344 betrug, was der Hälfte des ermittelten Maximums von 0,688 entsprach, keine Verbindung geben soll. Damit war die Datengrundlage zur Visualisierung des Netzwerks geschaffen, die nun mithilfe des Computerprogramms Gephi erstellt wurde (Bastian et al., 2009). Zur Berechnung stellt Gephi verschiedene Algorithmen zur Verfügung, von denen wir Force Atlas auswählten; dieser ordnet die im Netzwerk enthaltenen Wörter vorzugsweise so an, dass Gruppen von besonders ähnlichen Wörtern – sogenannte Cluster – eher außen liegen, während Wörter mit besonders vielen Verbindungen ins Zentrum gezogen werden.
Zum Schluss wurden noch einige manuelle Änderungen am Erscheinungsbild des Netzwerks vorgenommen: Die Cluster, welche sich herauskristallisiert hatten, wurden eingefärbt; Wörter mit besonders vielen Verbindung werden größer dargestellt; um die Lesbarkeit zu verbessern wurde das Netzwerk etwas auseinandergezogen; zum gleichen Zweck wurde die Position einzelner Wörter angepasst. Nach Einstellung ein paar weiterer Feinheiten war das Resultat das hier zu sehende semantisch-lexikalische Netzwerk mit linguistischen Begriffen.
Literaturverweise
Bastian, M., Heymann, S., & Jacomy, M. (2009). Gephi: An open source software for exploring and manipulating networks. Proceedings of the International AAAI Conference on Web and Social Media, 3(1), 361-362. Retrieved from https://ojs.aaai.org/index.php/ICWSM/article/view/13937
Günther, F., Dudschig, C., & Kaup, B. (2015). LSAfun – An R package for computations based on Latent Semantic Analysis. Behavior Research Methods, 47, 930-944. https://doi.org/10.3758/s13428-014-0529-0