Stottertheorie.de



 

1. 4. Erwartungen als Grundlage des Monitorings

Beim Monitoring geht es um zweierlei: um die Entdeckung von Versprechern und darum, zu prüfen, ob die gemachte Äußerung der Aussageabsicht entspricht oder man sich unklar oder missverständlich ausgedrückt hat. Soweit das Monitoring der Kontrolle auf Sprechfehler dient, geschieht es durch das Vergleichen einer aktuell produzierten Sprecheinheit (meist eines Wortes oder einer Phrase) mit einer Erwartung von deren korrekter Form.

Eine für unser Thema wichtige Frage ist: Wie können diese Erwartungen erzeugt werden? Willem Levelt glaubte, dass ein präartikulatorischer phonetischer Plan die Grundlage dafür sei [1]. Eine Variante dieser Sichtweise ist die Efferenzkopie-Theorie: Eine Efferenzkopie ist die (theoretisch angenommene) Projektion eines motorischen Plans in dasjenige sensorische System, mit dem die durch den motorischen Plan gesteuerte Bewegung wahrgenommen wird [2]. Man muss sich jedoch fragen, ob die Kopie eines motorischen Planes als Basis für das Monitoring des Sprechens taugt: Wie soll etwa die Verwechslung zweier ähnlich klingender Wörter – einer der häufigsten Versprecher – aufgrund der Kopie eines motorischen Plans erkannt werden? Dieser Plan würde bereits die Bewegungsfolge für das falsche Wort enthalten, sonst wäre es nicht gesprochen worden. Auf der Basis der Efferenzkopie könnte also nur ein Fehler festgestellt werden, der dadurch entstanden ist, dass die Muskeln andere Sprechbewegungen ausgeführt haben, als der motorische Plan vorsah – falls so etwas überhaupt möglich ist  (mehr...) .

Zudem kann man sich fragen, ob die Kopie eines Sprechplanes für das Monitoring des Sprechens überhaupt notwendig ist. Beim Hören auf die Rede einer anderen Person sind wir in der Lage, Sprechfehler unmittelbar zu erkennen, und das, ohne über eine Kopie vom Plan des Sprechers zu verfügen. Syntaktische Fehler (Phrasenstrukturverletzungen, z.B. „Hans trinkt saß“) in gesprochenen Sätzen lösen im Gehirn eines Zuhörers Reaktionen aus, die als ereigniskorreliertes Potential (EKP) bereits nach ca. 120 ms messbar sind; semantische Fehler (z.B. „Hans trinkt Holz“) lösen ein EKP nach ca. 400 ms aus [3]. Offenbar ist ein Hörer fähig, auf der Basis des bisher Gehörten innerhalb sehr kurzer Zeit eine Erwartung von dem zu bilden, was ein Sprecher gerade im Begriff ist zu sagen und wie es sich anhören sollte, und die aktuelle Wahrnehmung damit zu vergleichen.

Wie kann ein Zuhörer diese Erwartung erzeugen? Er weiß aus eigener Erfahrung intuitiv, wie durch die bereits gesprochenen Wörter eines Satzes die Wahlmöglichkeiten des Sprecher eingeschränkt werden: Je mehr Wörter eines Satzes gesprochen sind, um so weniger semantische und syntaktische Wahlmöglichkeiten verbleiben bei der Vollendung des Satzes. Das erleichtert es dem Zuhörer, Erwartungen zu bilden und Wahrnehmungen, die diesen Erwartungen widersprechen, sofort als potentielle Fehler zu identifizieren. Ganz allgemein kann man sagen: Das bereits Gehörte ermöglicht es dem Zuhörer, Erwartungen zu bilden von dem, was der Sprecher als nächstes sagen wird.

Das gilt auch für die Lautfolgen vertrauter Wörter und Phrasen: Ein Zuhörer erkennt solche Sprecheinheiten oft bereits an wenigen Anfangslauten – besonders dann, wenn die Sprecheinheit in einen Satzkontext eingebettet ist, der das Erkennen und die Antizipation ihrer Lautfolge erleichtert. Diese Annahme wird durch die Beobachtung gestützt, dass sowohl Erwachsene als auch Vorschulkinder beim Hören auf gebundene Sprache die Aufmerksamkeit vorrangig auf die Anfangsbereiche von Wörtern richten [4]. Schon in den 1960er Jahren haben Moris Halle und Ken Stevens ein Modell entwickelt, das beschreibt, wie Lautsequenzen auf der Basis eines Minimums an einlaufenden Signalen vorausgesagt und so Wörter erkannt werden können [5]  (mehr...) .

Das Hören selbst und das implizite Wissen über die Sprache ermöglichen also die Bildung jener Erwartungen, die es einem Zuhörer erlauben, Fehler in der Sprache anderer schnell zu bemerken. Nehmen wir nun, in Übereinstimmung mit Willem Levelt [1] an, dass dieselben Mechanismen, die es erlauben, beim Zuhören Fehler in der Rede anderer zu bemerken, auch bei der Kontrolle des eigenen Sprechens wirksam sind. Dann ergibt sich eine womöglich überraschende These: Beide Komponenten, die für das Monitoring der Sprache notwendig sind – die Erwartung der korrekten Formen und die Wahrnehmung der produzierten Formen – basieren auf der auditiven Rückmeldung des Sprechens  (mehr...) . Allerdings ist dabei zu beachten, dass bei der Kontrolle des eigenen Sprechens die Bildung von Erwartungen dadurch erleichtert wird, dass der Sprecher die beabsichtigte Botschaft seiner Rede besser kennt als der Zuhörer. Das mag der Grund sein, warum Fehler in der eigenen Rede mitunter schneller erkannt werden als Fehler in der Rede anderer – besonders wenn es sich um semantische Fehler handelt.
 

Wir haben nun ein grob skizziertes Schema des normalen Sprechens, dessen wichtigste Merkmale sind:

Dieses grobe Schema des normalen Sprechens bildet den Rahmen für die Theorie des Stotterns, die im nächsten Kapitel vorgestellt wird.

 nach oben 

 nächste Seite 


Fußnoten

Efferenzkopie-Theorie

Die Efferenzkopie-Theorie liefert eine Erklärung dafür, warum wir auf einen Reiz, den wir selbst durch eine Bewegung verursachen, deutlich schwächer reagieren als auf denselben Reiz, wenn er nicht von uns selbst verursacht ist (beispielsweise reagiert man auf Selbst-Berührung niemals kitzelig). Als Nachweis für Efferenzkopien beim Sprechen gilt eine Verminderung der Aktivität innerhalb der Hörareale auf der Großhirnrinde während des Phonation im Vergleich zum passiven Hören. Dieser Effekt wird als "speech-induced supression" bezeichnet und ist vielfach empirisch nachgewiesen, sogar bei Affen und Grillen. Er tritt sogar dann auf, wenn ein Geräusch künstlich, z.B. von einem Computer, erzeugt wird: Die Hörareale einer Versuchsperson reagieren schwächer auf das Geräusch, wenn die Person es selbst durch Knopfdruck auslöst, und stärker, wenn das Geräusch durch den Computer ausgelöst wird, [6].

Möglicherweise hängt der Effekt damit zusmmen, dass auf einen unerwarteten Reiz stärker reagiert wird als auf einen erwarteten (das absichtliche Auslösen des Reizes erzeugt ein Höchstmaß an Erwartung). Für diese Annahme spricht der Befund, dass eine unerwartete Veränderung der auditiven Rückmeldung die Aktivität in den Hörarealen sofort ansteigen lässt, z.B. wenn eine Person beim Sprechen die eigene Stimme über Kopfhörer hört und plötzlich die Tonhöhe künstlich verändert wird [7]. Der entscheidende Punkt ist, dass diese Erwartungen aufgrund von Plänen der tatsächlich ausgeführten Bewegungen gebildet werden. Für das Monitoring des Sprechens sind solche Erwartungen unbrauchbar, denn der Plan der Sprechbewegungen für ein falsch gewähltes oder falsch artikuliertes Wort ist ein falscher Plan, auf dessen Grundlage nur die Erwartung des falschen Wortes erzeugt werden könnte. Für die Entdeckung des Fehlers benötigen wir jedoch die Erwartung des richtigen Wortes bzw. seiner korrekten Form.  (zurück) 
 

Analyse-durch-Synthese-Modell von Halle und Stevens

Das Modell beschreibt einen Mechanismus, wie das Gehirn auf der Basis weniger wahrgenommener Laute ein Wort „erraten“ kann. Dabei wird angenommen, dass eine erste vage Voraussage in mehreren Schritten mit weiteren, inzwischen wahrgenommenen Lauten und/oder mit Kontextinformationen verglichen und auf diese Weise aktualisiert und präzisiert wird [5]. Mit Hilfe dieses Modells lässt sich beispielsweise auch erklären, warum wir jemanden, der fehlerhaftes Deutsch mit starkem ausländischen Akzent spricht, trotzdem verstehen können. Die Fähigkeit, geläufige Wörter und Phrasen anhand weniger Anfangslaute zu erkennen und deren weitere Lautfolge zu prognostizieren ist also nur ein Spezialfall der allgemeineren Fähigkeit des Gehirns, aus unvollständigen oder fehlerhaften Lautfolgen (meistens) die richtigen Wörter zu erraten.  (zurück) 
 

Sprechen und Denken

Möglicherweise mutet die These befremdlich an, der zufolge die auditive Rückmeldung nicht nur Basis für die Wahrnehmung der eigenen Sprache ist, sondern auch für die Erwartung der korrekten Formen der Wörter und Sätze. Die These hat mit einem Grundproblem der Sprachphilosophie zu tun: dem Verhältnis von Sprache und Denken [8]. Die spezifische Frage in unserem Zusammenhang ist: Kennen wir beim spontanen Sprechen unsere Sätze, bevor wie sie aussprechen?

Mancher wird behaupten, dass er (oder sie) das tut. Aber würden wir auch behaupten, unsere Gedanken, also unsere intern gesprochenen Sätze zu kennen, bevor wir sie wahrgenommen, sie also innerlich gehört haben? Vermutlich nicht. Doch wenn es so ist, dass wir unserer innerlich gesprochenen Sätze dadurch gewahr werden und sie verstehen, dass wir sie innerlich hören – warum sollten wir dann annehmen, unserer äußerlich gesprochenen Sätze auf andere Weise gewahr zu werden und sie auf andere Weise zu verstehen als dadurch, dass wir sie äußerlich hören? Deshalb glaube ich: Beim spontanen äußerlichen Sprechen kennen wir vor dem Aussprechen weder den formulierten Satz noch den phonologischen Plan eines Wortes in seiner konkreten grammatischen Form. Wir kennen allein die beabsichtigte Botschaft.  (zurück) 
 

 nach oben 

 nächste Seite 

Quellen

  1. Levelt (1995)
  2. siehe z.B. Beal et al. (2010), Brown et al. (2005)
  3. Friederici (1999)
  4. Astheimer & Sanders (2009, 2012)
  5. Übersicht und Aktualisierung in Poeppel & Monahan (2010)
  6. Übersicht in Behroozmand & Larson (2011)
  7. Tourville et al. (2008), Behroozmand & Larson (2011)
  8. siehe z.B. Carruthers & Boucher (1998)

 zum Literaturverzeichnis