EWR 7 (2008), Nr. 4 (Juli/August)

Bildungsstandards und Evaluation - Eine Sammelbesprechung

Wolfgang Böttcher / Hans-Georg Kotthoff (Hrsg.)
Schulinspektion: Evaluation, Rechenschaftslegung und QualitÀtsentwickung
MĂŒnster: Waxmann 2007
(233 S.; ISBN 978-3-8309-1678-9; 24,90 EUR)
Dietrich Benner (Hrsg.)
Bildungsstandards
Chancen und Grenzen, Beispiele und Perspektiven
Paderborn: Schöningh 2007
(249 S.; ISBN 978-3-5067-6331-0; 29,90 EUR)
Ingmar Hosenfeld / Jana Groß Ophoff (Hrsg.)
Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht
Landau: Verlag Empirische PĂ€dagogik 2007
(124 S.; ISBN 978-3-9373-3367-0; 15,90 EUR)
Schulinspektion: Evaluation, Rechenschaftslegung und QualitĂ€tsentwickung Bildungsstandards Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht Das Thema Bildungsstandards ist auch mehrere Jahre nach der großen Verwunderung ĂŒber nur mediokre Leistungen des deutschen DurchschnittsschĂŒlers ein zentrales Thema der erziehungswissenschaftlichen und bildungspolitischen Diskussion. Allerdings haben sich die thematischen Schwerpunkte verlagert. WĂ€hrend zu Beginn dieses Jahrzehnts vor allem ĂŒber die Aussagekraft von Schulleistungsmessungen und die Konzeption von Standards diskutiert wurde, fragt man sich nun, wie Standards, Tests und neue Steuerungsideen tatsĂ€chlich Unterricht und Schule verbessern können.

Um genau diese Fragestellung kreisen die BeitrÀge der drei HerausgeberbÀnde. Dabei zeigt die HeterogenitÀt der AnsÀtze, mit welcher Vielfalt sich die erziehungswissenschaftliche Theoriebildung dieser Problematik nÀhern kann. Das ist beeindruckend und zeugt von einer lebendigen, kritischen Wissenschaft. Andererseits wird zu einem so populÀren Thema wie Bildungsstandards auch vieles geschrieben, was eigentlich unnötig ist oder in anderen ZusammenhÀngen besser aufgehoben wÀre. Das Ergebnis der Rezension deshalb schon einmal vorneweg:

Trotz der sowieso schon bestehenden FĂŒlle an Literatur in diesem Bereich und trotz thematischer Ausrutscher hier und da sind diese drei BĂŒcher ein „must read“ fĂŒr alle Akteure und Wissenschaftler, die mit der Umsetzung oder Erforschung von Bildungsstandards – in welcher Weise auch immer – befasst sind.

Benner: Bildungsstandards

Das erste Buch ist ein von Dietrich Benner herausgegebener Tagungsband zum Symposion Bildungsstandards im Jahr 2006 an der Humboldt-UniversitĂ€t zu Berlin. FĂŒr die BeitrĂ€ge gab es anscheinend keine weitere thematische Eingrenzung und somit liegt eine Textsammlung vor, in der sich namhafte aber auch unbekannte Autoren auf einem sehr abstrakten und theoretisch anspruchsvollen Niveau grundsĂ€tzliche und manchmal auch schwer nachvollziehbare Gedanken zu Chancen und Grenzen von Bildungsstandards sowie zu deren Ausgestaltung in reflexiv-domĂ€nenspezifischen Kompetenzmodellen machen. Das Gute an der LektĂŒre ist, dass die 15 EinzelbeitrĂ€ge auf ĂŒber 250 Seiten einen Spannungsbogen erzeugen. Man weiß als Leser nie genau, was einen als nĂ€chstes erwartet: eine abwĂ€gende Analyse, ein kritisch-konstruktiver Vorschlag zur Weiterentwicklung oder der Versuch, AbgrĂŒnde der Standards aufzuzeigen. Als roter Faden hĂ€tte sich durchaus der Begriff „reflexive Bildungsstandards“ geeignet. Benner leistet in seinem Beitrag eine entsprechende BegrĂŒndung und auch im Klappentext wird er erwĂ€hnt. Dabei bleibt es aber.

Der Band wird eröffnet von einem „mainstream“-Beitrag. Zur Einstimmung erzĂ€hlt Olaf Köller noch einmal die Geschichte von PISA und der darauf folgenden EinfĂŒhrung von Bildungsstandards. Thematisch drehen sich die AusfĂŒhrungen dann um die standard-analogen, einheitlichen PrĂŒfungsanforderungen fĂŒr die allgemeine Hochschulreife sowie um lĂ€ndervergleichende Ergebnisse der TOSCA-Studie. Zwar ist darĂŒber schon an anderen Stellen berichtet worden, aber Köller kann exemplarisch noch einmal schön aufzeigen, dass man mit kompetenzorientierten Tests große Schulform- und LĂ€nderunterschiede in der Leistung von Abiturienten aufzeigen kann. Daraus wird geschlussfolgert, dass mit Standards und den darauf bezogenen Testinstrumenten die Vergleichbarkeit von SchulabschlĂŒssen geprĂŒft und damit prinzipiell Maßnahmen zur QualitĂ€tssteigerung angestoßen werden können. Wie diese QualitĂ€tsmaßnahmen aussehen können und wie sie mit Standards zusammenhĂ€ngen, wird den nachfolgenden Autoren ĂŒberlassen. Köller geht es vor allem um das Bewusstsein fĂŒr die Differenzen und um die ordentliche Messung dieser Differenzen.

Sowohl Helmut Heid als auch Jörg Ruhloff arbeiten mit kritischen Begriffsanalysen und machen in ihren BeitrĂ€gen auf WidersprĂŒche aufmerksam, die entstehen, wenn man mit Begriffen wie Kompetenzen und Standards eine QualitĂ€tsverbesserung des Bildungswesens betreiben möchte. Beispielsweise geht Ruhloff zunĂ€chst einmal von der alltagssprachlichen Bedeutung von „Standard“ aus und kommt zu interessanten Vergleichen: Wiederholbare und gleichförmige Produktionsprozesse benötigen Standardisierung, um QualitĂ€t und Effizienz zu sichern. Bei der Maßanfertigung eines Anzugs, einem einmaligen und auf das Individuum bezogenen Produktionsprozess besteht die QualitĂ€t gerade darin, dass keine Orientierung an Standards möglich ist. Solche Gedanken regen zum Nachdenken an. Der Höhepunkt der Argumentation ist allerdings die exakte Herausarbeitung eines ausschließenden Verbindlichkeitsanspruchs von Bildungsstandards. Gemeinhin werden Standards mit Zielen oder Richtlinien gleichgesetzt, sozusagen als etwas Altbekanntes dargestellt. Ruhloff sieht gerade an dieser Stelle eine entscheidende Differenz. Ziele und Richtlinien implizieren die Möglichkeit des Scheiterns, des Nichterreichens des gesetzten Ziels, Standards dagegen mĂŒssen erreicht werden. Die Möglichkeit, dass Bildung auch scheitern kann, besteht nicht mehr.

Sowohl Heid als auch Ruhloff bewegen sich auf einem Terrain weitab von der empirisch-sozialwissenschaftlichen Auseinandersetzung mit Standards – sowohl sprachlich als auch inhaltlich. Wieder etwas empirischer und sozialwissenschaftlicher wird es dagegen bei Peter Zedler und Hans Merkens. Zedler vertritt die These, dass QualitĂ€tssicherung im Bildungswesen die Voraussetzungen fĂŒr einen „erziehenden Unterricht“ ausblendet und das auch noch gegen die umfangreiche Befundlage im Bereich Motivations- und Interessenforschung. Die BegrĂŒndungen dieser These sind einerseits schlĂŒssig, andererseits aber auch immer wieder sperrig und langatmig. Einen wesentlich handfesteren Ansatzpunkt fĂŒr die Kritik der bisherigen Standardisierungspraxis sowie fĂŒr die pĂ€dagogische Weiterentwicklung standardbasierter Leistungsmessungen liefert auf jeden Fall Merkens in seinem gut strukturierten und verstĂ€ndlich geschriebenen Beitrag. Er stellt sich darin die Frage, wie Steuerung durch Standards und zentrale Leistungsmessungen ĂŒberhaupt möglich sei. RĂŒckmeldungen sind fĂŒr Schule und Lehrer ja eigentlich nichts Neues. Das Problem liegt vielmehr darin, dass diese Informationen im System unterkomplex interpretiert werden, d.h. sie werden nicht im vollen Umfang zur Steuerung eingesetzt. Eine Beobachtung, die vermuten lĂ€sst, dass die neuen, sehr elaborierten RĂŒckmeldeinformationen ein Ă€hnliches Schicksal erleben werden. Sehr instruktiv ist an dieser Stelle der Vergleich mit Steuerungskonzepten aus anderen gesellschaftlichen Bereichen, vor allem der Industrie. Merkens arbeitet heraus, dass neuere QualitĂ€tssicherungssysteme in der Ökonomie vor allem eine Prozesssteuerung bezwecken. Eine reine Outputsteuerung ist fĂŒr Produktionsprozesse zu wenig aussagekrĂ€ftig. Aber gerade diese Form der Steuerung wird momentan im Bildungswesen favorisiert. Die Frage ist somit, ob ĂŒberhaupt Steuerungsinformationen fĂŒr die entscheidenden Prozesse im Bildungswesen vorliegen. Auch die von PISA zu Recht angeprangerte UnfĂ€higkeit des Schulsystems im Umgang mit heterogenen SchĂŒlergruppen wird durch eine in Standards verdeckte „Tendenz zur Homogenisierung“ (90) nicht bearbeitet.

Nach einem Exkurs von Fritz Oser zur Frage der Standardisierbarkeit von Lehrerkompetenzprofilen geht es wieder zurĂŒck zum Hauptthema. Der Herausgeber selbst klĂ€rt in seinem Beitrag die Relation von Unterricht, Wissen und Kompetenz, indem die Unterschiede zwischen Testaufgaben und didaktischen Aufgaben dargelegt werden. Hierzu vergleicht Benner auf eine interessante und instruktive Weise eine PISA-Fernsehshow-Aufgabe mit einem Ă€hnlichen didaktischen Arrangement in Rousseaus Emile. Der Leser wird dabei in einen bildungstheoretischen Argumentationszusammenhang auf hohem Niveau verstrickt. Unter RĂŒckgriff auf Platos Höhlengleichnis einerseits und neuzeitliche Positionen bei Descartes und Bacon andererseits, zeigt Benner, dass Wissen und Kompetenz nicht als Duale gedacht werden können. Vielmehr verlĂ€sst der Lernende den Raum der Erfahrung, die Höhle, um die ĂŒbergeordneten Ideen und somit auch das eigene Nicht-Wissen zu erkennen. Gerade diese NegativitĂ€t der Erfahrung hat dann eine bildende Bedeutung bei der RĂŒckkehr in die Höhle und fĂŒhrt im antiken VerstĂ€ndnis zu einer reflexiven Kompetenz und einer Partizipationskompetenz. Leider ist dieser Artikel viel zu kurz und es bleibt zum Schluss bei stichwortartigen Andeutungen, wie diese beiden Kompetenzformen fach- und domĂ€nenspezifisch auszugestalten sind.

Anschließend leitet Benner mit einem Zwischenbericht zum DFG-Projekt RU-Bi-Qua (QualitĂ€tssicherung und Bildungsstandards im evangelischen Religionsunterricht) den zweiten Teil des Bandes ein. Ausgehend vom Unbehagen, dass die Bildungspolitik vor allem an der Entwicklung von Kompetenzmodellen fĂŒr „harte“ KernfĂ€cher interessiert ist, wollte die RU-Bi-Qua-Forschergruppe wissen, ob auch fĂŒr die sog. „weichen“ FĂ€cher, wie z.B. Religionsunterricht, Kompetenzmodellierungen mit entsprechenden Tests möglich sind. Ähnlich wie in den KernfĂ€chern muss allerdings auch hier ein Ă€ußerst eingeschrĂ€nkter Begriff von religiöser Kompetenz in Kauf genommen werden. Der fĂŒr den Religionsunterricht zentrale Bezugspunkt der SpiritualitĂ€t und GlaubensstĂ€rke wurde einfach ausgeklammert. Übrig bleibt dann beispielsweise eine Skala „religiöse Deutungskompetenz“, die sehr stark der Lesekompetenz-Skala in PISA gleicht. Das Forscherteam diskutiert dieses Resultat allerdings selbstkritisch und kann doch noch anhand einzelner Aufgabenschwierigkeiten eine domĂ€nenspezifische Komponente der Skala aufzeigen. Das lĂ€sst fĂŒr weitere Entwicklungen hoffen.

Die weiteren BeitrĂ€ge verzichten dann wieder auf empirische Daten und versuchen sich an begrifflichen KlĂ€rungen und kritischen Analysen bisheriger Kompetenz-Standardisierungen. Michele Borrelli macht sich Gedanken ĂŒber die Aporetik als Grundform moralischer und ethischer Diskurse, jedoch ohne eine fĂŒr Kompetenzmodellierungen anschlussfĂ€hige Antwort zu finden. Elk Franke vertritt die These, dass KernfĂ€cher nicht unbedingt als Muster fĂŒr Bildungsstandards in Ă€sthetisch-expressiven SchulfĂ€chern geeignet sind und Christopher Winch warnt vor einer Herabqualifizierung beruflicher Bildung in Deutschland, wenn man sich zu sehr am QualitĂ€tsrahmen der EuropĂ€ischen Union orientiert.

Lesenswert ist vor allem eine Darstellung der chinesischen Diskussion ĂŒber Bildungsstandards, neue Unterrichtskonzepte und das VerhĂ€ltnis von Wissen und Können. Xu Binjan argumentiert, dass auswendig gelerntes Basiswissen und die Geschwindigkeit bei Rechenoperationen das traditionelle Fundament einer effektiven Bearbeitung mathematischer Probleme im chinesischen Unterricht war. Die Teilnahme von China-Hong Kong an PISA fĂŒhrte allerdings trotz sehr guter Resultate zu einer gesamtchinesischen Diskussion ĂŒber Kompetenzorientierung und eine Neuausrichtung des Mathematikunterrichts. Der Beitrag mĂŒndet in ein PlĂ€doyer fĂŒr die Aufhebung der irrtĂŒmlichen DualitĂ€t zwischen Wissens- und Kompetenzorientierung und in VorschlĂ€gen fĂŒr eine sinnvolle Weiterentwicklung des ĂŒberzogen anwendungsorientierten Konzepts von Mathematikunterricht.

Im dritten Teil des Bandes werden unter „Perspektiven“ noch drei Artikel zusammengefasst, die mit der Thematik mehr oder weniger zu tun haben. Eher entfernte Assoziationen zum Thema Bildungsstandards ergeben sich bei den Überlegungen zu unterrichtlichen Austausch- und TĂ€uschungsprozessen von Roland Reichenbach und der Abhandlung ĂŒber die politische Dimension der Erziehung von Philippe Foray. Bei Foray beispielsweise beschrĂ€nkt sich die inhaltliche VerknĂŒpfung zur aktuellen Standard- und Kompetenzdebatte auf den ersten Abschnitt und die drei letzten SĂ€tze. Schon die versehentlich falsche Nummerierung verrĂ€t, dass hier einem bereits vorhandenen Manuskript vermutlich etwas angestĂŒckelt wurde.

Eine Perspektive fĂŒr die Diskussion ĂŒber Bildungsstandards auf einem sehr hohen, allgemeindidaktischen Niveau bietet dann doch noch der Beitrag von Klaus Prange. Er wiederholt zunĂ€chst einmal seine Vorstellungen von der Zeigestruktur der Erziehung und kommt dabei zu interessanten Anmerkungen. Beispielsweise zeigt Prange dem Leser, dass beim PrĂŒfen eigentlich nichts anderes geprĂŒft wird als die Zeigekompetenz des Lernenden. Ebenso kann Prange aus der Zeigestruktur der Erziehung schlussfolgern, dass die zurzeit hĂ€ufig bemĂŒhte Unterscheidung zwischen Sozial-, Sach- und Methodenkompetenz nur eine theoretische ist, weil der Akt des Zeigens immer schon die drei Dimensionen in sich vereinigt. Die Pointe des Textes ist allerdings, dass durch den Gebrauch von Zeichen im Lehren und Lernen die Standardisierung bereits immer gegeben ist. Jedes Zeigen ist somit eine Anwendung, eine Art semiotische Kompetenz.

Die zusammengestellten TagungsbeitrĂ€ge sind sowohl in ihrer Form als auch in ihrem Inhalt sehr heterogen und bieten damit – je nach Leseinteresse – eine FĂŒlle anregender Gedanken aber auch Seiten, die man einfach ĂŒberblĂ€ttern kann. Empirisch darf man vor allem auf weitere Ergebnisse aus dem RU-Bi-Qua Projekt gespannt sein. Konzeptionell sollte sich die Debatte ĂŒber die Nutzung von Evaluations- und Steuerungswissen auf jeden Fall an dem Beitrag von Hans Merkens abarbeiten. Und bildungstheoretisch geben Benner und Prange das Niveau einer Auseinandersetzung mit Bildungsstandards vor. Wesentlich spezifischer ist dagegen der Fokus des nĂ€chsten Buches.

Böttcher/Kotthoff: Schulinspektion

Bildungsstandards sind im Grunde nur eine Manifestation einer neuen Steuerungsphilosophie im öffentlichen Bereich. Parallel hierzu wird an einer Neugestaltung der Schulinspektion gearbeitet. Und wie bei Bildungsstandards finden sich außerhalb Deutschlands Modelle und Erfahrungen, die zumindest zur Kenntnis genommen werden sollten. Genau dieser Aufgabe widmen sich Wolfgang Böttcher und Hans-Georg Kotthoff mit einem Sammelband in der Reihe „Studien zur International und Interkulturell Vergleichenden Erziehungswissenschaft“. Auf 230 Seiten berichten zunĂ€chst einmal acht internationale Experten ĂŒber ihre Erfahrungen mit den sehr unterschiedlichen Konzepten fĂŒr Schulinspektion in England, Schweden, den Niederlanden und der Schweiz. FĂŒr eine ausgewogene Berichterstattung sorgt die Tatsache, dass immer ein Mitglied der Inspektionsagentur und ein Mitglied einer Lehrergewerkschaft befragt wurden. Das war eine sehr weise Entscheidung der Herausgeber. Zur Kontrastierung folgen dann noch Berichte ĂŒber zwei Schulsysteme, die bewusst auf Schulinspektionen verzichten: USA und Finnland. Abgerundet wird der Band mit einem Blick auf die ersten Entwicklungen in drei deutschen BundeslĂ€ndern.

Vorausschauend lĂ€sst sich schon einmal sagen, dass durch die doppelte Kontrastierung (verschiedene LĂ€nder und verschiedene Perspektiven) ein wirklicher Informationsgewinn entsteht. Die klaren Vorgaben der Herausgeber sorgen zudem fĂŒr Übersicht und gute Lesbarkeit. Allerdings fĂŒhrt dies dann auch zu BeitrĂ€gen mit vielen Auflistungen und Spiegelstrichen. Kritisch anzumerken ist allenfalls, dass die Forschungsperspektive ĂŒber weite Strecken fehlt. Die Herausgeber selbst sorgen zwar nachtrĂ€glich fĂŒr die wissenschaftliche Einordnung des Gelesenen. Aber durch die Reduktion der Perspektiven auf Inspektionsagenturen und Lehrervertreter hat das Buch immer wieder einen eher standespolitischen Charakter.

Der erste Aufsatz ist von Tim Key, einem Abteilungsleiter im „Office for Standards in Education“ (OFSTED), der englischen Schulinspektionsbehörde. Entlang des von Böttcher und Kotthoff formulierten Fragenkatalogs wird das englische Inspektionssystem kurz und verstĂ€ndlich dargestellt, selbstverstĂ€ndlich in englischer Sprache. Der Autor nimmt vor allem Bezug auf die einschneidenden VerĂ€nderungen des Schulsystems im Zuge des Education Reform Act in den 1980er Jahren. Dass diese Bildungsreform die Folge einer neoliberalen Politik war und zu einer bisher fĂŒr England beispiellosen Zentralisierung eines sonst dezentral geregelten Schulwesens fĂŒhrte, wird allerdings nicht erwĂ€hnt. Ebenso wenig ĂŒberzeugend ist dabei auch, dass mit eigenen Daten die QualitĂ€t des eigenen Inspektionssystems legitimiert wird.

Der zweite englische Beitrag zu OFSTED von Robert Cheesman, einem FunktionĂ€r der nationalen Lehrergewerkschaft in England, ist dagegen wesentlich kritischer. Beispielsweise fĂŒhrt die AnkĂŒndigung einer OFSTED-Inspektion an Schulen zu außergewöhnlichen AktivitĂ€ten mit zum Teil extremer Arbeitsbelastung fĂŒr LehrkrĂ€fte. Und auch die Veröffentlichung der Inspektionsberichte kann je nach Inhalt fatale Folgen fĂŒr Schulen haben: Eltern schicken ihre Kinder an andere Schulen und qualifizierte Lehrer wandern ab.

Ähnlich informativ ist das ebenfalls englischsprachige Berichts-Double zur Schulinspektion in Schweden. Die schwedische Evaluationsfachfrau Gunilla Olson gibt einen profunden Überblick zur Evaluation im schwedischen Schulwesen und lokalisiert die UrsprĂŒnge der schwedischen Schulinspektion vor allem in Strategien der Dezentralisierung des Schulsystems in den 1990er Jahren. Die QualitĂ€t der Schulinspektion wurde ĂŒber Verfahren der formativen Prozessevaluation stĂ€ndig weiterentwickelt. Befunde zu „harten“ Wirkungseffekten liegen aber auch in Schweden noch nicht vor. Zumindest kann Olson nur von einer Befragungsstudie des schwedischen Finanzministeriums berichten. NaturgemĂ€ĂŸ kritischer ist die Sichtweise der schwedischen Lehrergewerkschaft. Diese setzt sich vor allem fĂŒr eine StĂ€rkung der internen Evaluation und eine StĂ€rkung der QualitĂ€tskontrollen auf lokaler Ebene ein.

Aus Sicht der interkantonalen Arbeitsgemeinschaft fĂŒr Schulevaluation berichten BrĂ€gger, Kramis und Teuteberg ĂŒber die Schulaufsichtsreform in der Schweiz am Beispiel der Kantone Luzern und Thurgau. ErwĂ€hnenswert ist beispielsweise die klare organisatorische Trennung von Schulevaluation und Schulaufsicht in zwei Abteilungen, aber unter dem Dach eines Amtes. Damit versucht man den beiden spannungsgeladenen Funktionen der Rechenschaftslegung und QualitĂ€tsentwicklung gerecht zu werden. Schon allein aufgrund der kulturellen NĂ€he ist dieser Beitrag eine Fundgrube fĂŒr bundesdeutsche Chefinspektoren.

Anton Strittmatter reprĂ€sentiert die Schweizer Lehrerperspektive. Sein Beitrag ist im Vergleich zum eher deskriptiv-technokratischen Stil der vorausgehenden Autoren deutlich kritischer und immer wieder sehr polemisch. Strittmatter kritisiert zunĂ€chst einmal die Literatur der letzten Jahrzehnte und den Begriffswildwuchs im Bereich Evaluation. Es sei viel geschrieben und wenig erklĂ€rt worden: „Das liegt wohl daran, dass das EvaluationsgeschĂ€ft im Grunde eine ziemlich banale Angelegenheit ist, wenn man mal einige allgemeine erkenntnistheoretische Grundlagen bzw. das Wesen von Feedbackprozessen begriffen hat“ (94). Der Leser erfĂ€hrt an dieser Stelle allerdings nichts ĂŒber diese Grundlagen. DafĂŒr weist Strittmatter sehr deutlich auf das Forschungsdefizit im Bereich Schulevaluation hin. Es gibt keine Studien, die der ReliabilitĂ€t von Urteilen einer Schulinspektion nachgehen und auch die Frage nach der Nutzung von Evaluationswissen wird immer nur einseitig formuliert: Was mĂŒssen Schulen tun, um die Ergebnisse besser umzusetzen?

Der eingeschobene Exkurs zur Tiefenpsychologie des Kontrolleifers ist zwar köstlich zu lesen, trĂ€gt aber wenig zur Versachlichung der Diskussion bei. Auf jeden Fall ist Strittmatters Beitrag anregender zu lesen, als die teilweise semantisch glattgeschliffenen BeitrĂ€gen zuvor. Gegen Ende des Beitrags wird es sogar pastoral, wenn ĂŒber „Hoffnungen“ geredet wird: „Es gibt zwar namentlich in der Schweiz wenig, aber doch ein klein wenig Hoffnung, dass Schulevaluation je einmal einen Hofnarren-Rechtsstatus erhalten könnte, wie ihn Her Majesty's Inspectors in England und das NiederlĂ€ndische Inspektorat mal hatten, bevor sie gouvernemental domestiziert wurden. Schulen wĂŒrden einer externen Evaluation eher trauen [...], wenn sie die Erfahrung machen wĂŒrden, dass die gewonnenen Erkenntnisse [...] auch zu Kritik an der behördlichen Bildungspolitik [...] fĂŒhren wĂŒrde“ (109).

Die niederlĂ€ndischen Berichte sind dann wieder ganz im ĂŒblichen Evaluations-Jargon und schließen die internationale LĂ€nderberichterstattung zur Schulinspektion ab. Die nĂ€chsten drei Kapitel besprechen Formen der Rechenschaftslegung in zwei LĂ€ndern, die bewusst auf Schulinspektionen verzichten: USA und Finnland. Das spannende an dieser Auswahl ist, dass die Unterschiede kaum grĂ¶ĂŸer sein könnten. Und nach der LektĂŒre vieler Konzepte ohne rechte empirische Fundierung stellt sich dem Leser sowieso die Frage, ob denn der ganze Aufwand lohnt. Die amerikanische Variante des Verzichts auf Schulinspektionen wĂ€re allerdings ein schlechter Tausch. Der Beitrag von Doran ĂŒber „test-based accountability“ in den USA deutet die eigentlichen Probleme nur an. Das von Bush unterzeichnete „No-Child-Left-Behind“ (NCLB) Gesetz von 2002 wird zwar als nicht zweckmĂ€ĂŸig fĂŒr eine interne Prozessevaluation von Schule beschrieben, aber es wird so getan, als könnte man mit gewissen Additionen daraus ein gutes System der Rechenschaftslegung und Schulentwicklung machen. Dabei wird nur in zwei oder drei NebensĂ€tzen erwĂ€hnt, dass bisher auch unerwĂŒnschte Nebenwirkungen festgestellt wurden. Dass diese unerwĂŒnschten Nebenwirkungen mittlerweile empirisch sehr gut abgesichert sind und kritische Soziologen und Erziehungswissenschaftler in den USA darĂŒber ausfĂŒhrlich berichten, wird bei Doran nicht erwĂ€hnt.

Das geschieht dann zumindest ansatzweise im zweiten USA-Bericht von Hess und Petrilli. Obwohl dieser Beitrag wesentlich deutlicher ausfĂ€llt und populĂ€re NCLB-Opponenten zitiert werden (Kohn, Nodding, Elmore), wird auch hier auf die gesamtgesellschaftlichen ZusammenhĂ€nge einer solchen Gesetzgebung nicht genug aufmerksam gemacht. Problematisch, und vor dem Hintergrund der US-Tradition auch ungewöhnlich, ist vor allem die zentralstaatliche Verordnung eines Indikatorensystems mit eingebautem Erfolgszwang, das eingefĂŒhrt wurde, um neoliberalen Vorstellungen von Schulwahlfreiheit und Wettbewerb auch im Erziehungssystem Geltung zu verschaffen.

Im Anschluss geht es weiter ins gelobte Finnland. Als Leser muss man natĂŒrlich aufpassen, dass man das Berichtete vor dem Hintergrund der PISA-Exzellenz dieses Landes nicht allzu rasch glorifiziert. Dennoch ist schon erstaunlich, wenn in einem Buch, das ĂŒber die EinfĂŒhrung oder Neuordnung der Schulinspektion in Deutschland informieren soll, folgendes steht: „Die Abschaffung der schulischen Inspektion durch das Zentralamt fĂŒr Unterrichtswesen (...) ging grundsĂ€tzlich von den Schulinspektoren selbst aus, welche die Meinung vertraten, dass Schulinspektion einmal zu wenig brauchbare Informationen ĂŒber den realen Zustand des Schulwesens lieferte und zum zweiten keinen wesentlichen Beitrag zur QualitĂ€tsentwicklung der Schulen leistete“ (166). Im weiteren Verlauf des Beitrags erfĂ€hrt man dann noch mehr: Vertrauen ist die zentrale Grundlage fĂŒr QualitĂ€tssicherung im finnischen Schulwesen. Schon deswegen ist dieser Beitrag direkt nach den beiden USA-Artikeln recht gut platziert worden und sollte unbedingt gelesen werden.

In weiteren AufsĂ€tzen werden erste AnsĂ€tze einer neu formierten Schulinspektion in drei BundeslĂ€ndern vorgestellt: NRW, Bayern und Hessen. Alle drei Berichte geben einen hinreichenden Überblick ĂŒber die bildungspolitischen Zielsetzungen, die Funktionen und den jeweiligen QualitĂ€tsrahmen der externen Evaluation. Von ersten Erfahrungen kann berichtet werden, allerdings liegen auch hier noch keine systematischen Befunde zur Akzeptanz oder Wirksamkeit vor. Trotz semantischer Differenzen, die auch schon Strittmatter fĂŒr die Schweiz beklagt hat, ĂŒberwiegen die gemeinsamen Grundmerkmale: Kopplung externer und interner Evaluation, Nutzung multipler Daten und Kopplung von QualitĂ€tssicherung und Schulentwicklung, so gut das eben geht. In diesen Berichten mangelt es auf jeden Fall nicht an Schaubildern, die perfekte Evaluationsprozesse suggerieren. Was fehlt, ist die empirische ÜberprĂŒfung der institutionellen Lerneffekte durch die RĂŒckspielung von Evaluationswissen.

Böttcher und Kotthoff schließen den Kreis und fassen im letzten Beitrag die „Gelingensbedingungen einer qualitĂ€tsoptimierenden Schulinspektion“ noch einmal zusammen. Das klingt alles plausibel und Wohl dem Schulsystem, dessen Steuerleute sich konsequent daran orientieren. Allerdings sollte man auch kritisch fragen, ob die von Böttcher und Kotthoff formulierten AnsprĂŒche nicht zu ambitioniert sind und zu ĂŒberzogenen Kontroll- und Rettungsphantasien von Bildungsverwaltern in einem neu definierten Steuerungsparadigma fĂŒhren (siehe Strittmatter). Noch schlimmer wĂ€re es allerdings – und da muss man Böttcher und Kotthoff zustimmen – wenn nur die Rhetorik des neuen Paradigmas kopiert wird und den Schulen keine Freiheit gewĂ€hrt wird. Dann ist auch eine neue Form der Schulinspektion nichts weiter als eine „Verdoppelung der BĂŒrokratie“ (226).

Hosenfeld/Groß Ophoff: Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht

Abschließend soll noch das von Ingmar Hosenfeld und Jana Groß Ophoff herausgegebene Themenheft „Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht“ der Zeitschrift „Empirische PĂ€dagogik“ diskutiert werden. Was bei Böttchers und Kotthoffs Synopse internationaler Schulinspektionserfahrungen fehlt, ist in den nachfolgend vorgestellten BeitrĂ€gen reichlich vorhanden: empirische Befunde zur Nutzung von Evaluationsdaten fĂŒr die Verbesserung des Unterrichts. Und zwar geht es um ganz spezielle Evaluationsdaten: RĂŒckmeldungen an LehrkrĂ€fte in den bundesweit bekannten und wissenschaftlich anerkannten Vergleichsarbeitsprojekten VERA, Lernstand NRW und Kompetenztest ThĂŒringen sowie dem Forschungsprojekt BeLesen. Eine direkte Verbindung zum Benner-Band ergibt sich ĂŒber den bereits erwĂ€hnten Beitrag von Hans Merkens. Er deutet konzeptionell an, in welche Richtung sich Vergleichsarbeiten und RĂŒckmeldestudien weiterentwickeln sollten.

Im Vergleich zu den beiden zuvor besprochenen HerausgeberbĂ€nden sind natĂŒrlich andere Voraussetzungen geben. Die Zeitschrift Empirische PĂ€dagogik ist eine begutachtete Zeitschrift mit hohen QualitĂ€tsansprĂŒchen an die theoretische Fundierung und die Forschungsmethodik der Berichte. Alle BeitrĂ€ge des Themenheftes sind somit stark fokussiert und forschungsmethodisch auf einem hohen Niveau. Den theoretischen Rahmen geben die beiden Herausgeber, Ingmar Hosenfeld und Jana Groß Ophoff vor, indem sie das bereits an vielen Stellen publizierte Zyklenmodell schulischer Innovation von Helmke und Hosenfeld noch einmal darstellen und erklĂ€ren. Allerdings wird das sonst etwas trivial anmutende Modell nun zu Recht als „Heuristik“ bezeichnet. Ebenso erweitern die beiden Herausgeber den theoretischen Rahmen von RĂŒckmeldestudien durch die Bezugnahme auf lernpsychologische Feedbackmodelle.

Julia Schneewind berichtet von einer Lehrerbefragung zum Umgang mit LeistungsrĂŒckmeldungen im Projekt BeLesen. Der Beitrag ist in dreierlei Hinsicht interessant und wichtig. Erstens erweitert sie das Zyklenmodell von Hosenfeld und Helmke um eine wichtige Komponente: Die Momente, die dem Prozess von RĂŒckmeldungen und Rezeption vorausgehen, d.h. die Zielsetzung, Konstruktion und Implementation der Vergleichsarbeit. Zweitens: BeLesen ist keine Vergleichsarbeit mit dem Ziel testbasierter Rechenschaftslegung. Es geht um gezielte Lernstandsdiagnostik in einem speziellen Kompetenzbereich und die halbjĂ€hrliche Wiederholung der Tests signalisiert LehrkrĂ€ften ganz deutlich den formativen Charakter der Evaluation. Eigentlich mĂŒssten die LehrkrĂ€fte diese Form der UnterstĂŒtzung ihrer Arbeit willkommen heißen und nutzen, aber Schneewind muss selbst in diesem Setting auf einige RezeptionsmissverstĂ€ndnisse und Nutzungshindernisse hinweisen. Und das macht sie sehr ĂŒberzeugend mithilfe qualitativer Daten (Punkt 3), die bisher viel zu wenig genutzt wurden, um das Rezeptionsverhalten an Schulen nachzuzeichnen.

In den drei Berichten aus den bekannten Vergleicharbeitsprojekten VERA, Lernstand NRW und Kompetenztest werden jeweils noch einmal die Testkonzepte vorgestellt sowie Teilaspekte der mitlaufenden Rezeptionsstudien vertieft. Sowohl forschungsmethodisch als auch theoretisch hoch interessant ist der VERA-Beitrag. Groß Ophoff, Hosenfeld und Koch nutzen die online-Befragungsdaten von VERA, um verschiedene Rezeptionstypen unterscheiden zu können. Dies gelingt und die Typen können durchaus plausibel erklĂ€rt werden. Allerdings fragt man sich hier natĂŒrlich, ob die feinen Differenzlinien einer Clusteranalyse in der RealitĂ€t tatsĂ€chlich mit substanziellen Personendifferenzen korrespondieren.

Sowohl der Beitrag von KĂŒhle und Peek zur Rezeption der nordrhein-westfĂ€lischen Lernstandserhebungen in der Sekundarstufe I als auch die ThĂŒringer Rezeptionsstudie von Nachtigall und Jantowski geben wichtige Einblicke in den zwar nicht immer zielkonformen, jedoch vorhandenen Umgang mit RĂŒckmeldedaten an Schulen. Respektabel ist dabei die durchaus kritische Betrachtung der Test- und RĂŒckmeldesysteme, die ja von den Rezeptionsforschern selbst mit entwickelt wurden. Vor allem KĂŒhle und Peek scheuen sich nicht, die FunktionsĂŒberfrachtung der NRW Lernstandserhebungen fĂŒr die unklare Nutzung der Daten auf Schulebene mit verantwortlich zu machen.

Alle drei Rezeptionsstudien mĂŒssen sich allerdings auch folgende forschungsmethodische Kritik gefallen lassen. Es wurden bisher noch keine qualitativen Daten erhoben, um die doch recht optimistisch anmutenden Nutzungsergebnisse zu validieren. Ebenso fehlt es an echten lĂ€ngsschnittlichen Analysen. Schulentwicklung ist ein langwieriger Prozess und datenbasierte Schulentwicklung wird sich graduell ausbilden. Ein drittes Problem betrifft die Aggregationsebene der Daten ĂŒber das schulinterne Rezeptions- und Nutzungsverhalten. Es werden Aussagen auf Lehrerebene gemacht. Ziel der datenbasierten Schul- und Unterrichtsentwicklung ist allerdings die Fachkonferenzebene und die Einzelschulebene. Mehrebenenanalytisch auswertbare DatensĂ€tze wĂ€ren deshalb ein nĂ€chster Forschungsschritt.

Ein weiterer Beitrag in diesem Themenheft beschĂ€ftigt sich mit Informationssystemen im Bildungswesen. Ausgehend von Forschungen zur Mensch-Maschine-Kommunikation und Informationssystemen fĂŒr Manager, gehen Breiter und Stauke der Frage nach, wie ein RĂŒckmeldesystem fĂŒr zentrale Leistungsstudien konzipiert sein mĂŒsste, um den verschiedenen Nutzergruppen eine optimale Datenaufbereitung als Grundlage fĂŒr pĂ€dagogische Entscheidungen liefern zu können. Die Parallelen zu Forschungsarbeiten ĂŒber Managementinformationssysteme sind sehr aufschlussreich. Bereits in den 1970er Jahren zeigten Studien, dass Manager fĂŒr ihre Entscheidungen nur einen kleinen Teil der aufwĂ€ndig gesammelten und aufbereiteten Daten nutzen. Teilweise tun sie dies auch nur, um nachtrĂ€glich ihre Entscheidungen zu legitimieren. Ansonsten ist der Beitrag sehr informationstechnologisch und wiederholt noch einmal, was man in der internationalen Literatur ĂŒber „school performance feedback systems“ schon lĂ€ngere Zeit diskutiert.

Informationstechnologische Finessen und weiter optimierte RĂŒckmeldeverfahren sollten allerdings nicht darĂŒber hinweg tĂ€uschen, dass die RĂŒckmeldedaten zunĂ€chst einmal fĂŒr LehrkrĂ€fte inhaltlich relevant und zuverlĂ€ssig sein sollten. Diese Frage bearbeitet dann Karl-Heinz Arnold im abschließenden Beitrag des Themenheftes. Er ĂŒberlegt sich, welchen didaktischen Informationsgehalt eine VergleichsarbeitsrĂŒckmeldung ĂŒberhaupt haben kann. Sein Fazit ist eine indirekte, aber doch deutliche Kritik an den moderat optimistischen Ergebnissen bisheriger Rezeptionsstudien: „Vieles spricht derzeit noch fĂŒr die Vermutung, dass in Deutschland die WertschĂ€tzung von testbasierten Schulleistungsevaluationen eher ein allgemeines Einstellungsmerkmal darstellt denn eine schulpĂ€dagogisch begrĂŒndbare Nutzungspraxis kennzeichnet“ (455). Insgesamt ist das Themenheft mit Gewinn zu lesen, es informiert sowohl sachlich als auch kritisch ĂŒber den aktuellen Stand in der Rezeptionsforschung.

Fazit

Sowohl der theorielastige Benner-Band als auch die international vergleichenden Berichte ĂŒber Schulinspektionen als auch das empirielastige Themenheft der Empirischen PĂ€dagogik zeigen, dass noch vieles zu klĂ€ren ist, wenn Bildungsstandards zusammen mit neuen Modellen der Rechenschaftslegung tatsĂ€chlich ein pĂ€dagogischer Fortschritt sein sollen. Die drei Publikationen demonstrieren allerdings auch eindrĂŒcklich, dass sich Fachleute aus unterschiedlichen Bereichen mit der Sache kritisch und konstruktiv auseinander setzen. Daran lĂ€sst sich anknĂŒpfen.
Uwe Maier (SchwĂ€bisch GmĂŒnd)
Zur Zitierweise der Rezension:
Uwe Maier: Rezension von: Böttcher, Wolfgang / Kotthoff, Hans-Georg (Hg.): Schulinspektion: Evaluation, Rechenschaftslegung und QualitĂ€tsentwickung. MĂŒnster: Waxmann 2007. In: EWR 7 (2008), Nr. 4 (Veröffentlicht am 06.08.2008), URL: http://www.klinkhardt.de/ewr/978383091678.html