Verlag Julius Klinkhardt: EWR 7 (2008), Nr. 4 (Juli/August): Schulinspektion: Evaluation, Rechenschaftslegung und QualitÃ¤tsentwickung

EWR 7 (2008), Nr. 4 (Juli/August)

Bildungsstandards und Evaluation - Eine Sammelbesprechung

Wolfgang BÃ¶ttcher / Hans-Georg Kotthoff (Hrsg.)

Schulinspektion: Evaluation, Rechenschaftslegung und QualitÃ¤tsentwickung

MÃ¼nster: Waxmann 2007

(233 S.; ISBN 978-3-8309-1678-9; 24,90 EUR)

Dietrich Benner (Hrsg.)

Bildungsstandards

Chancen und Grenzen, Beispiele und Perspektiven

Paderborn: SchÃ¶ningh 2007

(249 S.; ISBN 978-3-5067-6331-0; 29,90 EUR)

Ingmar Hosenfeld / Jana GroÃŸ Ophoff (Hrsg.)

Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht

Landau: Verlag Empirische PÃ¤dagogik 2007

(124 S.; ISBN 978-3-9373-3367-0; 15,90 EUR)

Schulinspektion: Evaluation, Rechenschaftslegung und QualitÃ¤tsentwickung

Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht

Das Thema Bildungsstandards ist auch mehrere Jahre nach der groÃŸen Verwunderung Ã¼ber nur mediokre Leistungen des deutschen DurchschnittsschÃ¼lers ein zentrales Thema der erziehungswissenschaftlichen und bildungspolitischen Diskussion. Allerdings haben sich die thematischen Schwerpunkte verlagert. WÃ¤hrend zu Beginn dieses Jahrzehnts vor allem Ã¼ber die Aussagekraft von Schulleistungsmessungen und die Konzeption von Standards diskutiert wurde, fragt man sich nun, wie Standards, Tests und neue Steuerungsideen tatsÃ¤chlich Unterricht und Schule verbessern kÃ¶nnen.

Um genau diese Fragestellung kreisen die BeitrÃ¤ge der drei HerausgeberbÃ¤nde. Dabei zeigt die HeterogenitÃ¤t der AnsÃ¤tze, mit welcher Vielfalt sich die erziehungswissenschaftliche Theoriebildung dieser Problematik nÃ¤hern kann. Das ist beeindruckend und zeugt von einer lebendigen, kritischen Wissenschaft. Andererseits wird zu einem so populÃ¤ren Thema wie Bildungsstandards auch vieles geschrieben, was eigentlich unnÃ¶tig ist oder in anderen ZusammenhÃ¤ngen besser aufgehoben wÃ¤re. Das Ergebnis der Rezension deshalb schon einmal vorneweg:

Trotz der sowieso schon bestehenden FÃ¼lle an Literatur in diesem Bereich und trotz thematischer Ausrutscher hier und da sind diese drei BÃ¼cher ein â€žmust readâ€œ fÃ¼r alle Akteure und Wissenschaftler, die mit der Umsetzung oder Erforschung von Bildungsstandards â€“ in welcher Weise auch immer â€“ befasst sind.

Benner: Bildungsstandards

Das erste Buch ist ein von Dietrich Benner herausgegebener Tagungsband zum Symposion Bildungsstandards im Jahr 2006 an der Humboldt-UniversitÃ¤t zu Berlin. FÃ¼r die BeitrÃ¤ge gab es anscheinend keine weitere thematische Eingrenzung und somit liegt eine Textsammlung vor, in der sich namhafte aber auch unbekannte Autoren auf einem sehr abstrakten und theoretisch anspruchsvollen Niveau grundsÃ¤tzliche und manchmal auch schwer nachvollziehbare Gedanken zu Chancen und Grenzen von Bildungsstandards sowie zu deren Ausgestaltung in reflexiv-domÃ¤nenspezifischen Kompetenzmodellen machen. Das Gute an der LektÃ¼re ist, dass die 15 EinzelbeitrÃ¤ge auf Ã¼ber 250 Seiten einen Spannungsbogen erzeugen. Man weiÃŸ als Leser nie genau, was einen als nÃ¤chstes erwartet: eine abwÃ¤gende Analyse, ein kritisch-konstruktiver Vorschlag zur Weiterentwicklung oder der Versuch, AbgrÃ¼nde der Standards aufzuzeigen. Als roter Faden hÃ¤tte sich durchaus der Begriff â€žreflexive Bildungsstandardsâ€œ geeignet. Benner leistet in seinem Beitrag eine entsprechende BegrÃ¼ndung und auch im Klappentext wird er erwÃ¤hnt. Dabei bleibt es aber.

Der Band wird erÃ¶ffnet von einem â€žmainstreamâ€œ-Beitrag. Zur Einstimmung erzÃ¤hlt Olaf KÃ¶ller noch einmal die Geschichte von PISA und der darauf folgenden EinfÃ¼hrung von Bildungsstandards. Thematisch drehen sich die AusfÃ¼hrungen dann um die standard-analogen, einheitlichen PrÃ¼fungsanforderungen fÃ¼r die allgemeine Hochschulreife sowie um lÃ¤ndervergleichende Ergebnisse der TOSCA-Studie. Zwar ist darÃ¼ber schon an anderen Stellen berichtet worden, aber KÃ¶ller kann exemplarisch noch einmal schÃ¶n aufzeigen, dass man mit kompetenzorientierten Tests groÃŸe Schulform- und LÃ¤nderunterschiede in der Leistung von Abiturienten aufzeigen kann. Daraus wird geschlussfolgert, dass mit Standards und den darauf bezogenen Testinstrumenten die Vergleichbarkeit von SchulabschlÃ¼ssen geprÃ¼ft und damit prinzipiell MaÃŸnahmen zur QualitÃ¤tssteigerung angestoÃŸen werden kÃ¶nnen. Wie diese QualitÃ¤tsmaÃŸnahmen aussehen kÃ¶nnen und wie sie mit Standards zusammenhÃ¤ngen, wird den nachfolgenden Autoren Ã¼berlassen. KÃ¶ller geht es vor allem um das Bewusstsein fÃ¼r die Differenzen und um die ordentliche Messung dieser Differenzen.

Sowohl Helmut Heid als auch JÃ¶rg Ruhloff arbeiten mit kritischen Begriffsanalysen und machen in ihren BeitrÃ¤gen auf WidersprÃ¼che aufmerksam, die entstehen, wenn man mit Begriffen wie Kompetenzen und Standards eine QualitÃ¤tsverbesserung des Bildungswesens betreiben mÃ¶chte. Beispielsweise geht Ruhloff zunÃ¤chst einmal von der alltagssprachlichen Bedeutung von â€žStandardâ€œ aus und kommt zu interessanten Vergleichen: Wiederholbare und gleichfÃ¶rmige Produktionsprozesse benÃ¶tigen Standardisierung, um QualitÃ¤t und Effizienz zu sichern. Bei der MaÃŸanfertigung eines Anzugs, einem einmaligen und auf das Individuum bezogenen Produktionsprozess besteht die QualitÃ¤t gerade darin, dass keine Orientierung an Standards mÃ¶glich ist. Solche Gedanken regen zum Nachdenken an. Der HÃ¶hepunkt der Argumentation ist allerdings die exakte Herausarbeitung eines ausschlieÃŸenden Verbindlichkeitsanspruchs von Bildungsstandards. Gemeinhin werden Standards mit Zielen oder Richtlinien gleichgesetzt, sozusagen als etwas Altbekanntes dargestellt. Ruhloff sieht gerade an dieser Stelle eine entscheidende Differenz. Ziele und Richtlinien implizieren die MÃ¶glichkeit des Scheiterns, des Nichterreichens des gesetzten Ziels, Standards dagegen mÃ¼ssen erreicht werden. Die MÃ¶glichkeit, dass Bildung auch scheitern kann, besteht nicht mehr.

Sowohl Heid als auch Ruhloff bewegen sich auf einem Terrain weitab von der empirisch-sozialwissenschaftlichen Auseinandersetzung mit Standards â€“ sowohl sprachlich als auch inhaltlich. Wieder etwas empirischer und sozialwissenschaftlicher wird es dagegen bei Peter Zedler und Hans Merkens. Zedler vertritt die These, dass QualitÃ¤tssicherung im Bildungswesen die Voraussetzungen fÃ¼r einen â€žerziehenden Unterrichtâ€œ ausblendet und das auch noch gegen die umfangreiche Befundlage im Bereich Motivations- und Interessenforschung. Die BegrÃ¼ndungen dieser These sind einerseits schlÃ¼ssig, andererseits aber auch immer wieder sperrig und langatmig. Einen wesentlich handfesteren Ansatzpunkt fÃ¼r die Kritik der bisherigen Standardisierungspraxis sowie fÃ¼r die pÃ¤dagogische Weiterentwicklung standardbasierter Leistungsmessungen liefert auf jeden Fall Merkens in seinem gut strukturierten und verstÃ¤ndlich geschriebenen Beitrag. Er stellt sich darin die Frage, wie Steuerung durch Standards und zentrale Leistungsmessungen Ã¼berhaupt mÃ¶glich sei. RÃ¼ckmeldungen sind fÃ¼r Schule und Lehrer ja eigentlich nichts Neues. Das Problem liegt vielmehr darin, dass diese Informationen im System unterkomplex interpretiert werden, d.h. sie werden nicht im vollen Umfang zur Steuerung eingesetzt. Eine Beobachtung, die vermuten lÃ¤sst, dass die neuen, sehr elaborierten RÃ¼ckmeldeinformationen ein Ã¤hnliches Schicksal erleben werden. Sehr instruktiv ist an dieser Stelle der Vergleich mit Steuerungskonzepten aus anderen gesellschaftlichen Bereichen, vor allem der Industrie. Merkens arbeitet heraus, dass neuere QualitÃ¤tssicherungssysteme in der Ã–konomie vor allem eine Prozesssteuerung bezwecken. Eine reine Outputsteuerung ist fÃ¼r Produktionsprozesse zu wenig aussagekrÃ¤ftig. Aber gerade diese Form der Steuerung wird momentan im Bildungswesen favorisiert. Die Frage ist somit, ob Ã¼berhaupt Steuerungsinformationen fÃ¼r die entscheidenden Prozesse im Bildungswesen vorliegen. Auch die von PISA zu Recht angeprangerte UnfÃ¤higkeit des Schulsystems im Umgang mit heterogenen SchÃ¼lergruppen wird durch eine in Standards verdeckte â€žTendenz zur Homogenisierungâ€œ (90) nicht bearbeitet.

Nach einem Exkurs von Fritz Oser zur Frage der Standardisierbarkeit von Lehrerkompetenzprofilen geht es wieder zurÃ¼ck zum Hauptthema. Der Herausgeber selbst klÃ¤rt in seinem Beitrag die Relation von Unterricht, Wissen und Kompetenz, indem die Unterschiede zwischen Testaufgaben und didaktischen Aufgaben dargelegt werden. Hierzu vergleicht Benner auf eine interessante und instruktive Weise eine PISA-Fernsehshow-Aufgabe mit einem Ã¤hnlichen didaktischen Arrangement in Rousseaus Emile. Der Leser wird dabei in einen bildungstheoretischen Argumentationszusammenhang auf hohem Niveau verstrickt. Unter RÃ¼ckgriff auf Platos HÃ¶hlengleichnis einerseits und neuzeitliche Positionen bei Descartes und Bacon andererseits, zeigt Benner, dass Wissen und Kompetenz nicht als Duale gedacht werden kÃ¶nnen. Vielmehr verlÃ¤sst der Lernende den Raum der Erfahrung, die HÃ¶hle, um die Ã¼bergeordneten Ideen und somit auch das eigene Nicht-Wissen zu erkennen. Gerade diese NegativitÃ¤t der Erfahrung hat dann eine bildende Bedeutung bei der RÃ¼ckkehr in die HÃ¶hle und fÃ¼hrt im antiken VerstÃ¤ndnis zu einer reflexiven Kompetenz und einer Partizipationskompetenz. Leider ist dieser Artikel viel zu kurz und es bleibt zum Schluss bei stichwortartigen Andeutungen, wie diese beiden Kompetenzformen fach- und domÃ¤nenspezifisch auszugestalten sind.

AnschlieÃŸend leitet Benner mit einem Zwischenbericht zum DFG-Projekt RU-Bi-Qua (QualitÃ¤tssicherung und Bildungsstandards im evangelischen Religionsunterricht) den zweiten Teil des Bandes ein. Ausgehend vom Unbehagen, dass die Bildungspolitik vor allem an der Entwicklung von Kompetenzmodellen fÃ¼r â€žharteâ€œ KernfÃ¤cher interessiert ist, wollte die RU-Bi-Qua-Forschergruppe wissen, ob auch fÃ¼r die sog. â€žweichenâ€œ FÃ¤cher, wie z.B. Religionsunterricht, Kompetenzmodellierungen mit entsprechenden Tests mÃ¶glich sind. Ã„hnlich wie in den KernfÃ¤chern muss allerdings auch hier ein Ã¤uÃŸerst eingeschrÃ¤nkter Begriff von religiÃ¶ser Kompetenz in Kauf genommen werden. Der fÃ¼r den Religionsunterricht zentrale Bezugspunkt der SpiritualitÃ¤t und GlaubensstÃ¤rke wurde einfach ausgeklammert. Ãœbrig bleibt dann beispielsweise eine Skala â€žreligiÃ¶se Deutungskompetenzâ€œ, die sehr stark der Lesekompetenz-Skala in PISA gleicht. Das Forscherteam diskutiert dieses Resultat allerdings selbstkritisch und kann doch noch anhand einzelner Aufgabenschwierigkeiten eine domÃ¤nenspezifische Komponente der Skala aufzeigen. Das lÃ¤sst fÃ¼r weitere Entwicklungen hoffen.

Die weiteren BeitrÃ¤ge verzichten dann wieder auf empirische Daten und versuchen sich an begrifflichen KlÃ¤rungen und kritischen Analysen bisheriger Kompetenz-Standardisierungen. Michele Borrelli macht sich Gedanken Ã¼ber die Aporetik als Grundform moralischer und ethischer Diskurse, jedoch ohne eine fÃ¼r Kompetenzmodellierungen anschlussfÃ¤hige Antwort zu finden. Elk Franke vertritt die These, dass KernfÃ¤cher nicht unbedingt als Muster fÃ¼r Bildungsstandards in Ã¤sthetisch-expressiven SchulfÃ¤chern geeignet sind und Christopher Winch warnt vor einer Herabqualifizierung beruflicher Bildung in Deutschland, wenn man sich zu sehr am QualitÃ¤tsrahmen der EuropÃ¤ischen Union orientiert.

Lesenswert ist vor allem eine Darstellung der chinesischen Diskussion Ã¼ber Bildungsstandards, neue Unterrichtskonzepte und das VerhÃ¤ltnis von Wissen und KÃ¶nnen. Xu Binjan argumentiert, dass auswendig gelerntes Basiswissen und die Geschwindigkeit bei Rechenoperationen das traditionelle Fundament einer effektiven Bearbeitung mathematischer Probleme im chinesischen Unterricht war. Die Teilnahme von China-Hong Kong an PISA fÃ¼hrte allerdings trotz sehr guter Resultate zu einer gesamtchinesischen Diskussion Ã¼ber Kompetenzorientierung und eine Neuausrichtung des Mathematikunterrichts. Der Beitrag mÃ¼ndet in ein PlÃ¤doyer fÃ¼r die Aufhebung der irrtÃ¼mlichen DualitÃ¤t zwischen Wissens- und Kompetenzorientierung und in VorschlÃ¤gen fÃ¼r eine sinnvolle Weiterentwicklung des Ã¼berzogen anwendungsorientierten Konzepts von Mathematikunterricht.

Im dritten Teil des Bandes werden unter â€žPerspektivenâ€œ noch drei Artikel zusammengefasst, die mit der Thematik mehr oder weniger zu tun haben. Eher entfernte Assoziationen zum Thema Bildungsstandards ergeben sich bei den Ãœberlegungen zu unterrichtlichen Austausch- und TÃ¤uschungsprozessen von Roland Reichenbach und der Abhandlung Ã¼ber die politische Dimension der Erziehung von Philippe Foray. Bei Foray beispielsweise beschrÃ¤nkt sich die inhaltliche VerknÃ¼pfung zur aktuellen Standard- und Kompetenzdebatte auf den ersten Abschnitt und die drei letzten SÃ¤tze. Schon die versehentlich falsche Nummerierung verrÃ¤t, dass hier einem bereits vorhandenen Manuskript vermutlich etwas angestÃ¼ckelt wurde.

Eine Perspektive fÃ¼r die Diskussion Ã¼ber Bildungsstandards auf einem sehr hohen, allgemeindidaktischen Niveau bietet dann doch noch der Beitrag von Klaus Prange. Er wiederholt zunÃ¤chst einmal seine Vorstellungen von der Zeigestruktur der Erziehung und kommt dabei zu interessanten Anmerkungen. Beispielsweise zeigt Prange dem Leser, dass beim PrÃ¼fen eigentlich nichts anderes geprÃ¼ft wird als die Zeigekompetenz des Lernenden. Ebenso kann Prange aus der Zeigestruktur der Erziehung schlussfolgern, dass die zurzeit hÃ¤ufig bemÃ¼hte Unterscheidung zwischen Sozial-, Sach- und Methodenkompetenz nur eine theoretische ist, weil der Akt des Zeigens immer schon die drei Dimensionen in sich vereinigt. Die Pointe des Textes ist allerdings, dass durch den Gebrauch von Zeichen im Lehren und Lernen die Standardisierung bereits immer gegeben ist. Jedes Zeigen ist somit eine Anwendung, eine Art semiotische Kompetenz.

Die zusammengestellten TagungsbeitrÃ¤ge sind sowohl in ihrer Form als auch in ihrem Inhalt sehr heterogen und bieten damit â€“ je nach Leseinteresse â€“ eine FÃ¼lle anregender Gedanken aber auch Seiten, die man einfach Ã¼berblÃ¤ttern kann. Empirisch darf man vor allem auf weitere Ergebnisse aus dem RU-Bi-Qua Projekt gespannt sein. Konzeptionell sollte sich die Debatte Ã¼ber die Nutzung von Evaluations- und Steuerungswissen auf jeden Fall an dem Beitrag von Hans Merkens abarbeiten. Und bildungstheoretisch geben Benner und Prange das Niveau einer Auseinandersetzung mit Bildungsstandards vor. Wesentlich spezifischer ist dagegen der Fokus des nÃ¤chsten Buches.

BÃ¶ttcher/Kotthoff: Schulinspektion

Bildungsstandards sind im Grunde nur eine Manifestation einer neuen Steuerungsphilosophie im Ã¶ffentlichen Bereich. Parallel hierzu wird an einer Neugestaltung der Schulinspektion gearbeitet. Und wie bei Bildungsstandards finden sich auÃŸerhalb Deutschlands Modelle und Erfahrungen, die zumindest zur Kenntnis genommen werden sollten. Genau dieser Aufgabe widmen sich Wolfgang BÃ¶ttcher und Hans-Georg Kotthoff mit einem Sammelband in der Reihe â€žStudien zur International und Interkulturell Vergleichenden Erziehungswissenschaftâ€œ. Auf 230 Seiten berichten zunÃ¤chst einmal acht internationale Experten Ã¼ber ihre Erfahrungen mit den sehr unterschiedlichen Konzepten fÃ¼r Schulinspektion in England, Schweden, den Niederlanden und der Schweiz. FÃ¼r eine ausgewogene Berichterstattung sorgt die Tatsache, dass immer ein Mitglied der Inspektionsagentur und ein Mitglied einer Lehrergewerkschaft befragt wurden. Das war eine sehr weise Entscheidung der Herausgeber. Zur Kontrastierung folgen dann noch Berichte Ã¼ber zwei Schulsysteme, die bewusst auf Schulinspektionen verzichten: USA und Finnland. Abgerundet wird der Band mit einem Blick auf die ersten Entwicklungen in drei deutschen BundeslÃ¤ndern.

Vorausschauend lÃ¤sst sich schon einmal sagen, dass durch die doppelte Kontrastierung (verschiedene LÃ¤nder und verschiedene Perspektiven) ein wirklicher Informationsgewinn entsteht. Die klaren Vorgaben der Herausgeber sorgen zudem fÃ¼r Ãœbersicht und gute Lesbarkeit. Allerdings fÃ¼hrt dies dann auch zu BeitrÃ¤gen mit vielen Auflistungen und Spiegelstrichen. Kritisch anzumerken ist allenfalls, dass die Forschungsperspektive Ã¼ber weite Strecken fehlt. Die Herausgeber selbst sorgen zwar nachtrÃ¤glich fÃ¼r die wissenschaftliche Einordnung des Gelesenen. Aber durch die Reduktion der Perspektiven auf Inspektionsagenturen und Lehrervertreter hat das Buch immer wieder einen eher standespolitischen Charakter.

Der erste Aufsatz ist von Tim Key, einem Abteilungsleiter im â€žOffice for Standards in Educationâ€œ (OFSTED), der englischen SchulinspektionsbehÃ¶rde. Entlang des von BÃ¶ttcher und Kotthoff formulierten Fragenkatalogs wird das englische Inspektionssystem kurz und verstÃ¤ndlich dargestellt, selbstverstÃ¤ndlich in englischer Sprache. Der Autor nimmt vor allem Bezug auf die einschneidenden VerÃ¤nderungen des Schulsystems im Zuge des Education Reform Act in den 1980er Jahren. Dass diese Bildungsreform die Folge einer neoliberalen Politik war und zu einer bisher fÃ¼r England beispiellosen Zentralisierung eines sonst dezentral geregelten Schulwesens fÃ¼hrte, wird allerdings nicht erwÃ¤hnt. Ebenso wenig Ã¼berzeugend ist dabei auch, dass mit eigenen Daten die QualitÃ¤t des eigenen Inspektionssystems legitimiert wird.

Der zweite englische Beitrag zu OFSTED von Robert Cheesman, einem FunktionÃ¤r der nationalen Lehrergewerkschaft in England, ist dagegen wesentlich kritischer. Beispielsweise fÃ¼hrt die AnkÃ¼ndigung einer OFSTED-Inspektion an Schulen zu auÃŸergewÃ¶hnlichen AktivitÃ¤ten mit zum Teil extremer Arbeitsbelastung fÃ¼r LehrkrÃ¤fte. Und auch die VerÃ¶ffentlichung der Inspektionsberichte kann je nach Inhalt fatale Folgen fÃ¼r Schulen haben: Eltern schicken ihre Kinder an andere Schulen und qualifizierte Lehrer wandern ab.

Ã„hnlich informativ ist das ebenfalls englischsprachige Berichts-Double zur Schulinspektion in Schweden. Die schwedische Evaluationsfachfrau Gunilla Olson gibt einen profunden Ãœberblick zur Evaluation im schwedischen Schulwesen und lokalisiert die UrsprÃ¼nge der schwedischen Schulinspektion vor allem in Strategien der Dezentralisierung des Schulsystems in den 1990er Jahren. Die QualitÃ¤t der Schulinspektion wurde Ã¼ber Verfahren der formativen Prozessevaluation stÃ¤ndig weiterentwickelt. Befunde zu â€žhartenâ€œ Wirkungseffekten liegen aber auch in Schweden noch nicht vor. Zumindest kann Olson nur von einer Befragungsstudie des schwedischen Finanzministeriums berichten. NaturgemÃ¤ÃŸ kritischer ist die Sichtweise der schwedischen Lehrergewerkschaft. Diese setzt sich vor allem fÃ¼r eine StÃ¤rkung der internen Evaluation und eine StÃ¤rkung der QualitÃ¤tskontrollen auf lokaler Ebene ein.

Aus Sicht der interkantonalen Arbeitsgemeinschaft fÃ¼r Schulevaluation berichten BrÃ¤gger, Kramis und Teuteberg Ã¼ber die Schulaufsichtsreform in der Schweiz am Beispiel der Kantone Luzern und Thurgau. ErwÃ¤hnenswert ist beispielsweise die klare organisatorische Trennung von Schulevaluation und Schulaufsicht in zwei Abteilungen, aber unter dem Dach eines Amtes. Damit versucht man den beiden spannungsgeladenen Funktionen der Rechenschaftslegung und QualitÃ¤tsentwicklung gerecht zu werden. Schon allein aufgrund der kulturellen NÃ¤he ist dieser Beitrag eine Fundgrube fÃ¼r bundesdeutsche Chefinspektoren.

Anton Strittmatter reprÃ¤sentiert die Schweizer Lehrerperspektive. Sein Beitrag ist im Vergleich zum eher deskriptiv-technokratischen Stil der vorausgehenden Autoren deutlich kritischer und immer wieder sehr polemisch. Strittmatter kritisiert zunÃ¤chst einmal die Literatur der letzten Jahrzehnte und den Begriffswildwuchs im Bereich Evaluation. Es sei viel geschrieben und wenig erklÃ¤rt worden: â€žDas liegt wohl daran, dass das EvaluationsgeschÃ¤ft im Grunde eine ziemlich banale Angelegenheit ist, wenn man mal einige allgemeine erkenntnistheoretische Grundlagen bzw. das Wesen von Feedbackprozessen begriffen hatâ€œ (94). Der Leser erfÃ¤hrt an dieser Stelle allerdings nichts Ã¼ber diese Grundlagen. DafÃ¼r weist Strittmatter sehr deutlich auf das Forschungsdefizit im Bereich Schulevaluation hin. Es gibt keine Studien, die der ReliabilitÃ¤t von Urteilen einer Schulinspektion nachgehen und auch die Frage nach der Nutzung von Evaluationswissen wird immer nur einseitig formuliert: Was mÃ¼ssen Schulen tun, um die Ergebnisse besser umzusetzen?

Der eingeschobene Exkurs zur Tiefenpsychologie des Kontrolleifers ist zwar kÃ¶stlich zu lesen, trÃ¤gt aber wenig zur Versachlichung der Diskussion bei. Auf jeden Fall ist Strittmatters Beitrag anregender zu lesen, als die teilweise semantisch glattgeschliffenen BeitrÃ¤gen zuvor. Gegen Ende des Beitrags wird es sogar pastoral, wenn Ã¼ber â€žHoffnungenâ€œ geredet wird: â€žEs gibt zwar namentlich in der Schweiz wenig, aber doch ein klein wenig Hoffnung, dass Schulevaluation je einmal einen Hofnarren-Rechtsstatus erhalten kÃ¶nnte, wie ihn Her Majesty's Inspectors in England und das NiederlÃ¤ndische Inspektorat mal hatten, bevor sie gouvernemental domestiziert wurden. Schulen wÃ¼rden einer externen Evaluation eher trauen [...], wenn sie die Erfahrung machen wÃ¼rden, dass die gewonnenen Erkenntnisse [...] auch zu Kritik an der behÃ¶rdlichen Bildungspolitik [...] fÃ¼hren wÃ¼rdeâ€œ (109).

Die niederlÃ¤ndischen Berichte sind dann wieder ganz im Ã¼blichen Evaluations-Jargon und schlieÃŸen die internationale LÃ¤nderberichterstattung zur Schulinspektion ab. Die nÃ¤chsten drei Kapitel besprechen Formen der Rechenschaftslegung in zwei LÃ¤ndern, die bewusst auf Schulinspektionen verzichten: USA und Finnland. Das spannende an dieser Auswahl ist, dass die Unterschiede kaum grÃ¶ÃŸer sein kÃ¶nnten. Und nach der LektÃ¼re vieler Konzepte ohne rechte empirische Fundierung stellt sich dem Leser sowieso die Frage, ob denn der ganze Aufwand lohnt. Die amerikanische Variante des Verzichts auf Schulinspektionen wÃ¤re allerdings ein schlechter Tausch. Der Beitrag von Doran Ã¼ber â€žtest-based accountabilityâ€œ in den USA deutet die eigentlichen Probleme nur an. Das von Bush unterzeichnete â€žNo-Child-Left-Behindâ€œ (NCLB) Gesetz von 2002 wird zwar als nicht zweckmÃ¤ÃŸig fÃ¼r eine interne Prozessevaluation von Schule beschrieben, aber es wird so getan, als kÃ¶nnte man mit gewissen Additionen daraus ein gutes System der Rechenschaftslegung und Schulentwicklung machen. Dabei wird nur in zwei oder drei NebensÃ¤tzen erwÃ¤hnt, dass bisher auch unerwÃ¼nschte Nebenwirkungen festgestellt wurden. Dass diese unerwÃ¼nschten Nebenwirkungen mittlerweile empirisch sehr gut abgesichert sind und kritische Soziologen und Erziehungswissenschaftler in den USA darÃ¼ber ausfÃ¼hrlich berichten, wird bei Doran nicht erwÃ¤hnt.

Das geschieht dann zumindest ansatzweise im zweiten USA-Bericht von Hess und Petrilli. Obwohl dieser Beitrag wesentlich deutlicher ausfÃ¤llt und populÃ¤re NCLB-Opponenten zitiert werden (Kohn, Nodding, Elmore), wird auch hier auf die gesamtgesellschaftlichen ZusammenhÃ¤nge einer solchen Gesetzgebung nicht genug aufmerksam gemacht. Problematisch, und vor dem Hintergrund der US-Tradition auch ungewÃ¶hnlich, ist vor allem die zentralstaatliche Verordnung eines Indikatorensystems mit eingebautem Erfolgszwang, das eingefÃ¼hrt wurde, um neoliberalen Vorstellungen von Schulwahlfreiheit und Wettbewerb auch im Erziehungssystem Geltung zu verschaffen.

Im Anschluss geht es weiter ins gelobte Finnland. Als Leser muss man natÃ¼rlich aufpassen, dass man das Berichtete vor dem Hintergrund der PISA-Exzellenz dieses Landes nicht allzu rasch glorifiziert. Dennoch ist schon erstaunlich, wenn in einem Buch, das Ã¼ber die EinfÃ¼hrung oder Neuordnung der Schulinspektion in Deutschland informieren soll, folgendes steht: â€žDie Abschaffung der schulischen Inspektion durch das Zentralamt fÃ¼r Unterrichtswesen (...) ging grundsÃ¤tzlich von den Schulinspektoren selbst aus, welche die Meinung vertraten, dass Schulinspektion einmal zu wenig brauchbare Informationen Ã¼ber den realen Zustand des Schulwesens lieferte und zum zweiten keinen wesentlichen Beitrag zur QualitÃ¤tsentwicklung der Schulen leisteteâ€œ (166). Im weiteren Verlauf des Beitrags erfÃ¤hrt man dann noch mehr: Vertrauen ist die zentrale Grundlage fÃ¼r QualitÃ¤tssicherung im finnischen Schulwesen. Schon deswegen ist dieser Beitrag direkt nach den beiden USA-Artikeln recht gut platziert worden und sollte unbedingt gelesen werden.

In weiteren AufsÃ¤tzen werden erste AnsÃ¤tze einer neu formierten Schulinspektion in drei BundeslÃ¤ndern vorgestellt: NRW, Bayern und Hessen. Alle drei Berichte geben einen hinreichenden Ãœberblick Ã¼ber die bildungspolitischen Zielsetzungen, die Funktionen und den jeweiligen QualitÃ¤tsrahmen der externen Evaluation. Von ersten Erfahrungen kann berichtet werden, allerdings liegen auch hier noch keine systematischen Befunde zur Akzeptanz oder Wirksamkeit vor. Trotz semantischer Differenzen, die auch schon Strittmatter fÃ¼r die Schweiz beklagt hat, Ã¼berwiegen die gemeinsamen Grundmerkmale: Kopplung externer und interner Evaluation, Nutzung multipler Daten und Kopplung von QualitÃ¤tssicherung und Schulentwicklung, so gut das eben geht. In diesen Berichten mangelt es auf jeden Fall nicht an Schaubildern, die perfekte Evaluationsprozesse suggerieren. Was fehlt, ist die empirische ÃœberprÃ¼fung der institutionellen Lerneffekte durch die RÃ¼ckspielung von Evaluationswissen.

BÃ¶ttcher und Kotthoff schlieÃŸen den Kreis und fassen im letzten Beitrag die â€žGelingensbedingungen einer qualitÃ¤tsoptimierenden Schulinspektionâ€œ noch einmal zusammen. Das klingt alles plausibel und Wohl dem Schulsystem, dessen Steuerleute sich konsequent daran orientieren. Allerdings sollte man auch kritisch fragen, ob die von BÃ¶ttcher und Kotthoff formulierten AnsprÃ¼che nicht zu ambitioniert sind und zu Ã¼berzogenen Kontroll- und Rettungsphantasien von Bildungsverwaltern in einem neu definierten Steuerungsparadigma fÃ¼hren (siehe Strittmatter). Noch schlimmer wÃ¤re es allerdings â€“ und da muss man BÃ¶ttcher und Kotthoff zustimmen â€“ wenn nur die Rhetorik des neuen Paradigmas kopiert wird und den Schulen keine Freiheit gewÃ¤hrt wird. Dann ist auch eine neue Form der Schulinspektion nichts weiter als eine â€žVerdoppelung der BÃ¼rokratieâ€œ (226).

Hosenfeld/GroÃŸ Ophoff: Nutzung und Nutzen von Evaluationsstudien in Schule und Unterricht

AbschlieÃŸend soll noch das von Ingmar Hosenfeld und Jana GroÃŸ Ophoff herausgegebene Themenheft â€žNutzung und Nutzen von Evaluationsstudien in Schule und Unterrichtâ€œ der Zeitschrift â€žEmpirische PÃ¤dagogikâ€œ diskutiert werden. Was bei BÃ¶ttchers und Kotthoffs Synopse internationaler Schulinspektionserfahrungen fehlt, ist in den nachfolgend vorgestellten BeitrÃ¤gen reichlich vorhanden: empirische Befunde zur Nutzung von Evaluationsdaten fÃ¼r die Verbesserung des Unterrichts. Und zwar geht es um ganz spezielle Evaluationsdaten: RÃ¼ckmeldungen an LehrkrÃ¤fte in den bundesweit bekannten und wissenschaftlich anerkannten Vergleichsarbeitsprojekten VERA, Lernstand NRW und Kompetenztest ThÃ¼ringen sowie dem Forschungsprojekt BeLesen. Eine direkte Verbindung zum Benner-Band ergibt sich Ã¼ber den bereits erwÃ¤hnten Beitrag von Hans Merkens. Er deutet konzeptionell an, in welche Richtung sich Vergleichsarbeiten und RÃ¼ckmeldestudien weiterentwickeln sollten.

Im Vergleich zu den beiden zuvor besprochenen HerausgeberbÃ¤nden sind natÃ¼rlich andere Voraussetzungen geben. Die Zeitschrift Empirische PÃ¤dagogik ist eine begutachtete Zeitschrift mit hohen QualitÃ¤tsansprÃ¼chen an die theoretische Fundierung und die Forschungsmethodik der Berichte. Alle BeitrÃ¤ge des Themenheftes sind somit stark fokussiert und forschungsmethodisch auf einem hohen Niveau. Den theoretischen Rahmen geben die beiden Herausgeber, Ingmar Hosenfeld und Jana GroÃŸ Ophoff vor, indem sie das bereits an vielen Stellen publizierte Zyklenmodell schulischer Innovation von Helmke und Hosenfeld noch einmal darstellen und erklÃ¤ren. Allerdings wird das sonst etwas trivial anmutende Modell nun zu Recht als â€žHeuristikâ€œ bezeichnet. Ebenso erweitern die beiden Herausgeber den theoretischen Rahmen von RÃ¼ckmeldestudien durch die Bezugnahme auf lernpsychologische Feedbackmodelle.

Julia Schneewind berichtet von einer Lehrerbefragung zum Umgang mit LeistungsrÃ¼ckmeldungen im Projekt BeLesen. Der Beitrag ist in dreierlei Hinsicht interessant und wichtig. Erstens erweitert sie das Zyklenmodell von Hosenfeld und Helmke um eine wichtige Komponente: Die Momente, die dem Prozess von RÃ¼ckmeldungen und Rezeption vorausgehen, d.h. die Zielsetzung, Konstruktion und Implementation der Vergleichsarbeit. Zweitens: BeLesen ist keine Vergleichsarbeit mit dem Ziel testbasierter Rechenschaftslegung. Es geht um gezielte Lernstandsdiagnostik in einem speziellen Kompetenzbereich und die halbjÃ¤hrliche Wiederholung der Tests signalisiert LehrkrÃ¤ften ganz deutlich den formativen Charakter der Evaluation. Eigentlich mÃ¼ssten die LehrkrÃ¤fte diese Form der UnterstÃ¼tzung ihrer Arbeit willkommen heiÃŸen und nutzen, aber Schneewind muss selbst in diesem Setting auf einige RezeptionsmissverstÃ¤ndnisse und Nutzungshindernisse hinweisen. Und das macht sie sehr Ã¼berzeugend mithilfe qualitativer Daten (Punkt 3), die bisher viel zu wenig genutzt wurden, um das Rezeptionsverhalten an Schulen nachzuzeichnen.

In den drei Berichten aus den bekannten Vergleicharbeitsprojekten VERA, Lernstand NRW und Kompetenztest werden jeweils noch einmal die Testkonzepte vorgestellt sowie Teilaspekte der mitlaufenden Rezeptionsstudien vertieft. Sowohl forschungsmethodisch als auch theoretisch hoch interessant ist der VERA-Beitrag. GroÃŸ Ophoff, Hosenfeld und Koch nutzen die online-Befragungsdaten von VERA, um verschiedene Rezeptionstypen unterscheiden zu kÃ¶nnen. Dies gelingt und die Typen kÃ¶nnen durchaus plausibel erklÃ¤rt werden. Allerdings fragt man sich hier natÃ¼rlich, ob die feinen Differenzlinien einer Clusteranalyse in der RealitÃ¤t tatsÃ¤chlich mit substanziellen Personendifferenzen korrespondieren.

Sowohl der Beitrag von KÃ¼hle und Peek zur Rezeption der nordrhein-westfÃ¤lischen Lernstandserhebungen in der Sekundarstufe I als auch die ThÃ¼ringer Rezeptionsstudie von Nachtigall und Jantowski geben wichtige Einblicke in den zwar nicht immer zielkonformen, jedoch vorhandenen Umgang mit RÃ¼ckmeldedaten an Schulen. Respektabel ist dabei die durchaus kritische Betrachtung der Test- und RÃ¼ckmeldesysteme, die ja von den Rezeptionsforschern selbst mit entwickelt wurden. Vor allem KÃ¼hle und Peek scheuen sich nicht, die FunktionsÃ¼berfrachtung der NRW Lernstandserhebungen fÃ¼r die unklare Nutzung der Daten auf Schulebene mit verantwortlich zu machen.

Alle drei Rezeptionsstudien mÃ¼ssen sich allerdings auch folgende forschungsmethodische Kritik gefallen lassen. Es wurden bisher noch keine qualitativen Daten erhoben, um die doch recht optimistisch anmutenden Nutzungsergebnisse zu validieren. Ebenso fehlt es an echten lÃ¤ngsschnittlichen Analysen. Schulentwicklung ist ein langwieriger Prozess und datenbasierte Schulentwicklung wird sich graduell ausbilden. Ein drittes Problem betrifft die Aggregationsebene der Daten Ã¼ber das schulinterne Rezeptions- und Nutzungsverhalten. Es werden Aussagen auf Lehrerebene gemacht. Ziel der datenbasierten Schul- und Unterrichtsentwicklung ist allerdings die Fachkonferenzebene und die Einzelschulebene. Mehrebenenanalytisch auswertbare DatensÃ¤tze wÃ¤ren deshalb ein nÃ¤chster Forschungsschritt.

Ein weiterer Beitrag in diesem Themenheft beschÃ¤ftigt sich mit Informationssystemen im Bildungswesen. Ausgehend von Forschungen zur Mensch-Maschine-Kommunikation und Informationssystemen fÃ¼r Manager, gehen Breiter und Stauke der Frage nach, wie ein RÃ¼ckmeldesystem fÃ¼r zentrale Leistungsstudien konzipiert sein mÃ¼sste, um den verschiedenen Nutzergruppen eine optimale Datenaufbereitung als Grundlage fÃ¼r pÃ¤dagogische Entscheidungen liefern zu kÃ¶nnen. Die Parallelen zu Forschungsarbeiten Ã¼ber Managementinformationssysteme sind sehr aufschlussreich. Bereits in den 1970er Jahren zeigten Studien, dass Manager fÃ¼r ihre Entscheidungen nur einen kleinen Teil der aufwÃ¤ndig gesammelten und aufbereiteten Daten nutzen. Teilweise tun sie dies auch nur, um nachtrÃ¤glich ihre Entscheidungen zu legitimieren. Ansonsten ist der Beitrag sehr informationstechnologisch und wiederholt noch einmal, was man in der internationalen Literatur Ã¼ber â€žschool performance feedback systemsâ€œ schon lÃ¤ngere Zeit diskutiert.

Informationstechnologische Finessen und weiter optimierte RÃ¼ckmeldeverfahren sollten allerdings nicht darÃ¼ber hinweg tÃ¤uschen, dass die RÃ¼ckmeldedaten zunÃ¤chst einmal fÃ¼r LehrkrÃ¤fte inhaltlich relevant und zuverlÃ¤ssig sein sollten. Diese Frage bearbeitet dann Karl-Heinz Arnold im abschlieÃŸenden Beitrag des Themenheftes. Er Ã¼berlegt sich, welchen didaktischen Informationsgehalt eine VergleichsarbeitsrÃ¼ckmeldung Ã¼berhaupt haben kann. Sein Fazit ist eine indirekte, aber doch deutliche Kritik an den moderat optimistischen Ergebnissen bisheriger Rezeptionsstudien: â€žVieles spricht derzeit noch fÃ¼r die Vermutung, dass in Deutschland die WertschÃ¤tzung von testbasierten Schulleistungsevaluationen eher ein allgemeines Einstellungsmerkmal darstellt denn eine schulpÃ¤dagogisch begrÃ¼ndbare Nutzungspraxis kennzeichnetâ€œ (455). Insgesamt ist das Themenheft mit Gewinn zu lesen, es informiert sowohl sachlich als auch kritisch Ã¼ber den aktuellen Stand in der Rezeptionsforschung.

Fazit

Sowohl der theorielastige Benner-Band als auch die international vergleichenden Berichte Ã¼ber Schulinspektionen als auch das empirielastige Themenheft der Empirischen PÃ¤dagogik zeigen, dass noch vieles zu klÃ¤ren ist, wenn Bildungsstandards zusammen mit neuen Modellen der Rechenschaftslegung tatsÃ¤chlich ein pÃ¤dagogischer Fortschritt sein sollen. Die drei Publikationen demonstrieren allerdings auch eindrÃ¼cklich, dass sich Fachleute aus unterschiedlichen Bereichen mit der Sache kritisch und konstruktiv auseinander setzen. Daran lÃ¤sst sich anknÃ¼pfen.

Uwe Maier (SchwÃ¤bisch GmÃ¼nd)

Zur Zitierweise der Rezension:
Uwe Maier: Rezension von: BÃ¶ttcher, Wolfgang / Kotthoff, Hans-Georg (Hg.): Schulinspektion: Evaluation, Rechenschaftslegung und QualitÃ¤tsentwickung. MÃ¼nster: Waxmann 2007. In: EWR 7 (2008), Nr. 4 (Veröffentlicht am 06.08.2008), URL: http://www.klinkhardt.de/ewr/978383091678.html