批判性思維理論、教學與評價研究的新動態

2023-02-13 19:01武曉蓓

延安大學學報（社會科學版） 2023年6期

武曉蓓

(1.延安大學外國語學院,陜西延安 716000;2.延安大學西安創新學院國際學院,陜西西安 710100)

在信息爆炸和人工智能時代,批判性思維和推理能力的發展已經成為一個全球性問題,其研究意義和重要性愈發凸顯。鮑靈格林州立大學(Bowling Green State University)教育基礎、領導與政策榮休教授法斯科(Daniel Fasko, Jr.)曾經于2003年編輯出版了《批判性思維與推理:當前理論、研究與實踐》一書。(1)參見Daniel Fasko(ed.). Critical Thinking and Reasoning:Current research,theory,and practice. Cresskill, NJ:Hampton Press,Inc.,2003.18年之后,法斯科與薩姆休斯頓州立大學(Sam Houston State University)哲學杰出榮休教授費爾(Frank Fair)于2021年合編出版了《批判性思維與推理:理論、發展、教學與評價》(以下簡稱《批判性思維》)。(2)參見Daniel Fasko, Jr. and Frank Fair(eds.). Critical Thinking and Reasoning:Theory,Development, Instruction, and Assessment. Leiden:Koninklijke Brill NV,2021.本書除了前言、后記和導論之外,包括4部分——批判性思維(以下簡稱CT)理論、發展和學習、課程和教學、評價共16篇文章。此書想讓讀者理解什么是CT,CT從童年、青春期直到成年如何發展,如何成功地向兒童、大中小學生和成人教授CT,了解各種廣泛使用的CT能力和傾向評價工具。每一部分除了包括4篇文章外,都配有一篇專家評論。4位評論專家分別是大名鼎鼎的女性主義教育哲學家塞耶-培根(Barbara J.Thayer-Bacon)、兒童哲學專家特里基(Steven Trickey)、著名CT教科書作者布朗(M. Neil Browne)與CT測試專家哈徹(Donald Hatcher)和波欣(Kevin Possin)。作者中還有其他一些CT名家:Stephen Brookfield、David Hitchcock、Mark Battersby、Noreen C. Facione、 Peter A. Facione和Sharon Bailin等。來自教育、哲學和心理學(或相關專業)領域的作者貢獻了多樣性觀點,使本書具有跨學科性質和國際吸引力。[1]xii

一、批判性思維理論

批判性思維理論的首要問題是“批判性思維”(critical thinking)這一概念。有7個得到充分發展的(哲學)CT概念。這些概念是綱領性定義(programmatic definitions),即對一個教育系統應培養的心智習慣和認知能力的建議。希契柯克(David Hitchcock)指出,一個全面的CT哲學概念將包括:對什么是CT的描述;對關于某一議題的批判性思考過程之構件的分析;與這些構件和過程相關的準則和標準集;對有助于滿足這些標準的精神狀態(知識、能力、傾向和態度)的說明;對擁有這些精神狀態之益處的說明。[2]9-10

杜威(John Dewey)的“反省性思維”(reflective thinking)強調在進一步探究期間懸置判斷的重要性——樂意保持和延伸作為透徹探究之刺激的懷疑狀態,因而在找到證明理由(justifying reasons)之前,不接受一種想法或對一種信念作出肯定的斷言。他聚焦于探究而非評估,所有說明反省性思維的范例沒有一個是關于人們評價別人的陳述和論證的。[2]10-11

恩尼斯(Robert Ennis)研究CT概念已有60余年。其早期的CT概念聚焦于評估——“對陳述的正確評價”,后來也走向考察對好思維不可或缺的“貢獻性思維活動”(如觀察、推斷和構想替代)。他明確指出,理性思考者是以傾向(tendencies或dispositions)為特征的。恩尼斯還為CT技能的熟練程度提供了詳細標準。與他的定義相適配,恩尼斯提出了CT傾向和能力的清單,有時又將該清單減縮為FRISCO——焦點、理由、推斷、情境、清晰性和概覽。恩尼斯還區分了4種教授CT的方法:一般方法、注入法、浸沒法和混合法,并倡導混合法(將一般方法與注入法或浸沒法組合起來的方法)。

保羅(Richard Paul)與埃爾德(Linda Elder)合著的《思考者指南》系列(含21本)論述了科學思維、倫理推理、工程推理等,試圖把CT教育在各學科和各教育層次具體化。CT被構想成監督和指導自己的思維,是自我導向、自我約束、自我監督的思維,是一種努力系統地提高思維質量的藝術。保羅的CT定義展開為三大構件——思想(推理)的8要素、9個普遍智識標準和8個理智德性的集成,并進一步區分了“弱意義”和“強意義”的CT。教育機構可以很容易將思想的要素、普遍的智識標準和智識美德的三位一體納入任何學術科目。當然,這種三位一體的模糊性也引發了人們對這種整合會在多大程度上改變課程、教學法和評價的懷疑,由此又引起它能在多大程度上改善學生思維的懷疑。[2]18

范西昂(Peter Facione)《德爾菲報告》的核心貢獻是CT概念共識的兩個清單:CT技能和CT情感傾向(affective dispositions)。技能有6個,情感傾向有7個(兩者均包括數量不等的子項)。CT是有目的的、自我調節的判斷的過程。這個過程對證據、語境、概念化、方法和準則給予理由充分的考量,以形成這個有目的的判斷。CT的反身性(reflexivity)允許人們將CT用于判斷(judging)正在依靠的那些理論、正在提出的證據、判斷正在訴諸的準則或標準的合理性(reasonableness)、正在被描述的語境元素的相干性,或者正在使用的探詢方法的有效性。與此概念配套,范西昂開發了《加利福尼亞批判性思維測試》(CCTST)和《加利福尼亞批判性思維傾向清單》(CCTDI)。這兩個測試工具已有30余種語言版本,全球60余國使用。[3]71

費舍爾(Alec Fisher)和斯克里文(Michael Scriven)將CT定義為:“對觀察、交流、信息和論辯的熟練的、積極主動的解釋和評估,作為思想和行動的指南”。照此定義,他們列出了CT所需要的能力,但把批判地思考的習性(propensity)當成是批判態度的全部,且與CT的定義無關。他們提出了CT測試的7個維度:測試的構建、管理、適宜性、覆蓋范圍、評分過程、解釋和報告。在每個維度上,都需要考慮各種標準(如,評估覆蓋范圍需要同時考慮廣度和深度),這比測試設計者通?？紤]的標準更全面,而且將多項選擇題與多項評價題(如增強論證、削弱論證或與論證不相干)結合起來。費爾(Frank Fair)等開發的《德克薩斯批判性思維技能測試》(2010)納入了這類題目。

女性主義教育哲學家塞耶-培根(Barbara Thayer-Bacon)批評恩尼斯、保羅等人的當代CT理論將一個人的思想與身體分開,將一個人與社會關系分開,建立在一種不充分的認識論基礎上。塞耶-培根將自己的CT概念稱為“建設性思維”(constructive thinking),試圖以其替代或至少補充正統CT概念?！敖ㄔO性思維”強調思維是我們在自己內部積極構建的東西,也是社會構建的。[4]67建設性批判性思維者是一個具體化的、融入社會的人,他有獨特的個人聲音,認識到自己在特定社會環境中所處的位置,以及所處位置可能帶來的謬誤;他在探究和解決問題時,不僅使用理性,還使用情感、想象和直覺,以達成相互討論并得到理由充分的判斷;他從不假設除了以相互尊重的方式與他人交往之外會存在一種超越它的方法。塞耶-培根所提出的一種新認識論是關系主義、實用主義、女性主義和建構主義的融合:將知識視為由嵌入社會環境和相互關系中的具體化的人所構建的社會性知識,知識通過行動和觀察我們行動的結果而獲得;知識不僅包括理性(傳統上與男性相聯系),還包括情感、想象和直覺(傳統上和女性相聯系),并將這些工具看作創造知識過程中的互動工具;拒絕將認知者與已知者分離。她將“大家縫”(quilting bee)這種獲取知識的手段(參與者在制作被子的各個階段進行協作)作為CT的象征。[2]22

伯林(Sharon Bailin)和巴特斯比(Mark Battersby)也對流行的基于非形式邏輯方法的CT不滿,因它往往是防御性的“邏輯自衛”——學會不接受不充分或錯誤的論證,視角過于狹隘和受限。CT方法基于探詢(inquiry),即對問題進行細致的批判性考查,以得出理由充分的判斷(reasoned judgment),而CT教學的目標是為學生提供對真實環境中的復雜問題做出理性判斷所需的理解和技能。其實,論證存在于圍繞爭議問題的論辯中。關切某一議題的各方,經常都提出有說服力的論證。做出理由充分的判斷需要了解論辯——對議題進行研究,考查各方提出的論點,以及對論點的反對意見和對反對意見的回應;還需要了解論辯的歷史和背景(語境還有助于確定哪些立場承擔舉證責任);理解并能夠采用適當的標準來評估主張和信息來源,評估和權衡相互競爭的論證;還要學會意識到自己的偏見并防范其影響。[5]32此外,培養探詢精神(spirit of inquiry)應是CT教育方法的核心。探詢精神是對理性的欣賞和對理性信念和行動的承諾,以及基于這一承諾的一套子德性(sub-virtues)。其中包括思想開放、公正心、好奇心、關注真和準確性、欽佩人類智識成就、樂意跟隨無論導向哪里的論證、接納不確定性,以及尊敬地對待探詢中的其他參與者。促進探詢精神要解決阻礙探詢精神的諸多認知的、社會的和情感的偏差(biases):一方面,要讓探詢者個人意識到自己的視角和偏見,監控自己的探詢和對話過程,并讓他們自己的觀點經受批判性評估;另一方面,要在課堂上建立一個以批判性探詢實踐為中心的共同體。這就需要一個以學生互動為中心,學生進行論證、提問、挑戰和批判的課堂。更進一步,還要努力開發一個包括理性決策在內的更全面的CT,尋求用一種更實用、更少意識形態的模型,取代理性決策標準模型。[5]40-41

希契柯克對“批判性思維”一詞略表遺憾:該詞明面上暗示其專注于評估已經生成了思維產品的那類思維,而忽略了產生這些產品的思維,將探究取向的思維(inquiry-oriented thinking)與評估取向的思維(evaluation-oriented thinking)人為分隔開。他認為,如果幫助個人和群體實現理想目標的思維既包括探究取向的思維也包括評估取向的思維,那么,用杜威的反省性思維、恩尼斯的理性思維,或塞耶-培根的建設性思維來描述這種思維就不會那么容易誤導人了。樂意探究是最基本的思維美德。它不僅原則上包括意愿,也包括實際的探究,徹底和全面的探究;不僅包括個體徹底和全面的探究,還包括群體徹底和全面的探究。因而,學校應該促進諸如杜威的實驗學校(Laboratory School)、塞耶-培根的蒙特梭利教室(Montessori classrooms)和李普曼(Matthew Lipman)的兒童哲學項目的探究共同體的發展。[2]26-27

為了明白地傳達CT必定具有分析的和反省的本質,杜馬斯(Denis Dumas)和董一曉(Yixiao Dong)用“批判-分析性思維”(critical-analytic thinking)替代“批判性思維”。因為批判-分析性思維這個術語能反映他們所認為的一種心理需要,即系統地估量、比較或以其他方式分析證據,以便進行批判性思考。[6]48他們認為,CT所必需的兩種認知能力是批判-分析性思維和關系推理(relational reasoning),而且這兩個構念(constructs)是相互聯系的。批判性和分析性思維是個關系過程(relational process)。然而,人們往往因各種原因不能進行批判-分析性思維。換言之,個體圍繞某一給定主張的真實性或恰當性進行批判性和分析性思維的能力,可能取決于他們組織或相互關聯來自其環境的刺激或他們對這些刺激的現有心理表征這些更基本的能力。這種辨別環境刺激或心理表征模式的關鍵基本認知過程名之為關系推理。[6]47-48關系推理是人類辨別不相關信息中有意義模式的基本認知能力,以及從關系集合中得出總體模式的基本能力,也是一個與教育高度相關的心理過程,與人類在各種學術背景和領域的學習活動(如早期閱讀、高中數學、高中化學和醫學臨床推理等)有著經驗性聯系。關系推理研究者確定了四種在學術背景中經常出現的關系推理表現形式:類比(analogy)、反常(anomaly)、二律背反(antinomy)和反題(antithesis)。這些表現形式之間的主要區別是從一個概念到另一個概念的關系類型。類比推理是兩個或多個概念、對象或情境之間存在結構相似性的基本關系。與類比(涉及辨別相似關系)相反,反常推理發生在關系偏離或偏離預期模式的時候。反常推理不僅需要從典型模式中識別差異的能力,還需要額外的基礎知識——對規范的理解。二律背反與不相容關系有關,通常涉及基于互斥性的分類,實際上是一種悖謬情形(如羅素悖論)。反題即對立推理(antithetical reasoning),它需要觀察兩種思想、概念或心理表征之間的直接對立關系。對立推理是論證和說服的一個基本要素。[6]51-52關系推理能力代表了對主張或陳述進行批判性分析的必要但不充分的條件,因此,在必要的關系推理得到發展之前,不可能對某些主張進行批判的思考。如果關系推理確實是批判-分析性思維的先決條件,那么以提高學生CT為目標的教育干預措施就可以側重于關系推理的教學策略。[6]56

塞耶-培根的評論認為,希契柯克對7個關鍵哲學概念的簡短描述遺漏了西格爾(Harvey Siegel)、梅可派克(John McPeck)、李普曼(Matthew Lipman),尤其是弗萊雷(Paulo Freire)。她指出,女性主義學者已經探索了教學問題,提出了許多旨在幫助學生學習如何進行探究,并將其探究技能應用到日常生活中的教學模式。她除了對CT的探詢方法表示贊同之外,對杜馬斯和董一曉的關系推理一文“感到興奮”,“因為我的整個職業生涯可以歸結為對關系性(relationality)的沉思”,但他們之間對關系的思考方式“幾乎沒有共同之處”。因為前者對與CT和分析性思維相關的認知過程和心理能力感興趣,而她自己從與他人的關系、個人關系、社會關系、精神關系、生態關系和科學關系的角度來看待關系,此工作來源于女性主義學術領域——心理分析、社會學、土著研究、佛教和科學,將宇宙視為統一的、互補的、動態的、共情的和聯系的。[4]74

二、推理能力的發展

《批判性思維》第二部分的主題是兒童、青少年和成人推理能力的發展。關于兒童推理能力的發展,人們提出了若干理論進行闡釋。馬科維茨(Henry Markovits)和德·尚塔爾(Pier-Luc de Chantal)用一種語義檢索模型(semantic retrieval model)或語義記憶理論(semantic memory theory)解釋兒童推理的發展。他們認為,工作記憶反映了在邏輯思維中保留和處理信息的能力。因此,工作記憶與邏輯思維的發展有關。在記憶中保留更復雜的表征需要更大的工作記憶容量。推理過程中檢索困難的部分原因是需要保持工作記憶容量中的信息。根據這一基本模型,決定兒童是否能夠對任何給定內容進行合乎邏輯的推理(特別是條件推理的肯定后件和否定前件)的關鍵維度是他們檢索替代的能力。這轉而又取決于兩個因素:1.事實上可獲得的替代的數量;2.獲得這些替代的難度。[7]87可見,條件推理不僅是一種收斂性思維,也與發散性思維相關?？梢园堰壿嬐评淼某霈F描述為在推理過程中協調收斂和發散運算的能力的發展。讓兒童做替代練習可以提高他們的邏輯推理水平。[7]93-94由此,他們論證了兒童推理的發展是由發散性思維的形式支撐的。

青少年或青春期兒童(13-19歲)是一種相對新近的文化建構(cultural construction),而不是青春期大腦的必然結果。與青春期前的兒童(10-12歲)相比,青少年身上出現了未曾看到過的、更高級的推理形式和理性水平,體現在邏輯推理(假設-演繹推理)、元邏輯理解(關于邏輯證明和邏輯真之本質的明確的概念知識)、認識的認知(從客觀主義者、主觀主義者到理性主義者)、科學推理(不僅僅是演繹推理,至少還包括超越數據而概括的歸納推理,假說檢驗)、論辯(包括識別和駁斥替代信念,預見對自己證明的潛在反駁,準備辯駁,協調視角,澄清分歧,尋求共同基礎)、(第三方)換位思考(perspective taking)和道德理性(原則性道德推理)等方面的質的進步。所以莫什曼(David Moshman)認為,青少年不理性這種說法是極為夸大了青少年和成年人之間差異的刻板印象。應該將青少年融入成人生活的不同角色和多代社會網絡,并賦予他們所有的權利和責任。解決青春期問題的辦法是承認青少年是成年人。[8]100

著名CT專家布魯克菲爾德(Stephen Brookfield)在批判理論(critical theory)傳統中討論了CT的過程,探討了該過程與目前主導成人教育領域的變革性學習理論框架的聯系,以及如何圍繞白人至上主義(white supremacy)意識形態和白人拒絕承認其白人種族身份的分析來發展成人CT。公民對維持根本不平等制度的主導意識形態(例如,認為白人理所當然的優越智力、客觀性、推理能力和邏輯能力意味著他們自動占據權力和權威的位置)進行批判性思考非常重要。CT的過程通常始于一個事件,該事件表明“圓滿”解釋世界的假設和視角與現實生活中發生的事情不相符。CT的核心過程是假設搜尋——辨識并研究支撐我們思想和行動的假設。白人至上主義、父權制或資本主義等主流意識形態中的假設最難揭開,開始質疑這些基本意識形態假設對我們會產生實質性的影響,從而質疑我們賴以生存的行為準則。[9]114-115面對一些令人迷惑的困境,成年人被迫質疑和重新評估他們理解世界的方式,通過批判地思考他人的假設(客觀重構)和自己的假設(主觀重構)來改變他們的參照系,并探索其他思維和行為方式。這樣,CT就是一種變革性成人學習(transformative adult learning)。[9]117-118布魯克菲爾德主張一種促進對種族身份進行批判性思考的教育學,這種教育學基于敘事披露的方法論(methodology of narrative disclosure)和批判種族理論(critical race theory)對相反敘事的倡導。[9]128他還提醒,CT不是在真空中發生的,而是關于某件事的,適用于“現實世界問題”。他也例示了如何通過對情緒化話題的理性思考來培養CT,并警醒人們:我們的無意識偏見可能比我們最初想象的更普遍。[10]143-144

特里基(Steve Trickey)的評論將“發展與學習”和兒童哲學(philosophy for children)聯系起來,認為兒童哲學過程提供了一種發展通常會在較年輕的群體中出現的理性思維的潛在方式。兒童哲學旨在發展可應用于“自由”和“公平”等一系列抽象哲學概念的推理過程。兒童哲學進程的基本要素與其他干預措施中的基本要素完全一致,這些干預措施往往為提高課堂互動質量和提高學生群體思維的認知挑戰水平(探索“重大”道德、倫理和精神問題)提供了一種結構。[10]139哲學探究不是一種促進CT的簡單“工具包”方法,其過程取決于互動和對話的質量。兒童哲學提供了一個機會——通過共同體中的理性辯論來挑戰特定的觀點或信念。一旦在思維共同體中建立了尊重挑戰的過程,個體就可以更好地反省自己的想法。[10]144-145

三、批判性思維教學法

“課程和教學”部分討論了小學、中學和大學的CT教學策略,包括克萊格霍恩(Paul Cleghorn)的小學CT“3步教學法”;馬凱奧(Amber Strong Makaiau)根據李普曼兒童哲學計劃闡述的提高中學生批判性思維技能的“好思維者工具包”,以及海納(Amanda Hiner)對溫思羅普大學(Winthrop University)將明確的CT教學納入通識教育課程的方法的介紹。

一項歷時15年,綜合了800多項關于影響學齡學生成績的因素的元分析的研究結果顯示:對學習影響最大的策略包括元認知、反饋、直接指導和問題解決。[11]151這表明,循證學習(evidence-based learning)即采用經過嚴格研究證明行之有效的方法和策略是關鍵。在蘇格蘭一所小學擔任多年校長的克萊格霍恩倡導一種3步驟——認知挑戰、社會建構和元認知的CT方法。第一個要素是設置認知挑戰,即提出一個不容易回答的問題集(在哲學探究的情況下,可能沒有明確的答案)。第二個要素是社會建構,即使用對話來探究問題。這是一個合作的過程,學生們往往通過小組活動探究問題。需要花時間建立規范的對話語言并有效使用它。一種最有效的指導性方法是哲學探究,尤其是“通過哲學思考”(TTP)的方法。第三個要素是元認知。進入這個階段,學生思考自己的思維。與3步法相適配,有一些相關的思考“工具”,如思考/配對/分享、思維圖、二次提問、抑制判斷等,還有一些簡單的評估方法,比如“參考標準的CT矩陣”(criterion referenced matrix for critical thinking),強調形成性評估作為一種使學生進步的有力方法的重要性。此外,3步法就如李普曼兒童哲學方法一樣,不僅強調認知發展,也強調情商的發展。自我意識、自我調節、動機、同理心和社會技能,更一般地說,心理健康,都可以在踐行CT3步法的過程中得到改善。[11]165

馬凱奧利用自己13年來使用夏威夷兒童哲學(p4cHI)教授高中社會研究的經歷,說明如何在中學教育中使用“好思維者工具包”(Good Thinker’s Tool Kit)進行CT和推理。該工具包是杰克遜(2012)創立的讓學生和教師參與思考和推理藝術的本土方法。p4cHI很少作為一個獨立的學校課程來實踐,而是一種“哲學家的教育學”或一種教與學的方法,教師可以用來將“哲學活動”納入所需的“學?？颇俊?。[12]171-172該工具包從形式邏輯發展而來,是讓中學生和教師參與溫和的蘇格拉底式探究的藝術和技巧的絕佳策略,是幫助師生變成好思考者的探究工具。好思維者工具包7個CT指標:W:你這是什么意思?R:理由是什么?A:假設是什么?或者我可以假設什么?I:可以從推斷嗎?或者在哪里可以做出推論?T:所說的是真的嗎?如果是真的,它意味著什么?E:有什么例子可以證明所說的話嗎?C:有沒有反例來反駁所說的話?可見,該工具包是一種啟發式工具,旨在促進和評估學生的發展,使他們成為負責任的、能夠獨立推理的批判性思維者。它可以在中學教育尤其是4個主要核心學科領域——社會研究、英語語言藝術、科學和數學中廣泛使用。[12]175在6至12年級的各種課程中,該工具包有6種一般用途。[12]176-177馬凱奧詳細說明了向中學社會研究學生介紹好思維者工具包,概述了運用該工具包上課的過程,討論了對該工具包的反思和獲得的啟示。他也看到了學生在課堂外生活中如何使用該工具包引導日常生活,不禁暢想:“如果所有學齡兒童都在接受K-12教育的過程中接觸好思維者工具包,那可能會對美國社會產生怎樣的影響?！盵12]185

大學的CT教學往往與通識教育課程相聯系。溫斯羅普大學的教師將通識教育計劃(general education program)轉變為包括CT的集中而明確的教學,幫助學生獲得學術和職業成功所需的認知技能和心理傾向。鑒于保羅開發,埃爾德和諾西奇放大的CT方法具有概念簡單,兼具潛在的復雜性和應用的深度,重新設計溫思羅普通識教育“核心”時采用了它。[13]196在計劃修改方面,對大一和大二期間連續必修的一組課程進行實質性修改:1.提高了ACAD 101: Principles of the Learning Academy的嚴格性,包括使用推理要素對文本進行批判性閱讀和分析的指導。2.提高了Writing 101: Academic Writing的嚴格性,要求在每篇論文中對外部來源整合、綜合和分析;強調批判性閱讀策略。3.增加了一門新課程HMXP 102: The Human Experience,重點是批判性閱讀和對復雜散文文本(prose texts)的仔細、嚴謹地分析,強調的主要技能是批判性閱讀、分析和評估主張,以及將不同的文本合成為合乎邏輯的書面論證。4.將Writing 102改為CRTW 201: Critical Reading, Thinking, and Writing,這門課程明確強調CT和高級學術寫作。CRTW 201的學生用整學期的時間學習保羅式的CT,并將這種分析和評價方法應用于嚴謹的非虛構散文文本,以跨學科為重點,應用于他們自己學術學科中的問題和主題。在課程修改方面,新的必修通識教育課程“CRTW 201:批判性閱讀、思考和寫作”被設計為一門混合型課程,側重于CT理論和應用、修辭論證的基本組成部分、批判性寫作策略、復雜散文文本中的論證分析、研究方法和來源正確記載的指導。教材是諾西奇(Gerald Nosich)的《學習思考:課程中的批判性思維指南》(2012)。這門課程要求按年級寫作6000字的分析和審議性作文,最終完成一篇9到10頁的論辯性研究論文。本課程強調保羅的CT方法,旨在提供一套可應用于學生專業課程的技能,豐富和增強他們參與深度學習、批判性閱讀、分析推理和批判性寫作的能力。在修改課程論文作業方面,CRTW 201要求學生以明確的方式整合CT概念,展示應用CT策略的能力,并納入元認知元素。該課程通常包括5次論文:論文一:需要元認知和自我分析的4到5頁的打字論文,可能要求學生將推理要素應用到導致他們過去錯誤的思維中,或者它可能要求學生分析他們目前持有的信念,使用過濾器、障礙和CT的障礙的概念。論文二:應用8要素的課堂論文,通常要求學生運用推理8要素來分析一篇文章、一本書的章節或兩篇文章。論文三:一篇5到6頁的文章,同時運用推理的要素和CT的普遍標準,通常會要求學生同時使用要素和標準來評估一篇或一組相關的文本。論文四:一份9到10頁的研究報告,包括要素和標準,以及與課程內容相關的主題的外部研究。本論文主題要求學生考慮CT在他們的學科和未來職業中的應用,并在研究過程中進行元認知自我反思,評估自己的思維。論文五:期末論文考試,可以是元素和標準的應用,也可以有很強的元認知焦點。海納要求學生學習保羅和埃爾德的CT“階段”,并寫一篇說明為什么他們會把自己置于批判性思維發展的特定階段的論文。所有評估結果都表明,學生在批判性思考和分析領域取得了積極的學習成果。分析性寫作(analytic writing)、做出論證(make-an-Argument)、批判論證(critique-an-Argument)和實作任務(performance task)方面,溫思羅普學生的成績均達到“高于”或“遠高于”預期分數,高于全國平均水平(2018,2019)。海納還從以上教學改革歸納出12條以實質方式整合CT的建議。[13]201

布朗(Neil Browne)在美國中等規模的州立大學教授CT已有52年,是CT名著《問對的問題》(Asking the Right Questions)的作者之一。該書有12個版本和16種語言,已被世界各地的數百所大學使用。其特點是將CT框架化為一組問題(很像馬凱奧描述的“好思維者工具包”中的問題)。布朗尖銳地指出,對“批判性思維”這個詞的忠誠度與高校職員的日常行為之間有很大鴻溝。這個關鍵問題也涉及推銷CT的問題,需要對鼓勵CT的方式進行批判性思考。[14]217布朗指出,一種類似于法庭上喧囂的CT方法并不是一種暢銷的CT,他提倡宣傳一種不會產生任何斗爭或競爭之感的CT。作為一名校際調解教練(intercollegiate mediation coach)和校際模擬審判教練(intercollegiate mock trial coach),他給CT老師的獨特建議是:花點時間研究調解(mediation),它是重塑的、更溫暖的、使用者友好的CT指南。[14]220-221

四、批判性思維評價測試

在《批判性思維》第四部分,海恩斯(Ada Haynes)和斯坦因(Barry Stein)討論了他們開發的CT評價測試(Critical thinking Assessment Test,CAT),范西昂夫婦(Peter Facione和Noreen Facione)以及吉騰斯(Carol Ann Gittens)報告了開發和使用加州CT技能和傾向測試工具(CCTST和CCTDI)的情況,巴特勒(Heather A. Butler)從心理學觀點討論了CT測量的基本問題,哈徹(Donald Hatcher)和波辛(Kevin Possin)合寫了對以上文章的評論,而波辛對主流CT測試工具的普遍批評頗具沖擊力。

讓教師參與CT技能的真實評價(authentic assessments),即讓學生在真實生活情境中展現他們的能力,會影響他們修改教學實踐以改善學生弱點的興趣。海恩斯和斯坦因認為,CT評價測試提供了一種評價這些技能的真實方式(authentic way),并為如何開發更好地突出CT的學科特定評價工具提供了一個模型。CAT基于一種當代的、包容的、基于技能的方法。CAT工具是根據教師的輸入來設計的,用以評估教師認為最重要的技能;它還被設計成由教師打分,這樣他們就可以直接看到學生的優點和缺點。CAT評價的技能領域有4個:1.評估信息(區分事實信息與推斷,解釋圖表中的數值關系,理解相關聯數據的局限,評估證據,辨識不恰當結論);2.創造性思維(查明對數據或觀察結果的替代解釋,找出可能支持或反駁某個假說的新信息,闡明新信息如何能改變一個問題);3.學習和問題解決(區分相干信息和不相干信息,整合信息以解決問題,學習并應用新信息,運用數學技能來解決現實問題);4.交流(有效地交流想法)。CAT使用15個主要是簡短答案的短文反應來評估CT(可以在一個小時的課堂上進行),這一點不同于許多基于強迫選擇反應(forced choice responses)的CT評估。許多需要CT和解決問題的真實的現實情境都沒有一個簡單答案,也沒有選項的簡單集合以供選擇最佳答案。[15]236-237此外,CAT還可以考察不能通過選擇題測試來評價的創造力、溝通和深度學習。它還包括一個稱為“動態評價”(dynamic assessment)的過程。在動態評價中,一系列越來越深入、更明確的問題提示被用來激發學生的CT技能,以衡量人們理解和評估新信息,并將這些信息應用于新情況的程度。教師對CAT工具的表面效度的評價是很高,CAT與其他CT和學習成績的衡量指標表現出適度的相關性,為評估的效標效度提供了支持。最重要的是,CAT成績與學生認為大學課程強調死記硬背的程度之間存在負相關。CAT已經在美國300多所學院和大學使用,其他國家(澳大利亞、加拿大、中國、日本和巴勒斯坦)對CAT的興趣和使用正在擴大。在美國的機構使用CAT時,沒有發現有文化或性別偏見,也沒有發現CAT存在學科偏見。[15]239-240針對評分過程占用教師太多時間的難題,開發者正在探索簡化的評分方法。[15]245

心理學家巴特勒從心理學角度分析了CT評價問題。CT和智能不是一個概念,它們是預測不同生活事件發生的不同構念。任何評價的質量都是基于它是否可靠和有效。在確定評價是否可靠和有效時,有許多類型的信度(reliability)和效度(validity)需要考慮。心理學家做出的另一個區別是依賴再認記憶(recognition memory)的評價和依賴回想記憶(recall memory)的評價。再認記憶是回答選擇題時使用的記憶類型?；叵胗洃浭腔卮鹨粋€簡答題(short answer question)或作文題(essay question)時所使用的記憶類型。這類評價需要在沒有任何提示的情況下從記憶中檢索答案,花費更多精力。一般認為,通過回想來回答問題的答案更真實,也更能反映答題者的實際知識?；诨叵氲脑u價的主要缺點是,它們需要對所構建的響應進行額外的分級。因此,許多CT評價依賴對選擇題的回答,盡管在測量這樣一個復雜的構念時存在固有的困難。[16]260-261巴特勒分析了兩大類(技能和傾向)CT工具的心理測量特性,對6個CT技能評價和2個CT傾向評價作了簡要評論?？的螤朇T測試(Cornell Critical Thinking Test,CCTT)和學術能力與進步測試(Measures of Academic Proficiency and Progress,MAPP)完全依賴再認記憶?？的螤朇T作文(Cornell Critical Thinking Essay,CCTE)、ICATCT作文考試(ICAT Critical Thinking Essay Examination,ICAT)和華生-格拉澤TM II CT評價(Watson-GlaserTM II Critical Thinking Appraisal,W-GII)完全依賴回想記憶。哈爾彭CT評價(Halpern Critical Thinking Assessment,HCTA)同時利用了回想記憶和再認記憶。

CCTT是一項選擇題型評價,測量大學生歸納和演繹、確定可信度、預測和實驗計劃、邏輯謬誤(尤其是歧義)識別和假設識別等思維能力。經各種測量方法得到的信度沒有一個達到推薦的信度標準。這導致了對該評價工具的改進(但目前尚未發表評價修訂后的該評價的心理測量特性的證據)。美國教育考試服務中心(Educational Testing Service)提供的MAPP,除了測試閱讀、數學和寫作,還測試人文、社會科學和自然科學的CT。這種選擇題型考試有短版和長版,可用紙筆或在線完成。有研究認為,由于其結構和格式與經過良好驗證的工具——學術輪廓(Academic Profile)相似,因而可以推定MAPP的結構效度,但這需要更多的研究來驗證這一假設。CCTE使用答題者對給(虛構的)報紙編輯的信件的評價來測量CT,主要側重于論辯技能(argumentation skills)和評估。這一評價工具在24項研究中得到了廣泛評估,外部效度和內容效度都很好,但效標效度尚未建立。同時,評分者間信度很好,但內部一致性不佳,不符合最低信度標準。國際思維評價中心(International Center for the Assessment of Thinking,1996)發布的ICAT測量閱讀理解和論證分析。給被試呈現一篇與領域相關的社論,要求分析并評估該社論——寫一篇文章,綜述該社論的內容,辨識要點,并確定社論中做出的論證的力量和弱點。開發者論證說,該工具有結果有效性(consequential validity)——它可以作為一種診斷工具來改進教學,但沒有進一步的證據證明該測試的信度或效度。W-GII(NCS Pearson,2009)測量推理、假設識別、演繹、解釋和論證評估。它是基于問題的評估,有長形式和短形式,也可在線管理?？傮w而言,W-GII的心理測量特性很好,是一個有效和可靠的評價工具。HCTA測試語言推理(verbal reasoning)、論證分析、假說檢驗(像科學家一樣思考)、可能性和不確定性,以及決策/問題解決。它有多語言版本,在網上進行管理,有短版(只針對再認問題)和長版(回想和再認問題)。最新版本包括對書面回答的計算機輔助評分。這是一種基于問題的評價,向被試提供來自眾多生活領域的20個場景。被試閱讀、構建開放式問題的答案(回想記憶,僅限長版本)后,回答必選題(再認記憶)。一些研究已經建立了HCTA的信度和效度。有10個研究使用不同的方法和來自不同國家的樣本評估了該評價工具的結構效度?？偟膩碚f,HCTA為測試的信度和效度提供了堅實的證據。[16]265CCTDI是一項適用于10年級及以上學生的選擇題評價。根據德爾菲報告的CT定義,評價求真、思想開放、分析性、系統性、CT自信性、好奇性和判斷成熟度7個因素。研究表明,原始7因子結構未得到支持,但4因子結構得到支持。整個評價的信度非常強,但各子量表的強度各不相同。同一出版商(Insight assessment)推出的CMMM為年幼兒童和青少年制作。該評價有幾個版本,根據考生的年齡而有所不同。該評價測量學習傾向(learning orientation)、創造性問題解決、精神專注(mental focus)和認知完整性(cognitive integrity)4個因素。各因素的內部一致性和效標效度良好,得分與自我效能(self-efficacy)與包括SAT和GPA在內的學業成績相關。測試研究證實,那些在CT評估中得分高的人經歷的負面生活事件比那些得分低的人要少。當然,關于CT是否在大學得到改善,有不同的結論,這確實凸顯了使用質量評價(quality assessment)并確保被試有動力認真對待評價的重要性。[16]266

范西昂等圍繞運用自己所開發的CT測試工具的研究結果,分別回答了4大問題:1. 大學生:當今學生的CT技能與幾十年前的技能相比如何?2.專業培養方案(professional programs):CT評價對畢業和專業錄取以及對向職場過渡的預測有多大幫助?3.K-12學生CT評價的進展:關于CT和最佳兒童期發育之間的關系,K-12的數據告訴了我們什么?4.職場CT評價的價值:CT測試和培訓的商業優勢是什么?[17]272-273對這些問題的回答是使用CCTST和CCTDI獲得的數據做出的。攻讀副學士學位(二年制)、學士學位和研究生學位的學生這三個群體在間隔7年的3個時間點(2005,2012,2019年)的平均CCTST總分在增加。(3)CCTST報告的分數為0-34(34道題,每題一分)。2010年引入百分制。地區性公開招生大學的平均CCTST成績為14.8分(73.2分)——錄取了一些CT能力較弱的學生;相比之下,研究型大學的學士學位學生的平均總分為18.0(77.6),表明這些學院的錄取標準導致那些CT能力平均較高的學生的選擇?？偡值淖兓馕吨逃龑τ柧毻评砑寄艿闹匾曊诋a生效果。有限的證據表明,過去15年來,學生(本科生和研究生)總體CT能力有所提高。改善CT的舉措正在世界各地(至少50余國)開展。在許多國家進行的研究,記錄了不同國家人群中CT的進步。[17]278研究生水平的樣本通常比本科水平的樣本具有更好的心態屬性分數。有證據表明,隨著時間的推移,大學生的CT能力和心態都在提高。多年來,研究人員一直在研究入院時CT分數的作用,以預測臨床評分、學位完成率和執照率。大多數項目使用健康科學推理測試(Health Sciences Reasoning Test,HSRT)或CCTST作為評估工具,將學生或申請人與他們專業組的全國比較百分位數進行比較,并使用CCTDI作為思維心態屬性的衡量標準。來自澳大利亞、中國(含香港特區)、愛爾蘭、加拿大、阿聯酋、土耳其、沙特阿拉伯、英國、日本、荷蘭、馬來西亞、美國和許多其他地區的同行評議研究表明,作為一名成功的健康科學學生和執業臨床醫生的指標的CT技能分數,具有預測能力。[17]280-281

為測量K-12學生的批判性思維,范西昂等開發了教育洞察(EI)推理技能(EDUCATE INSIGHT Reasoning Skills)和心態系列(Mindset Series)系列(2005-2017)。這些項目共同提供了對整體CT的測量,以及對5個或更多技能領域(分類、說明、分析、推論、評估、歸納推理、演繹推理、數字計算和解釋。)的測量。2018-2019年的中學樣本研究表明,中學生在CT技能方面取得了進步。甚至K-2水平的孩子也表現出較高的CT能力。這表明,讓孩子擁有更好的思考能力越早越好。3年級及以上的推理能力測試包括一個計算能力指標。(4)吉騰斯將計算能力(Numeracy)定義為定量語境中的批判性思維,強調使用分析、推理、解釋、說明、評估以及對自己推理過程的反思(元認知和自我調節)。算術不僅僅是簡單地加一列數字或求解x,首先是解決問題的能力——確定應用哪種數學運算,以何種順序,這樣人們就可以利用可用的定量信息正確地推理,并解決手頭的問題。參見Carol Ann Gittens.Assessing Numeracy in The Upper Elementary and Middle School Years.Numeracy, 2015(1).教育洞察心態(The EDUCATE INSIGHT Mindset)工具包括幼兒園至2年級(小學)、3-5年級(小學高年級)和6-12年級中學生的評價。K-2工具報告4個性格維度的得分:學習取向(Learning Orientation)、創造性問題解決、精神專注(Mental Focus)和認知完整性(Cognitive Integrity)。在3-5級和6-12級的工具上增加了學術嚴謹度(Scholarly Rigor)作為第5個指標。樣本研究結果顯示,大多數兒童具有積極的學習取向和認知完整性。創造性問題解決和精神專注的分數在分布更廣泛的連續統一體中。在這個非常年輕的群體中,許多孩子都表現出了這種心態屬性。[17]288

在學術界之外,組織篩選應聘者時要能夠識別表現出強批判性思維的應聘者。專門為在商業、醫療保健、國防、科學和工程、法律等領域工作的人量身定制的CT測試工具也開發出來,例如Insight Assessment的商用評價系列工具?？傊?CT的力量越來越多地與教育和工作場所的關鍵績效指標聯系在一起;而且CT技能和心態的培訓通常是有效的。[17]289

在評論CT評價的文章中,哈徹負責一般評論,波辛則提出了對市面上知名CT評價測試的批評。哈徹提醒CT測試的“消費者”應注意五個問題:1.哪個測試最適合要評估的項目或課程?2.各種測試是如何驗證的,是否正確驗證?3.從評估數據中能和不能學到什么?用于結果比較的數字真正意味著什么?4. 從數據中可以得出批判性思維教學成功或失敗的結論嗎?5.評估的全部成本是多少?鑒于其費用,商業測試是最佳選擇嗎?[18]299-300評價測試的消費者首先要將測試工具與一個人的CT概念(不同的概念涵蓋不盡相同的技能和傾向)。選擇一個測試來評估一個人沒有教的東西,或者選擇一個不評價一個人所教東西的測試,都是沒有意義的。要知道某一測試是否在評價老師所教的內容,那就最好讓這些老師參加該測試。[18]301-302要進行有意義的測試分數的比較,需要考慮許多變量。[18]302在解釋測試成績方面,數字本身并不能說明全部情況。目前還沒有確切的方法來確定收益或損失是CT教學還是其他因素組合的函數。哈徹認為,各種測試工具對學生的前測和后測分數比較得到的“收益”增長,從百分比看起來“顯著”,但實際進步微乎其微:很可能在上完CT課程或大學4年后,普通學生的后測只比前測多做對兩道題。況且,測試的更多學生成績稍好,可能有另外的解釋。如果沒有一個精心構建的對照研究,就無法知道這個增益是CT課程,還是學生在那個學期所學的其他課程的作用。而如此小的收益可能會讓人質疑CT教學的效果:大多數學生要么沒有能力以任何重要方式獲得必要的技能和傾向,要么老師沒有能力教授這些技能。因此,評價測試可以使用,但商業推廣大可不必。[18]303

波辛對前述CT評價測試工具逐個提出了具體批評。CAT側重于一般科學推理和問題解決技能,完全忽略了涉及演繹推理、論證分析和經典非形式謬誤識別的技能評價,根本不是對CT技能的一般測試。[18]307-308盡管CAT有高表面效度,但似乎沒有足夠證據證明其內容效度。CAT本身在測試其重要CT技能子集方面做得很好,然而評分指南的嚴重問題最終阻礙了其結構效度。CAT的第二部分幾乎完美,但第一部分存在嚴重的評分問題,評分指南或教師評分員接受培訓后使用的答案有可商榷之處。[18]309-310

波辛早先(2008)就評論過CCTST和CCTDI。CCTST修訂版(2010)的最大變化是增加了6個涉及“計算能力”的題目,使其由34題變成40題的選擇題考試(時間由45分鐘延長為55分鐘)。波辛對CCTST的內容效度評價很高,并將其部分原因歸為德爾菲報告這一基礎。但CCTST用戶手冊和洞見評價(Insight Assess)網站中給出的該測試之效度的其他理由并不充分。內容效度的一個主要問題是,參與德爾菲項目的學科專家在制定CCTST及其答案要點中沒有發揮作用。由于“所有權”原因,專家評審員因一直未能使用這些題解(answer key)而無法對其驗證。波辛強烈反對CCTST的55分鐘時間限制,因為CT應是反省性的“慢思維”,而不僅僅是直覺的“快思維”。他還指出了CCTST題目的幾個具體問題。[18]311然而,對于CCTDI,波辛認為它沒有什么價值,一則因為對自己CT技能和應用這些技能之傾向的自我報告是不可靠的,二則CCTDI很容易“玩測試游戲”,為得到好分數,而不管一個人性格的真實答案是什么。[18]314

波辛(2008)曾對恩尼斯構想和創建的CCTT(針對本科生和研究生的Z級)進行了考查,認為它是一個具有高內容效度測試的佳例。CCTT管理手冊(2005)通過其結果與沃森-格拉澤CT評價測試結果的相關性,提供了其效標效度的一些證據?！妒謨浴愤€列出了使用CCTT-Z的實驗研究,其中一些研究為CT中明確的教學(explicit instruction)優于其他教學形式提供了有力證據。由于E-W作者的主題專業知識,它在內容效度方面排名靠前,并且通過與沃森-格拉澤的結果的適度相關性,它也獲得了效標效度的證據。與ICTT相比,它是更好的選擇。MAPP可用于評估大學機構通識教育項目的有效性。只有四分之一的考試是關于CT的。因此,它不是一種有效的CT評價手段,也不適合高效的課堂或部門應用。[18]315

波辛(2008)也批評了保羅和埃爾德的ICTT。再次考查該測試之后,他發現該測試更多的是一種營銷策略,而不是一種評價工具。這是因為,教員評分員將根據保羅的CT分析語言(8要素)和保羅的評估語言(9-11個智識標準)對學生的回答進行評分。而熟悉這種語言的最好(唯一)方法是參加ICTT培訓班、為期兩天的專業發展工作坊,或者購買和學習他們的出版物。[18]315

早先(2014),對于W-G的最新形式D和E,波辛指出,該測試方向的許多方面是令人困惑和誤導的,造成這樣的狀況:你對CT了解得越多,你的分數就越低(此文的副標題)。波辛的評論指出了另外兩個觀察:1.根據W-G技術手冊和用戶指南(2010),W-G的最新版本更多地關注商業主題和場景,現在更多地迎合商業客戶,而不是學術應用。2.修訂工作不能令人滿意,比如:形式D的一半題目來自形式A,形式E的一半題目來自形式B。而在形式D的評估部分,8個新題中的5個有多個合理答案。[18]316

HCTA基于以下CT概念:批判性思維是指使用認知技能或策略來增加理想結果的可能性。它用于描述有目的的、理性的和目標導向的思維——當思考者使用針對特定情境和思維任務類型的深思熟慮、有效的技能時,在解決問題、公式化推斷、計算可能性和作出決策時所涉及的思維。波辛認為,這個定義提出了許多問題,最直接的是:什么結果、什么目的和什么目標?不過,哈爾彭所確定的5種廣泛的CT技能,都是CT技能的關鍵類別。然而,CT的其他相關元素,如演繹推理技能,避免(除了滑坡謬誤和虛假類比的)非形式謬誤的能力,都被忽略了。波辛也不同意巴特勒對HCTA有效性的高度贊揚(波辛在2013年的一篇文章中分析了其在有效性、可及性和可負擔性方面的嚴重缺陷)。和其他測試一樣,所發現的問題是由措辭不當的題目、有多個合理答案的題目和完全不正確的答案引起的。[18]316-317

大學學習評價測試(The Collegiate Learning Assessment Test,CLA)(5)波辛在《大學學習評價測試的一個嚴重缺陷》(2013)一文中對CLA進行了非常詳細的批判性考查。有趣的是,這篇文章被翻譯成意大利語之后,有人用它來反對意大利政府的計劃——要求所有大學都采用CLA,用學生所獲的收益來決定教師的工資。被前述巴特勒的列表遺漏了,而它可能是最著名的(或臭名昭著的?)CT評估測試。這是兩位研究者(2011)在24所高等教育機構中使用的測試,也是斯佩林斯委員會建議所有美國高等教育機構為確保不讓本科生掉隊所需要做的,但有所爭議。CLA已被修訂為CLA+:它的實作任務(performance task)保持不變,但分析性寫作任務已被換成了3部分,包括關于簡短文檔的多項選擇題。波辛對CLA+的審查發現,在一個樣本測試中,這個新部分的14個題目中有5個有問題或答案錯誤,這對新測試來說不是個好兆頭。[18]317

波辛解釋說,對CT評價測試的這么多批評,并不是對CT評價測試持懷疑態度,而主要是一種嚴厲的愛。若要問波辛選擇哪一個CT測試,他會這樣做:如果預算緊張的話,那就使用CCTT-Z;若是論文測試,就用E-W(因為它免費,包括答案);關于歸納/科學推理的測試,勉為其難使用CAT(但前提是他可以編輯評分答案,并有一個慷慨的預算)。[18]317-318

批判性思維理論、教學與評價研究的新動態

一、批判性思維理論

二、推理能力的發展

三、批判性思維教學法

四、批判性思維評價測試

批判性思維理論、教學與評價研究的新動態

一、批判性思維理論

二、推理能力的發展

三、批判性思維教學法

四、批判性思維評價測試