吳紅軍,鐘 韻,吳雨萱
(廈門大學 管理學院,福建 廈門 361005)
ESG是Environmental、Social和Governance三個單詞的縮寫,代表企業平衡地追求環境、社會和治理三個維度績效的思想。高質量發展是保障企業持續健康發展的必然要求,尋找一條既保持經濟增長又兼顧環境和社會的發展道路至關重要[1]。因此,ESG決策在中國企業的發展中將扮演越來越重要的角色。據統計,中國ESG責任投資在2022年市場總規模已經超過了24.6萬億人民幣,較2020年增長近80%。目前,資本市場共有606支ESG公募基金,總規模約5 000億元[2]。已有文獻發現,ESG評級已成為投資者和監管者決策的重要依據,顯著影響投資者回報[3]、公司的資本成本[4]和顧客購買意愿[5]。企業之間也因同行比較效應而根據ESG評級調整相關的ESG行為,而且經理人可能為了追求ESG評級而非理性配置公司資源[5]。就中國企業來看,優異ESG績效可以降低企業資本成本、緩解融資約束,從而形成企業競爭優勢[6]。
投資者和監管者在做決策時需要依據ESG評級數據,但研究表明不同評級機構對同一公司的ESG評級存在較大分歧[7]。這意味著對于同一家公司,不同評級機構的評級結果可能大相徑庭,這可能會導致錯誤的決策結論。ESG評級分歧的問題威脅到了ESG評級的應用價值,也可能誤導評級的使用者,從而引起政策制定者、投資者、經理人和研究人員的困惑和批評。那么ESG評級分歧的具體表現和原因是什么?實務界和學術界該如何應對這種情況?這些重要問題并沒有得到充分的解答。因此,本文通過梳理ESG分歧的研究文獻,試圖總結ESG分歧的原因,對照檢查中國的ESG評級分歧情況,并提出相關建議。
目前關于ESG評級分歧的研究,主要聚焦于以下幾個方面。第一,關于ESG評級分歧表現的研究。其中突出的話題是歐美主流評級機構對大部分公司的ESG評級都存在改寫現象①,這顯示評級機構在ESG定義和衡量標準上存在很大爭議[8-9]。在評級分歧的分解上,學者們將其分為測量、范圍、權重分歧三個來源,其中測量對分歧的貢獻最大[10]。Liu關于中國上市公司的ESG評級數據研究也發現評級機構對定量信息的分歧最大[11]。
第二,關于ESG評級分歧影響的討論。從投資角度來看,學者們認為ESG評級分歧會影響可持續性投資決策[9]。較高分歧的公司存在更大的信息不確定性,因此會導致更高的風險溢價[12],對其股票的需求也會下降[13],且主要是由環境維度的分歧驅動[7]。部分學者也從融資的角度出發,發現ESG分歧阻礙了公司外部融資[14]。另有學者考慮到ESG評級作用本身,認為ESG分歧越大,ESG信息的市場反應就越小[15]。還有學者從投資者結構的角度出發,認為中外評級機構對我國企業ESG評級的分歧顯著降低了外國投資者的持股比例,且對國有企業的負面影響更加顯著[16]。
第三,關于ESG評級分歧的原因的討論。Chatterji等提供了分歧的兩個原因,ESG評級者選擇衡量什么以及是否一致地衡量,即“理論化”和“可比性”[8]。馬文杰和余伯健認為,國內外評級機構在國有與非國有企業ESG評級上產生分歧的原因在于,中外ESG評級機構對企業承擔的穩定經濟、保障就業等“隱性”社會責任以及是否按照國際標準進行信息披露的評價存在差異[16]。Berg等認為ESG評級產生分歧的原因是評級者對公司其中一個類別的感知會影響對其他類別的感知[10]。
ESG評級分為綜合評級得分和單一維度評級得分。在這兩個層級上,ESG評級的分歧都有體現。由于ESG是CSR(Corporate Social Responsibility)的擴充和升級,本文將兩者結合分析。Chatterji等使用了6個主流CSR數據庫[8],包括KLD、Asset4、Calvert、FTSE4Good、DJSI和Innovest,并對3 134個企業的CSR評級進行了分析。他們發現任意兩個評級機構的CSR績效優良的企業名單重合程度最低為19%,最高為60%,一致程度非常低,而且這種分歧在調整了評級機構對企業社會責任定義的差異后也沒有減小。在評級得分方面,任意兩個評級機構之間的平均相關系數最低為0.13,最高為0.52。除了KLD和Asset4之外的其他4個評級機構,都是以二分法(好或差)來呈現評級結果。為了驗證這4個評級在CSR的定義和測量方面是否具有一致性,Chatterji等首先將每個公司的Asset4評級得分標準化,使其均值為0,標準差為1。然后,他們計算六個評級機構的社會責任指數板塊的成員和非成員公司之間的Asset4連續得分均值的差異。成員公司是指CSR績效好而被評級機構納入其所構建的社會責任指數的公司。如果這些評級機構具有相同的定義和測量方法,那么他們的成員與非成員之間的得分差異應該彼此接近。以2006年來看,Asset4的指數成員與非成員之間的差距等于1.80標準差。但同一年,FTSE4Good的指數成員與非成員之間的差異僅為0.90標準差,KLD的為0.26標準差。Calvert指數成員的Asset4得分甚至顯著低于非成員。該文指出,研究人員發現評級機構在CSR定義和測量方面存在不一致性,這可能導致他們以不同的方式衡量相同的概念,進而影響相關實證結果的有效性。因此,使用者在解釋評級數據與實際CSR績效之間的關聯時應該謹慎,同時評級機構也應該經常評估其評級得分的合理性[8]。
Berg等使用了6個大型的ESG評級數據庫(KLD、Sustainalytics、Moody's ESG、S&P Global、Asset4和MSCI)的評級,并以數據最齊全的2014年為基準年,以6個數據商都包括的924家企業為分析對象,進行了ESG評級分歧問題的研究[8]。他們計算了這6個數據商ESG評級的綜合評級得分的一致性系數(Krippendorff's alpha),結果為0.55,低于0.667的閾值,說明6個數據商的ESG綜合評級得分之間一致性很低,分歧很大。此外,他們計算了各數據商的ESG評級得分之間的皮爾遜相關性系數,發現平均為0.54,范圍為0.38至0.71,說明沒有兩個數據庫的綜合評級是非常接近的。最后,他們計算了不同評級機構在環境、社會和治理三個維度方面的維度評級得分的皮爾遜相關系數,發現環境維度在三個維度中具有最高的相關性,平均值為0.53。社會維度的平均相關系數為0.42,治理維度的相關性最低,平均為0.30,且多次出現接近于0的相關系數。KLD和MSCI與其他評級機構的相關性最低,無論是綜合ESG評級還是單個維度??傮w而言,這些結果與Chatterji等2016年和Brandon等2021年的研究所報告的ESG評級相關性的結論一致[10]。
Berg等還發現,由于ESG評級的分歧,難以準確評估公司ESG績效的相對優劣。因為不同的評級機構會對同一家公司給出截然不同的綜合評級得分和排名。某個公司被Sustainalytics評為ESG績效排名前10%,但在其他評級機構的排名中卻可能是中間偏后的位置。這意味著,對于同一組公司,使用不同的ESG評級數據可能會得出相反的結論[10]。
評級的分歧,來自“量什么”和“怎么量”。前者側重于對ESG概念的理解,表現為范圍(Scope)的差異。后者側重于測量指標的選擇和運用,表現為測量(Measurement)和權重(Weight)的差異。
Berg等發現每個評級機構對ESG應該具體包括哪些內容理解不同,提出的指標也不同。例如,Moody's ESG、S&P Global、MSCI和Sustainalytics各有三個維度,Asset4有四個維度,KLD有七個維度。這些ESG評級的各維度由38到282個數量不等的指標(Indicator)構成。這些指標除了可以分成生物多樣性、員工發展、能源、綠色產品、健康與安全、勞動實踐、產品安全、薪酬、供應鏈和水等評級機構共有的主題類別(Category)外,還有許多各評級機構特有的主題類別。這就讓評級使用者很難理解不同的評級機構為什么以不同的考察范圍評估同一家公司的ESG績效[10]。
Berg等發現評級機構的測量方法也存在差異。例如,不同數據庫之間評估公司環境政策的得分平均相關系數僅為0.55。即使是最簡單明確的指標,各機構的測量結果也不都具有高度的相關性。例如,公司是否加入聯合國全球契約和CEO(Chief Executive Officer)是否兼任董事主席這兩個指標,都是明確易得的信息,但各機構對這兩個信息的評分相關系數的平均值居然分別為0.92和0.59。此外,還存在若干負相關,例如Sustainalytics和Moody's ESG之間在“游說”項目,以及Sustainalytics和Asset4之間在“土著權利”項目上的評分等。這說明各數據庫都存在明顯的測量誤差。另外,不同層級上的分歧程度也存在差別。例如,水和能源類別的評級得分平均相關系數分別為0.36和0.38。這遠遠低于更高一層級的環境維度評級得分的相關性,這可能意味著在從小類別向大類別的聚合過程中,不同小類別的測量誤差在一定程度上相互抵消。另外一個可能的解釋是,評級機構在一個類別中對公司的測量標準相對嚴格,在另一類別中則相對寬松,但加總之后的綜合評級得分反而相關性更大[10]。
Berg等發現,評級機構之間在加總各個類別的得分時,對各個類別實施的權重差異很大。例如,KLD權重最大的三個類別是氣候風險管理、產品安全和薪酬,而Moody's ESG則是多樣性、環境政策和勞動實踐。這意味著這兩個評級者對何為最重要的類別的判斷完全不同。只有資源效率和氣候風險管理是多個評級機構公認的重要類別[10]。
Berg等使用評級得分間的協方差來度量評級機構之間的分歧程度,這個協方差可以分解為測量、范圍和權重三個方面的協方差之和。將每個方面的協方差除以評級的協方差,可以得到各個方面對評級差異的貢獻。平均而言,測量、范圍和權重三個方面分別對評級差異的貢獻是56%、38%和6%。因此,超過一半的ESG評級差異可以歸因于ESG評級機構的測量方法。Berg等2022年的分析顯示,在比較各評級機構對同一公司ESG評級的兩兩差異時,測量分歧平均為0.56個標準差,最低為0.17,最高為0.79個標準差。范圍分歧平均為0.38個標準差,變化范圍為0.12~0.81個標準差;權重分歧平均為0.06個標準差,變化范圍為-0.10~0.22個標準差。在以綜合評級得分為被解釋變量并使用回歸方法進行解釋時,Berg等2022年的分析發現測量分歧和范圍分歧平均貢獻是相等的,測量和范圍對回歸的R2的增加平均都是0.25的貢獻,而且都在0.14~0.35之間波動;權重仍然是最小的貢獻者,它平均解釋了回歸的R2增加的0.03,在0.01~0.04之間波動[10]。
ESG分歧對市場投資者、理論研究者以及企業等都會造成重大影響。首先,ESG評級的分歧會導致ESG表現不太可能準確反映在公司股票和債券價格中,因為投資者面臨識別ESG業績優異者和落后者的較大挑戰。Cort等的研究表明,投資者的偏好可以影響資產價格,但只有當市場中足夠大的一部分投資者持有并實施一致的非金融偏好時才會如此[17]。因此,即使很大一部分投資者對ESG表現有偏好,評級的分歧也會分散了這些偏好對資產價格的影響。
其次,評級的分歧對實證研究提出了挑戰,因為使用不同的數據庫可能得到的研究結果和結論也會不一樣。不同評級機構對同一公司的ESG評級存在較大差異[18],而即便是同一評級機構也可能持續改寫同一公司的已有評級,這就導致學者們在ESG方面的研究無法形成準確統一的結論[19]。
最后,分歧挫傷了企業提高其ESG表現的動力,因為它們從評級機構那里收到了關于哪些行動是預期的并將被市場所重視的混亂信號[18]。這使得公司在這些方面無論是采取積極還是消極的ESG表現,都將獲得差別很小的ESG評級。因此,企業往往會選擇消極的處理方式。此外,由于外部資金提供者無法依據分歧明顯的評級數據確認公司的ESG風險,面臨更大ESG評級分歧的公司不太可能獲得外部融資,只能更多地依賴內部融資。隨著時間的推移,ESG評級分歧對這些融資結果的影響也越來越大[19]。
Berg等指出,分歧的根源在于評級者效應,即一個評級者在一個類別中給出較高的評價,更有可能在同一公司的其他類別中也給出較高的評價;反之,如果某個類別被一個評級者評價為差,那么該公司其他類別也更可能被該評級者評價為差。這種現象可能是因為被認為良好的公司會從積極的角度看待問題,并獲得更高的得分,反之亦然。此外,評級者效應的另一個潛在原因是公司的ESG披露意愿,即公司對于各項指標的回答程度可能會影響評級結果。如果公司在問卷中沒有回答某些問題,一些評級者可能會給出較差的評價,即使公司的實際績效并不差。Berg等發現,評級者效應可以解釋類別得分變化的15%至16%[10]。
Christensen等認為信息披露效應可能導致評級分歧。當企業沒有披露某項重要問題的信息時,評級機構可能會認為缺乏披露是一個負面的信號,從而將該公司的相應績效推定為低劣[14]。而如果一個行業的大多數公司都沒有披露某種信息,評級機構則可能認為缺乏披露是因為該披露相對不重要,從而將該公司相應的績效推定為行業平均水平[18]。如果公司披露更多的信息,ESG評級機構使用各自的指標來評估公司在同一事項上表現的可能性會增加,從而導致更大的評級分歧[20]。
Christensen等的研究提供了證據支持這個觀點。他們選取了2004年到2016年間,MSCI、Asset4和Sustainalytics三個數據庫中的5637家公司,共30700個公司年度觀測值,用實證方法檢驗了公司ESG信息披露與ESG評級分歧之間的關系,發現以下幾點:第一,過去20年中,隨著ESG披露數量的大幅增加,公司的ESG評級分歧程度也出現了大幅增加。第二,ESG信息披露水平與評級分歧之間存在很強的正向關系,即更多的ESG披露會導致更大的評級分歧。第三,ESG不同維度的信息對分歧的影響方式不同。第四,在評估輸入指標時分歧最小,在評估結果指標時分歧更大。當一個評級者評估的是輸入指標而另一個評估的是結果指標時,分歧最高。第五,當引入強制信息披露政策的外生沖擊后,企業的ESG信息披露水平明顯提高,而ESG評級的分歧也明顯提高[14]。
社會起源效應指的是評級機構在可持續性概念的理解、重要性定義以及專業化方面的差異,導致評級結果出現分歧。同時,ESG測量指標、方法、產品和服務的反饋作用也會進一步影響這些評級結果。ECCLES等提出,數據提供商對ESG的理解往往受到其對可持續性概念的框定影響。此外,評級機構創始人的專業背景和動機也會對其對可持續性概念的理解產生印記。大部分數據提供商在早期的產品中都有特定類型的客戶,這些早期客戶的興趣和偏好也可能會對數據提供商進一步調整ESG評價體系產生影響[17]。ECCLES認為數據供應商對重要性定義的選擇受到“重大問題和重要利益相關者”這一社會起源的影響。根據他們的觀察,ESG評級組織可以分為兩類,即價值驅動型組織和價值導向型組織。前者側重于幫助投資者獲得財務回報,后者側重于過程和戰略性社會責任等問題。這兩種類型的組織對ESG中關鍵指標的定義存在差異。ESG數據提供商的專業化程度對ESG市場中數據提供商的戰略定位、產品和服務都會產生影響。專業化表示組織在一個或多個領域具有特別強大的專業知識。這些專業知識與數據提供商的早期焦點、產品組合以及收購、兼并和合作等社會起源有關,最終影響ESG評級的方法和結果。
王凱和張志偉發現,我國現有的ESG評級系統存在信息披露質量差、評級結果不一致等問題[21]。沈洪濤等發現我國ESG評級能否提供價值相關的信息這個問題雖然開始引發關注,但結論并不一致[22]。為加強對我國ESG評級分歧的研究,我們分析了中國經濟金融研究數據庫(CSMAR)、萬得數據服務(Wind)和中國研究數據服務平臺(CNRDS)三個數據庫的ESG評級數據。其中,CSMAR中的ESG評級,是來自商道綠融的第三方獨立評級數據。我們篩選出三個數據庫共有的樣本,得到2018到2020年間322家公司的775個年度ESG評級數據。CSMAR和Wind均提供了每個觀察值的ESG評級總分,以及環境、社會和治理各個維度的評級分數。CNRDS提供了6個維度的評級分數,但我們將其環境和治理兩個維度之外的其他四個維度的評級分數加總后歸為CNRDS的社會維度分數。由于沒有詳細資料,且三個數據庫的評分方法差異較大,我們只比較分析了三個數據庫提供的ESG綜合評級分數,以及環境、社會和治理三個維度的評級分數,三個綜合評級的分數大致呈現鐘型分布,具體情況見表1。
我們將當年的綜合評級分數減去前一年的綜合評級分數,然后再除以前一年的綜合評級分數,作為ESG綜合評級分數的波動指標,結果見表2。
表2 評級總分年度波動情況
從表2中的均值和中位數可以看出,除了CNRDS的綜合評級分數在2020年有明顯的增加外,各個數據庫的ESG的波動指標非常接近0??偟膩碚f,這三年各個數據庫的ESG評級分數基本保持不變,比較穩定。
為了便于后續的數據分析,我們對原始評分進行了歸一化處理,即先減去最小值,再除以最大值與最小值的差,這樣所有的評分都處于0到1之間,見表3和表4。
表3 ESG評級總分的相關系數和信度
表4 ESG各維度評級總分的相關系數
從表3的ESG相關性系數可以看出,CSMAR與Wind的評分比較接近,相關系數達到了0.519,表明兩者在一定程度上評級得分相互重合。但是,從表4的各個維度的相關系數來看,CSMAR與Wind的三個維度的相關系數相比其他同類的維度相關系數都是最低的,也大大低于這兩個數據庫評級總分的相關系數。這說明在中國的ESG評級中,從各個維度的評分向ESG總分的匯聚過程中,出現了各個維度的分歧相互抵消的情況。從信度分析來看,表3報告了數據庫評級之間的Krippendorff's alpha系數,這些數字遠遠低于0.667的門檻值,說明三個數據庫之間的分歧比較大。
根據數據庫的說明,CSMAR的ESG評級包括13個類別,并分解成200多個指標,數據源超過1 000個。CNRDS的ESG評級包括6個類別,并分解成58個指標。Wind的評級包括25個類別,指標超過300個,數據源超過22 000個。這樣看來三個評級涵蓋的范圍明顯不同。由于Wind沒有提供詳細的資料,我們以CNRDS和CSMAR中含義相同的“公司治理”為例進行分析。
CNRDS的公司治理指標包括CSR報告全面性、CSR報告頁數、是否設置CSR網頁、是否建立CSR領導機構、是否建立了CSR愿景、是否進行了CSR內部培訓、每股社會貢獻值、CSR的認證、公司治理的其他優勢,以及是否有會計違規共10個細項。而CSMAR的公司治理的指標包括是否披露ESG信息、董事工資、董事會多樣性、董事長和CEO分權、董事會獨立性、獨立薪酬委員會、獨立審計委員會、CEO和員工工資比例、董事和高管薪酬、審計獨立性,以及公司治理負面事件共11個細項??梢钥闯?CSMAR的公司治理概念涵蓋的范圍大得多:CNRDS大體上限于與CSR有關的治理;而CSMAR不僅包括ESG信息,還涵蓋公司日常運營中高管權力制衡和薪酬激勵等方面的治理。
由于Wind只提供了環境、社會和治理三個維度的評級分數,因此無法進行ESG評級測量差異的分析。本文以CNRDS的3.5.2指標(環境關注)和CSMAR的E3指標(環境負面事件)來進行分析,因為這兩個指標都是指環境負面事件,概念的重疊性很高。
根據數據庫說明書提供的測算方法,我們發現,兩個數據庫都是采用列舉法,如果企業發生了所列舉的某個事項,則按規則計算環境負面事件的指標分數。但由于列舉的事項和計分的規則不同,同一事件不同的ESG評級機構給出的得分也就不同。比如,公司污水排放嚴重超標且被公開處罰,則CNRDS得分為2。而同一事件,CSMAR的得分為1,比CNRDS的測量值少了50%。從這里可以看出,測量的差異是導致中國企業ESG評級差異的重要原因之一。
本文分別對三個數據庫的評級分數,用總分對各個維度的評級分數進行不帶截距項的回歸,用系數的大小來判斷各個數據庫對不同維度的權重,可以發現,三個數據庫對各維度的權重大不相同,具體情況見表5。
表5 權重分析
由表5可知,CNRDS中社會維度的權重最大,幾乎是其他兩個維度權重的3倍,而環境和治理維度的權重幾乎相同。CSMAR中環境的權重最大,幾乎是社會和治理維度權重的2倍,而社會和治理兩個維度的權重幾乎相同。對于Wind,社會維度的權重最大,約是環境維度權重的3倍。其次是治理維度,它的權重是環境維度的150%。
本文參照Christensen等[14]的研究,將ESG評級分歧對披露水平進行回歸,檢查是否披露得越多,ESG評級分歧就越大。首先將每個評級機構的ESG評級總分各自進行標準化,統一評級總分的量綱,然后計算每個企業每年所有評級總分的標準差,作為企業當年評級分歧的度量。ESG披露水平(ESG_Disclosure)選用企業當年ESG報告的頁數。ESG報告的格式都比較接近,因此頁數大體反映了披露的多少。不用內容分析法計算披露水平的原因,是因為前面所討論過的指標體系存在爭議??刂谱兞堪ㄆ髽IESG平均評級得分(ESG_Avg)、規模(Size)、總資產報酬率(ROA)、市凈率(BTM)、資產負債率(LEV)、分析師追蹤(Analysts)、機構投資者持股比率(IO)。從表6報告的回歸結果可以看出,無論是否控制個體固定效應,ESG披露水平的系數都顯著為正,說明披露越多的企業,其ESG評級分歧越大,支持了信息披露效應假說。
表6 信息披露效應分析
以上研究表明,目前國內外的ESG評級數據存在著顯著分歧。這種分歧不僅在綜合評級分數上表現明顯,而且在各個維度的評級分數上也同樣存在。分歧的來源主要包括范圍、測量和權重方面的不同。據已有文獻分析,這種分歧的原因可以歸結為評級者效應、信息披露效應和社會起源效應。在對中國三大數據庫的ESG評級數據進行分析后發現,評級的數據年度變化不大,綜合評級的相關性較低,但比維度評級之間的相關性要高。在權重方面,CSMAR對環境的關注最大,而CNRDS和Wind對社會的關注最大。
在面對ESG評級分歧的形勢下,本文建議如下:
對于評級機構而言,首先,可以考慮將環境、社會和治理三個子維度向評級總分合成,三個子維度的權重都為1/3,可以避免在每個維度的權重方面的爭議,為未來各個數據庫評級的趨同提供相同的基礎。其次,引入更多基礎指標,提高評級的穩定性。再次,可以將連續型和多類別的指標標準化,以將數量性指標與質性指標放在同一個層次上使用,減少排位值的爭議。最后,重點監督這兩個層級的評級標準的合理性,提供數據生成的詳細說明,便于外部人進行選擇。
評級的使用者可以積極關注ESG概念和評級方式的研究,理解ESG評級數據的產生原理和過程,推動制定合理且統一的ESG評級體系,以減少分歧所帶來的負面影響。同時,使用者應根據研究目的和應用方式選擇適合的數據。例如,在本文所關注的三個中國數據庫中,若考察與公司社會責任相關的研究,可選擇賦予社會維度更高的權重給Wind和CNRDS;若考察與環境有關的研究,可選擇賦予環境維度更高的權重給CSMAR的ESG評級。另外,使用者可以將評級調整視為公司基本面信息變化,并根據所有追溯調整后的數據進行研究和分析。最后,相關的ESG研究應使用不同的評級數據進行穩健性檢驗,以提高研究結論的說服力。
注釋:
①參見BERG F, FABISIK K, SAUTNER Z. Is History Repeating Itself? The (Un)Predictable Past of ESG Ratings in SSRN Working Paper, 2021.