?

方法論視野下的計算思維

2017-01-06 19:02李廉
中國大學教學 2016年7期
關鍵詞:歸納推理大數據

李廉

摘要:通過計算模型與物理模型和數學模型的比較,從方法論角度解釋了計算思維有別于實證思維和邏輯思維的不同之處。著重分析了學習模型的一些理論和方法特點,針對大數據的應用,探討學習模型在適用范圍、性能效率以及屬性特點等方法論方面的性質。對于學習模型產生結論的PAC形式做了重點討論,這是計算思維所蘊含的豐富礦藏,也是當今創新的重要思想來源和技術動力,需要在教學中予以充分的關注和啟發。

關鍵詞:計算模型;學習模型;PAC方式;歸納推理;關聯關系;大數據

隨著信息技術的快速發展,大數據、云計算、互聯網這些名詞已經越來越頻繁地進入我們的日常生活,并對整個社會結構和運行秩序產生了深刻的影響。這種情況也毫不例外地影響著計算機科學和工程的教學改革,其中對于這些科學與技術發展背后帶來的思維模式的特點顯得尤為突出和重要,培養計算思維能力是當前計算機基礎課程改革的目標。但是對于計算思維的內涵究竟是什么,它與我們熟悉的實證思維和邏輯思維之間有什么不同,它的內容和形式有什么特點,仍然是一個需要繼續探討的問題。這些探討將進一步理清計算思維的內涵以及應用范圍。本文通過計算模型與物理模型和數學模型的比較,解釋了計算思維有別于實證思維和邏輯思維的不同之處,從方法論角度論證了計算思維是并列于實證思維和邏輯思維的第三種科學思維模式。

一、物理模型與數學模型

分析問題和解決問題的第一步是對問題的抽象,抽象的過程是略去與問題無關的部分,而關注于問題的本質。抽象最常見的結果是模型,一個適當的模型反映了問題的因果關系或者數量關系。從而可以采用已有的理論或者技術來分析模型,解決其中的問題。這種建模的方法是所有科學研究中的通用的原則,根據模型的不同,一般分為物理模型和數學模型,物理模型通過模擬物理運動來揭示因果關系,數學模型通過數學方程來揭示邏輯關系。在現實的處理問題的方法中,由于計算機的出現,人們似乎更加偏愛采用數學模型。

物理建模是抽取對象的本質屬性,在實驗室建立簡化的系統,研究物體在這個簡化世界中的行為,以確定因果關系。伽利略著名的斜坡實驗是自由落體的物理模型,通過斜坡稀釋了時間,使得觀察和比較成為可能。

數學建模是通過抽取本質屬性,建立屬性之間的邏輯關系(數學關系),通常以方程的形式加以描述。借助方程解的形式來解釋自然現象或者社會現象。

無論是物理模型還是數學模型,都需要把問題理想化和簡單化。面對自然現象和社會問題,各種因素的影響縱橫交錯,其中的關系也是錯綜復雜,因此在抽象的過程中,一般需要預設結論,提出其中的因果關系假設,并為此設計一個模型系統,其中只有預設的因素而排除了其他因素,在這個簡化的物理模型中,觀察因素之間的相互作用。在數學模型中,則通過簡化的數量形式,建立相應的數學方程,借助解的形式與性質來獲取問題的解決。理論上說,任何建模的方法都不可能涵蓋所有的客觀因素,只能根據假設,提煉部分因素進行抽象,其中還不乏對于一些關系的理想化處理。

一般而言,物理模型和數學模型都屬于“確定性”模型,即通過模型得到的結論是完全確定的,因果關系是確定的,邏輯關系也是確定的,其結論具有非此即彼的性質。即使對于統計模型(數學模型的一種),雖然結論具有某些不確定性,但是這種不確定性是建立在確定數學公理上的,它是一種由確定性導出的不確定性,本質上仍然屬于邏輯關系。

所有這些模型以及其背后的依據和邏輯,已經發展成為系統的方法,有建模的步驟和程式,模型的建構,以及如何從模型得到結論的準則等。我們從小學到大學已經被無數次訓練,對于這些方法也是爛熟于胸,熟悉的似乎已經是天經地義,無可懷疑。但是大數據的出現,對這一切都提出了嚴峻的挑戰,為我們展示了一種嶄新的認知世界的新方法和新觀點。在物理模型和數學模型之外,出現了新的模型形式和建模方法,這就是計算模型。

二、計算模型

由于信息技術的發展,人類獲取數據的能力較之過去有了飛速的進步?,F在每天都要產生數以E比特量的數據,大量的數據帶給我們的不僅僅是量的增加,更重要的是帶來了一種新的認知觀。這就是從觀察數據中獲取知識的新的途徑。

實際上,從人類認知的歷史來看,最早了解自然規律的手段就是觀察和歸納,人類最早就是從數據中獲取知識的。只是到了17世紀之后,由伽利略等逐步開創了現代實證主義研究的手段,觀察研究就讓位于實驗。除了少數無法進行實驗的學科(例如宇宙學),在絕大多數自然學科中,實驗成為形成結論的標準手段,任何結論必須在實驗室里面被驗證,僅僅在自然界被觀察到是不夠的。在現代科學體系中,通過觀察獲取知識的方法被邊緣化,究其原因,還是因為過去的觀察手段比較落后,難以獲得大量數據,而建立在小數據基礎上的分析,其結論往往是不準確的,得到的結論也缺乏說服力。既然過去是受限于數據的不足,使得人們研究自然問題的方法主要依賴于實證主義的實驗方法,那么現在隨著信息技術的發展,獲取數據的能力有了極大提高,進入了大數據時代,我們是否可以重新回到先輩那里,采用觀察的方法來研究問題,獲取知識。特別是在人文科學和社會科學等無法采用實驗方法研究的領域,通過觀察設備(傳感器)作用于各種自然現象,社會活動和人類行為,產生了大量的數據,分析和處理這些數據,并且進行歸納和提煉。人們研究科學又可以重新回到了觀察這個最原始和最基本的手段,但是這一次的回歸是螺旋式上升,從古代依靠人的感官來觀察現象,到現在依靠傳感器來觀察現象,數據的密度、廣度、準確性和一致性已經不能同日而語了,因此觀察這種研究手段在大數據時代煥發了新的生命力,成為新時代的新的科學研究方法。

《大數據時代》的作者舍恩伯格寫道:“大數據標志著‘信息社會終于名副其實。我們所收集的所有數字信息現在都可以用新的方式加以利用。我們可以嘗試新的事物并開啟新的價值形式。但是,這需要一種新的思維方式,并將挑戰我們的社會機構,甚至挑戰我們的認同感?!边@個新的認同感是什么?由于大數據進入我們的社會只有短短的歷史,現在還不能做出最終的結論。舍恩伯格繼續寫道:“大數據時代對我們的生活,以及與世界的交流方式都提出了挑戰。最驚人的是,社會需要放棄它對于因果關系的渴求,而只需關注關聯關系,也就是說,僅需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰?!比绻岫鞑袼詾閷?,那么這種新的認知觀和對于世界的新的解釋就是建立在關聯關系,而不是傳統物理學所強調的因果關系,或者數學所強調的邏輯關系。實際上,近期一些借助大數據得到的重大甚至具有里程碑意義的成果都說明,上述的預言正在成為一種新的世界觀和方法論,當采用大數據的分析方法和處理手段來解決問題,或者當采用關聯關系來解釋世界時,我們得到了一系列對于世界的新認知,極大地提高了我們認識能力,也豐富了我們的知識體系。這些成果包括AlghaGo、語音識別、圖像判斷、自動駕駛等領域。

現在我們回到方法論的問題上來。既然大數據提供了一種新的不同于物理學和數學的觀點,自然也就帶來了研究問題的不同于物理學和數學的方法。這種方法是關注于現象之間的關聯關系而不是因果關系或者邏輯關系,因此必然要有與之相應的新的理論、技術和工具。也就是說,我們不僅關心大數據給我們帶來的關聯關系的新視角,更加關心如何來獲取這種關聯關系,即計算模型和如何構建計算模型的問題。

從計算機科學的角度,大致上可以分為三類模型,分別是指稱模型,算法模型和學習模型。第一類指稱模型包括各種文法系統、重寫系統以及演算系統,主要是建立各種符號變換之間的層次關系、順序關系、或者替代關系,是計算或者系統形式化的抽象模型。第二類是算法模型,包括各種算法,其中既有確定算法,也有非確定算法,還包括近似算法、隨機算法以及演化算法等。算法構成了計算機科學的主要組成部分,通過建立算法模型是計算機解決問題的常用途徑。第三類就是最近比較活躍的學習模型。實際上,指稱模型建立了符號之間的變換,嚴格說這些變換純粹是一種形式轉換,它只是被指稱所約定,并不關心這些符號之間是否有因果關系和邏輯關系,因此是一種關聯關系的建立。算法模型中有一類是經過嚴格數學證明的,這類算法其輸入和輸出之間是有著邏輯關系的;但是也有一類算法,它的過程中有一些策略是依據實際情況變化的,是一種“就事論事”的方法,其結果的正確性不能邏輯上予以證明,這類算法的輸入和輸出之間是一種關聯而不是邏輯。指稱模型和算法模型已經有了很多研究,不在本文的討論范圍,本文主要討論近年來隨著大數據一起受到重視的學習模型。

一個學習模型是一個結構(裝置),連同一個算法,通過對于大量數據的訓練或者分析輸出相應的結論。常見的學習模型有支持向量機(SVM,Suppog Vector Machine)、人工神經網絡(ANN,Artificial Neural Network)、聚類分析(CA,Cluster Analysis)、鄰近分類(kNN,k-NearestNeighbor)等。不同的模型有著不同的獲取結論的理論和方法。機器學習是利用學習模型獲取結論的過程。機器學習需要有一個預設的任務T,以及衡量指標P,通過選取合適的模型和數據E,以P的要求完成任務T。這里數據E即包括觀察的數據,也包括諸如規則和經驗這樣的先驗知識。以二分類問題為例,二分類問題定義了一個目標函數h:X→{0,1},其中X是所有實例的集合,h是一個客觀存在分類函數。數據被表示為特征的向量,所有的特征稱為數據的特征空間?,F假設我們有X的一部分數據,稱為樣例集合S。由于我們只有部分樣例,而沒有關于h的確切信息,因此事先并不知道h的準確定義。學習問題就是選取合適的模型和算法,使得從這些樣例集合S得到一個函數g,g稱為期望函數。學習目標就是獲取與h盡可能一致的期望函數g。一方面,顯然樣例個數越多,越可能接近這個函數;另一方面,如果沒有所有的實例信息,僅憑不完整的部分信息,理論上是不可能確切地得到h。對于不同的任務,需要選擇不同的學習模型,這樣才能達到快速高效完成任務的目標。

機器學習是當前計算機領域發展十分迅速的內容,原來通過傳統數學或者物理的方法難以解決的問題,借助機器學習的方法獲得了突破性的進展。

三、歸納學習與PAC原則

學習模型的目標是從大量的數據中獲取結論,或者更具體的是獲取期望函數。因此從總體上講,學習模型是一種歸納學習的方式,盡管有些技術采用了分析學習,但是絕大多數的應用是以歸納學習為主。這是學習模型的本質特征,僅從這一點就可以看出學習模型與物理模型和數學模型的不同。

從觀察數據中獲取結論,這種研究方式在古代就已有之。早期的人類主要是通過觀察自然現象歸納總結出相應的認識,形成知識內容和科學體系。但是由于觀察手段的簡陋,數據量不足,只能從小數據中得到結論,這需要極大的智慧和運氣,而且說服力不足,科學知識難以普及和應用。因此在歷史的發展中,逐步被現代科學方法所邊緣化。隨著技術的進步,現在我們具備了大量獲取數據的能力,無論是處理數據的能力還是分析數據的手段都有了過去無法想象的提升,從而通過歸納學習的方法再次進入人們的視野,通過這種煥然一新的古老方法開辟一條新的獲取知識的途徑。但是在現代科學的背景下,使用學習模型進行歸納學習需要回答以下的問題:

(1)從一個學習模型出發,有多大把握學習到期望函數?

(2)學到的期望函數與目標函數之間的誤差是多少?

(3)學習復雜度是多少?

(4)至少需要多少數據才能達到學習目標?

(5)學習穩定性如何,即如果換一組數據是否還能學到相同性能的期望函數?

只有回答了這些問題,學習模型作為一種方法論才具備科學的基礎,獲取的結論才具有說服力。因此我們現在重提歸納學習,并不是回到過去那種需要憑借天才的猜測和聯想的研究方法,而是在現代科學體系架構下的,經過嚴格證明和規范標準的新方法。這種方法與實驗方法和推理方法都具有可重復性,可應用性和可檢驗性。

由于學習模型和機器學習的發展歷史不長,現在還無法深入回答上面的5個問題,但是學習理論已經對這些問題做了很有意義的探索,至少對于其中的一部分有了較為清晰的答案。

學習模型的本質是歸納學習,通過部分數據獲取結論,因此和所有歸納推理一樣,理論上得到的結論只能是相對正確。為了準確刻畫這種相對正確性,學習模型引入了一個很重要的原則,即可能近似正確(PAC,ProbablyApproximate Correct)。它的定義是16]:

設L是一個學習模型,如果對于任意給定的0<δ,ε<1,L能夠以1—δ的概率獲取期望函數g,g與目標函數h的誤差不超過ε。則稱L以PAC方式獲取函數h。

PAC方式有兩個不確定性,一個是獲取結論的不確定,一個是結論本身的不確定。這與我們熟悉的物理學通過實驗獲取結論,或者數學通過推理獲取結論有本質的區別。事實上,所有通過部分數據獲取結論的歸納方法都具有PAC性質。PAC方式是一種新的認知世界的模式,它的不精確性可能不是缺點,反而是一個優點。對此舍恩伯格有精辟的論述:“當我們掌握了大量新型數據時,精確性就不那么重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界?!睆倪@段論述看出,無論采用確定的方式獲取結論還是以PAC方式獲取結論,都只是一個習慣問題,也許在大數據時代,我們需要逐步適應使用PAC方式來思考問題和解決問題,這也構成了計算思維的重要內容。PAC方式拓寬了人類獲取知識的途徑,豐富了我們的科學體系和文化內涵,并且與傳統的確定方式共同組成了人類認知和理解世界的方法。

在上面關于PAC的定義中,δ和ε可以任意逼近0,當兩者都等于0時,就是確定性的算法和結論。作為物理發現,要求δ和ε都非常小。對于一般地應用而言,不需要如此苛刻的條件。一些行業規定了產品要求或者企業管理的標準,基本上達到3σ就可以,也就是合格率(正確率)達到99.73%。就一般問題來說,達到2σ也能滿足要求,即置信度為95%。因此可以根據實際問題來設置δ和ε,使其符合應用需要即可,這個性質刻畫了學習模型的學習性能。

四、學習模型與大數據

學習模型分為許多類,每一類都有嚴格的結構定義和相應的算法描述。從方法論的角度,對于給定的任務,選擇合適的學習模型和恰當的算法,使之能夠完成學習任務。雖然這些模型和算法大多都有嚴格的證明和描述,但是學習模型的一個神奇之處就是當啟動學習過程后,可能完全不知道最后學出來結果是什么。我們只能從模型輸出結果來判斷是否達到要求,但是無法獲知其中的因果關系和邏輯關系。即使能夠得到模型最終的參數,也無法得知這些參數究竟表示何種意義。就許多學習模型而言,相對于我們就是一個黑箱。一個典型的例子是AlphaGo,盡管其結構和算法都是人們事先給定的,但是在通過大量的訓練之后,已經無法對它的行為進行預測。這種不確定性正是學習模型的特殊之處,也是區別于物理模型和數學模型的分野。

學習模型是通過大量的數據進行歸納來產生結論的,因此數據對于學習模型來說是根本性的。作為方法論的描述,對于數據采集、儲存、清洗和處理都有很多理論和技術,也開發了一些工具。同時對于如何選擇學習模型也有了一些準則和經驗,這些都構成了學習模型方法論方面的內容,根據這些方法,人們可以根據任務要求,通過學習模型的建模和運行,達到解決問題的目標。比如說,下面這個定理就描述了對于具體的任務,需要多少數據就可以產生期望的結論:

定理(Blumer et al,1989):設X是實例的集合,S是樣例的集合,h是目標函數,如果:

(1)S與X具有相同的分布;

(2)h是一個二分類函數;

(3)h在算法A的假設空間中;

那么,對于任意給定的δ和ε,當數據量N滿足

由于篇幅限制,這里不討論該定理的推導和一些符號的含義。另外前面提到的學習復雜度問題,學習穩定性問題,以及學習可靠性問題都是學習方法的理論基礎,我們也不再討論。只是說明,在一定條件下,對于通過學習模型得到期望的函數已經有了一些較為深刻的結果。比如該定理就明確指出為了完成學習任務所需要的數據量。這個量依賴于給定的精度要求δ和ε,并且與學習模型的假設空間的VC維數有關。盡管這些結果仍是初步的,但是足可以說明在大數據時代,人們對于學習模型和歸納學習的理解已經遠遠超越了古代,大數據學習是在現代科學的起點上發展這一古老的理論和技術。

學習模型表現出一些良好的性質,它是通過大數據來獲取對于規律的認知;通過數據交互的方式,逐步加細認知精度;以及學習結果可以任意逼近需要的精度。相比于物理模型和數學模型,學習模型不需要精確分析或者實驗室工作,建模成本較低或者可以分解成本。同時學習模型可以充分利用已有的案例和經驗進行歸納,這在資源利用和解題思路上是合理的。最后,學習模型通過計算機運行,因此模型的可維護性好,修改模型也較為容易。

五、教學啟示和結論

計算模型,特別是學習模型,為我們提供了新的認識世界和理解世界的方法。舍恩伯格認為,在大數據時代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預測,我們看到了很多以前不曾注意到的聯系,還掌握了以前無法理解的復雜技術和社會動態。但最重要的是,通過探求“是什么”而不是“為什么”,關聯關系幫助我們更好地了解了這個世界。關聯關系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關系考慮進來,這些視角就有可能被蒙蔽掉。關聯關系是學習模型的精髓,正像因果關系之如物理模型,邏輯關系之如數學模型。因此從教學的角度也為我們提出了新的問題:

(1)正確把握計算思維的內涵和核心概念。上面的討論可以看出,僅僅從方法論的角度,計算思維的內容已經具有了廣泛的新穎性和特色性。而且對于我們認識社會和自然的觀點與方法也帶來深刻的啟蒙。

(2)建立基于大數據的分析方法和認知手段。大數據給當今社會帶來的影響僅是開始,今后會越來越深刻,而且將融入社會的方方面面,因此通過學習模型來處理問題,并且通曉它的基本原理和技術是十分必要的。

(3)克服對于物理模型和數學模型的依賴性,培養計算模型的意識和能力。加強學生在這方面的訓練實有必要,特別是養成借助學習模型解決問題的能力。

(4)處理好應用能力與思維意識的關系,建立和養成PAC方式解決問題的習慣。革新思維意識,提升應用能力。通過對于計算模型的理解與學習,掌握好機器學習這一有效技術,從新的視角分析和解決復雜問題,培養真正的創新競爭力。

最后,我們提出三點作為本文的結論:

(1)計算思維不僅僅是對于已有方法和技術的詮釋,更是蘊含新方法和新技術的豐富礦藏。通過學習模型來分析和解決問題就是一個廣闊的嶄新領域,由于機器學習本質上是通過觀察來獲取結論,獲取的結論具有某些不確定性,這正是學習模型與物理模型和數學模型的不同之處,也是學習模型的引人入勝之處。正如舍恩伯格所說,這種不確定性不是表示學習模型不如物理模型和數學模型,而是說明大數據提供了一種新的認知世界的模式。

(2)學習模型并不排斥傳統的物理學和數學的研究模式,相反,學習模型建立的關聯關系可以為因果關系和邏輯關系的研究提供佐證和啟示。巴拉巴西(Albert-Laszlo Barabfisi)在《爆發:大數據時代預見未來的新思維》一書中,對此有深刻的闡述:“關聯關系分析本身意義重大,同時它也為研究因果關系奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關系分析,如果存在因果關系的話,我們再進一步找出原因。這種便捷的機制通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯系中找到一些重要的變量,這些變量可以用到驗證因果關系的實驗?!?/p>

(3)因此在教學上,要通過案例引導學生關注大數據給我們帶來的影響,這種影響不僅表現在一些日常行為分析、商品推銷、服務推送方面,更重要的是表現在對于世界認識的方法和手段。這些內容極大地開拓了理解世界和考慮問題的思維空間,可以解決以前無法解決的問題,達到以前無法想象的新的技術高度。就像汽車自動駕駛、語音識別技術、AlphaGo給我們帶來的震撼一樣。

[責任編輯:余大品]

猜你喜歡
歸納推理大數據
小學生數學歸納推理能力培養之我見
例談對學生推理能力的培養
對一類數列通項公式的探究
數學教學中加強歸納推理的應用研究
歸納推理在高中拋物線的定義教學中新思考
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
巧用“應答評價” 發展創新素養
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合