?

論大數據背景下科學發展的第四范式

2020-09-02 06:47盧雨生
現代交際 2020年13期
關鍵詞:相關性大數據

摘要:進入21世紀,數據的收集、存儲、處理技術的發展給大數據時代的到來提供了可能。大數據時代我們能夠接觸海量數據,對事物的分析可以采取全樣本數據模式。事實證明,海量數據的分析方法帶來更高的精確性,而這種全樣本數據模式也給數據收集帶來了混亂,我們允許這種收集過程中的不精確性。海量數據+混亂=思維的變革,研究的目的從因果性轉向相關性,這是大數據時代的思維核心。思維的轉向不代表對因果性的完全否定,甚至相關性的分析可以為因果性的探尋做鋪墊。大數據的興起也引起了科學發現模式的改變,第四范式:數據密集型科學發現必然會對科學哲學的相關論題提出挑戰,這是需要用科學哲學來回應的。

關鍵詞:大數據 相關性 第四范式

中圖分類號:TP311? 文獻標識碼:A? 文章編號:1009-5349(2020)13-0244-02

就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和分析海量數據的新技術將幫助我們更好地理解世界——這種理解世界的新方法我們現在才意識到[1]。數據更容易采集、存儲、處理才使得大數據開啟了一次重大的時代轉型,這將引起思維、商業、管理的大變革。我們可以稱其為大數據革命,但革命的意義不在于分析數據的機器,而是如何運用數據本身。

一、思維的變革:從因果性到相關性

大數據的名稱來自未來學家托夫勒所著的《第三次浪潮》。2008年9月,美國《自然》雜志,正式提出大數據概念;2011年2月1日,美國《科學》雜志通過社會調查的方式,第一次分析了大數據對人們生活的影響;而最早應用大數據的是麥肯錫公司。大數據的創新在于分析信息時的重要轉變,一是在大數據時代我們可以分析更多的數據,甚至可以獲得某個事件的所有數據。二是由于我們能夠獲得更多的數據,我們不再追求精確性。大數據時代的到來給人們的思維帶來了全新的變革,我們可以采用全數據模式,樣本即為總體。谷歌流感趨勢預測不是依賴隨機樣本,而是從數據總體出發分析了美國幾十億條網絡搜索記錄。分析總體能夠提高預測的準確性,甚至能夠推測出某個具體城市的流感狀況;Farecast的初始系統有12000個數據,可以對機票價格做出比較完美的預測。隨著研發者加入更多信息數據時,它的預測結果會更加精確。同樣我們對于數據的追求不是執迷于精確性,而是允許混亂。2006年谷歌開始設計翻譯系統。谷歌利用的是一個更大更繁雜的數據庫,也就是全球互聯網,而不是收集兩種語言簡單的文本翻譯。谷歌在設計翻譯系統時不會將自己限制在一個小圈子里,它參照各個公司的對譯文檔、官方的公告文件等。盡管輸入源頭很廣泛,輸入內容也很繁雜,但谷歌翻譯系統的翻譯質量卻是最好的。

海量數據采集、存儲、處理等技術的實現為全樣本采集帶來了可能,大數據與隨機樣本對比,人們自然傾向于前者。而海量數據必然會帶來數據混亂這種不精確性,這是一種必然性。但實踐證明我們可以接受這種混亂,允許不精確性。這兩種轉變互相聯系、影響,最終促進了思維的轉變:從因果性到相關性。在大數據時代,海量數據加上混亂的不精確性,我們知道是什么就可以了,無須關注為什么。這不是對科學因果性的完全否定,探尋事實背后的原因仍然具有意義,只是在某些特殊背景下,我們不必知道原因,原因的追尋不是迫在眉睫的事情,甚至是可以不存在的。格雷格林登在攻讀博士期間在網上賣書,他喜歡讀書也喜歡賣書,但他更喜歡幫助人們找到感興趣的點,這或許是亞馬遜個性推薦最初的靈感。亞馬遜剛開始的推薦系統采用人工推薦的形式,書評人寫評語并將它們放在網頁上,這成了亞馬遜的金字招牌。嘗到甜頭的亞馬遜打算創新,根據用戶以往的購物喜好為其推薦書籍。他們收集了用戶買了什么書,一起買的書中有什么相關性,什么書是只瀏覽卻沒有購買的購物信息。通過這些數據亞馬遜找到了客戶之間的相似性,并且為他們推薦非常原始的信息。例如你買了一本有關量子力學的書籍,系統就會給你推薦大量有關物理學書籍,而事實上你只是一個科學史的興趣愛好者,對于物理基本一竅不通。這給用戶帶來的體驗并不是完美的,林登很快找到解決方案,推薦系統沒必要對不同用戶進行對比分析,它需要做的是找到產品之間的關聯性。亞馬遜立即申請了協同過濾技術的專利,系統對于用戶的需求提前分析,用戶登錄網站就會很容易得到自己想要的信息。林登回憶道:“如果系統運行良好,亞馬遜應該只推薦你一本書,而這本書就是你將要買下的那本”。

二、第四范式:數據密集型科學發現

美國計算機專家、圖靈獎得主吉姆·格雷(JimGray)在2007年1月11日的一次學術會議上發表了題為“e-Science:科學方法的一次革命”的學術演講,明確提出了科學分期和分類的新方法[2]。他按照時間和研究工具兩個維度將歷史上的科學劃分為經驗科學、理論科學、計算科學和數據密集型科學四大類型。這四種不同類型的科學對應著四種不同的科學發現模式。第一種科學發現模式是經驗范式,從時間角度來看是人類早期對于不能合理解釋、相對復雜的自然現象的觀察,從工具維度來說采用的是肉眼和常用的一些生活工具,此時科學還沒有職業化,只是作為一種業余興趣愛好。近代西方哲學有明顯的認識論轉向,從傳統希臘重視本體論的探討到向認識論方向傾斜,形成了兩種認識理論,一是經驗論即上述的第一范式的科學發現模式;二是唯理論,即第二種范式的科學發現模式——理論范式。對于理論范式的介紹從理論主義代表人物中就可以清晰了解,柏拉圖認為人可以通過理念構建世界和觸及真知,笛卡爾通過我思來推理我在這個命題,大數學家萊布尼茲試圖運用0和1構建整個世界。經驗論認為科學發現的重點應該落實到經驗基礎上,無論是普通肉眼觀察還是精密的實驗檢驗。而唯理論在于理性的分析概括和邏輯的推導。經驗論善于從有限事例中歸納出一般原理,而唯理論更愿意從原理出發推導演繹出結論。隨著科學的發展,兩種觀點在一定程度上出現了辯證的統一,但由于經驗事實獲取和邏輯推導的局限性,這兩種范式只適合解決一些簡單科學。面對一些復雜現象形成的復雜性科學,第三范式借著計算機發展的東風開始通過模擬來進行科學發現。這種范式離我們并不遙遠并且正在作用于我們的生活。

第四范式:數據密集科學發現模式的出現,對科學發現的問題提出了新的挑戰,可以說,小數據時代科學研究離不開數據的參與,而大數據時代科學始于數據??茖W始于數據是一種全新的科學發現邏輯模式,這是時代進步和工具提升帶來的全新變革,這將改變科學發現過程中的各個方面,但并不意味著其他科學發現邏輯起點失效,各種邏輯途徑的科學發現還是可以共生共存、辯證統一的??茖W分界的目標就是將真正的科學與非科學、偽科學、形而上學區分開來,看似很簡單的問題卻成了科學發展過程中的關鍵??茖W來自自然哲學,而自然哲學最早又與宗教有著千絲萬縷的關系。自從文藝復興起,科學開始與哲學分離,為了擺脫宗教的束縛而獨立??茖W以反對形而上學的名義與哲學做區分,同樣以提倡實驗、理性獨立于宗教。隨著科學的快速發展,科學的權威性越來越強,似乎科學就是真理。哲學變得沒落,為了吸引眼球,哲學家推崇科學的哲學,而宗教也變得科學起來。這使科學獨立問題變得十分模糊,那么分界問題也就被提上日程。相對論和量子力學理論提出后科學發展似乎到達了極限,很長時間內沒有突破性科學發現。東方道家和佛學的復歸例如氣功、中醫等,為了特殊利益而宣傳的邪教等偽科學,這些都給科學分界問題帶來了復雜性。

從弗朗西斯培根到康德,從第一代實證主義到第三代實證主義,這些哲學家都論及分界問題,但是他們都不能明確提出這個問題,而是正面論證他們自己預設的所謂科學本質問題,亦即科學究竟是什么的問題。他們至多在論證這個本質問題時順便涉及分界問題。哲學家更愿意用經驗去證實什么是科學,波普爾把分界問題稱作康德問題,他認為康德對數學物理與形而上學的做出的區分就是一種分界問題,并且率先明確提出了分界問題[3]。波普爾認為愛因斯坦的相對論打破了經典牛頓力學永為真理的神話,科學是一種猜想、假說,并不是真理,科學也是可以出錯的,因此說科學是可證偽的。無論一個理論被多少經驗證實最終都有可能被推翻,事實上它們就相對成熟的科學假說,牛頓理論在那個年代被人們看作真理,但目前來看科學似乎是介于真理和謬誤之間。就像波普爾自己說的:“二百多年來,牛頓理論第一次變得成問題了”。在波普爾之前大部分人愿意用證實的方法無意識地解決科學分界問題,他們只證實了什么是科學的。而波普爾提倡用證偽的方法對科學分界,也有像費耶阿本德這種反科學主義、無政府主義,他反對方法,提倡取消對科學分界問題的討論??茖W哲學家先后用證實、證偽,以及庫恩范式理論和拉卡托斯科學研究綱領來給科學分界問題制定標準,但并沒有一個完美的統一。

大數據時代,數據的地位越來越高,我們是不是可以嘗試用數據來量化科學呢?自然界的各種物理量由于可以被量化,自然科學各學科率先進入科學共同體中。但是,人文學科卻由于缺乏量化指標而一直被科學共同體拒之門外。社會科學由于借用自然科學的研究方法而得到了部分指標的量化并初步跨進科學的門檻,但因沒有被全面數據化而沒有被科學共同體全面接納[4]??梢钥闯鰯祿炕闹匾饬x,萬事萬物都可以通過量化、數字化被感知,那么海量數據可以嘗試作為科學分界標準的一個新指標。這是在當下大數據時代我們能夠預測到的不遠的事實,隨著大數據的發展和數據的全面化,大數據會給科學分界標準帶來更多的可能性,這是值得期待的。

三、結語

大數據的廣泛應用,使得我們生活的方方面面都得到了改變,這種改變是中性的,我們在享受大數據帶來的準確預測中,也應該注意到技術異化、隱私等方面的問題,這些是大數據發展必須面對的問題。只有妥善處理,才能真正迎接美好的大數據時代。

參考文獻:

[1]維克托·舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[2]吉姆·格雷.吉姆·格雷論e-Science:科學方法的一次革命[C]//TonyHey.第四范式:數據密集型科學發現.潘教峰,譯.北京:科學出版社,2012:9-24.

[3]周林東.科學哲學[M].上海:復旦大學出版社,2005:106.

[4]黃欣榮.數據密集型科學發現及其哲學問題[J].自然辯證法研究,2015,31(11).

責任編輯:趙慧敏

[作者簡介]盧雨生,黑龍江大學在讀碩士研究生,研究方向:科學技術哲學。

猜你喜歡
相關性大數據
基于Kronecker信道的MIMO系統通信性能分析
小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
腦梗死與高同型半胱氨酸的相關性研究(2)
腦梗死與高同型半胱氨酸的相關性研究
會計信息質量可靠性與相關性的矛盾與協調
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
決策有用觀下財務會計信息質量研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合