?

數據科學即將迎來“無代碼”時代

2018-01-22 11:38DataScienceCentral顧晨波笪潔瓊Aileen
中國信息化周報 2018年42期
關鍵詞:代碼機器科學家

Data Science Central 顧晨波 笪潔瓊 Aileen

我們正在進入數據科學實踐的新階段,即“無代碼”時代。 像所有重大的變化一樣,這個變化還沒有在實踐中清晰地體現,但這個變化影響深遠,發展趨勢非常明顯。

現在,每一周都會有一些自動代碼行業的最新進展。創業公司的集成產品是有一些進展的,不過更多見的是基于現有分析平臺供應商新添加的功能或模塊。自從自動化機器學習(AML)平臺出現以來,我一直在關注它們的成長。我在2016年春天,撰寫了一篇關于它們的文章,題目是“數據科學家將被自動化機器學習平臺取代并在2025年失業!”當然,我的預測不是絕對準確的,但在過去的兩年半里,自動化功能在我們機器學習行業中的發展確實非常引人注目。

不需要人工寫代碼的數據科學

無代碼數據科學或自動機器學習,或者可以稱為簡單易用的 “增強型”數據科學產品,范圍包括:

附帶指導的平臺:具有高度指導功能的建模程序平臺(當然還是需要用戶完成一定步驟,這樣的平臺有BigML,SAS,Alteryx)。經典的簡易操作平臺(drag-and-drop )是這一代的基礎。

自動機器學習(AML):全自動機器學習平臺(例如DataRobot)。

會話分析:在最新版本中,用戶只要提出可以通過常用英語解決的問題,平臺就會提供最佳答案,選擇數據,特征,建模技術,甚至可能是最佳數據可視化。

不僅僅為了先進的分析

我們工具的智能擴展從預測和規范建模,已經擴展到了數據混合和數據準備領域,甚至擴展到數據視覺設計的領域。這意味著無代碼智能功能可提供傳統商學院的商業智能分析師使用,當然也可以為公民數據學者提供支持。這種演變的市場驅動因素眾所周知。在高級分析和人工智能中,核心的困難在于精英數據科學家的短缺,以及其高昂的成本和迫切的需求。在這個領域,最需要的是洞察力,效率和一致性。簡而言之,就是效率高,速度快。

然而,上述工具在數據準備、混合、特征識別領域,對數據科學家來說也很重要,但是這些工具真正吸引的是有著更多數據分析師/ BI從業者的世界。在這個世界中,經典靜態數據的ETL仍然是一個巨大的負擔和時間的延遲,它正在從IT專家的功能迅速轉向自助服務。

簡易平臺->寫代碼->回到簡易平臺

我在2001年開始從事數據科學研究時,SAS和SPSS是主要的工具,并且已經從他們的專有代碼轉向簡易操作平臺,這便是機器學習自動化的最早形式。在這之后的7~8年,學術界轉向R語言教學,因為雖然SAS和SPSS向學生免費開放,但是他們仍然向教師收費。但是,R一直是免費的。然后我們就到了這樣一個時代,一直持續到今天。在這個時代里,成為數據科學家意味著成為程序員。用代碼作業,這就是當前這一代數據科學家受到教育的方式,也是他們在數據科學實踐的方式。

人們有著一個并不正確的誤解:在簡易操作系統平臺中,不允許微小超參數的調試,而這應該被允許。如果你曾經使用過SAS Enterprise Miner或其競爭對手的平臺上,那么您知道這個想法并不對,事實上,微調非常容易做到。在我的腦海里,總需要寫代碼是一個不必要的彎路——這往往會讓新的數據科學實踐者忽視基礎知識,而致力于學習另一種編程語言。

模型質量怎么樣

我們傾向于將“提高模型的準確性”視為高級分析是否成功的標準。有一種觀念認為,依靠自動化的無代碼解決方案會丟失部分準確性。事實并非如此。像DataRobot,Tazi.ai和OneClick.ai這樣的AutoML平臺不僅支持并行運行數百種模型類型,還包括超參數,而且它們還可以執行變換、特征選擇甚至進行一些特征工程。在準確度上擊敗這樣的平臺是很困難的。

需要注意的是,應用特征工程領域的專業知識仍然是人類的優勢。也許更重要的是,你在開發上花費幾周時間得到的結果和這些AutoML平臺提供的幾天甚至幾小時的結果相似,到底哪個更值?

無代碼化帶來更深遠的影響

在我看來,無代碼化的最大受益者實際上是傳統數據分析師和數據學者,他們仍然最關注BI靜態數據。獨立的數據混合和準備平臺,對這個群體來說,是一個巨大的好處。

這些無代碼化數據準備平臺,例如ClearStory Data,Paxata和Trifacta正在迅速將機器學習功能納入它們的流程,幫助用戶選擇合適的數據源進行數據混合,判斷哪些數據項有價值,甚至它們的功能擴展到了特征工程和特征選擇。

現代數據平臺正在使用嵌入式機器學習技術,作為智能數據自動清洗或異常值處理的典范。其他公司,例如Octopai公司,剛剛被Gartner評為“5大酷炫公司”之一,專注于讓用戶通過自動化技術快速查找可信數據,使用機器學習和模式分析來確定不同的數據要素,創建的背景數據,以及數據的預使用和轉換之間的關系。

這些平臺還通過強制執行權限以及保護PID和其他類似敏感數據來實現數據安全的自助服務。甚至數據可視化技術的領導者Tableau也正在使用自然語言處理和其他機器學習工具推出會話分析功能,允許用戶以簡單的英語提出查詢要求,并收到最優可視化效果。

對數據科學家意味著什么

Gartner認為,在兩年內,即到2020年前,公民數據學者所完成的高級分析將在數量上和價值上超越數據科學家。他們建議數據科學家專注于專業問題,并將企業級模型嵌入到應用程序中。

我不同意此想法,這似乎會使數據科學家降級去做QA和產品實施的工作。這不是我們的本職工作。我的看法是,由于較小的數據科學家團隊能夠處理越來越多的項目,這將迅速把高級分析的使用范圍擴大到更深入的項目組織層次。

在一兩年之間,我們的技術已經整合了數據科學家必備的數據混合、數據清洗功能,以及選擇最適合某個項目的預測算法的能力。這正是自動無代碼化數據科學工具正在取代的領域。需要創建、監控和管理成百上千個模型的公司是這種技術最早的采用者,特別是保險和金融服務行業。

那還剩下了什么?剩下了分析優化師的高級角色。麥肯錫最近認為這是任何數據科學項目中最重要的角色。簡而言之,分析優化師的工作如下:1.引導并識別在公司業務中,在哪里數據分析可以發揮作用。2.優化分析的流程排序。3.在項目中,能夠勝任項目的經理。4.積極采用有效優化成本效益解決方案。換句話說,將業務問題轉化為數據科學項目,并引導優化各種類型的風險和成果,使這些項目優先化。

所謂的人工智能

是的,我們最近在圖像、文本和語音處理中使用卷積神經網絡和遞歸神經網絡的最新進展中,也正在迅速推廣自動化無代碼化的解決方案。它們發展的速度還不夠快,是因為缺少具有深度學習技能的數據科學家,這個問題比普通的數據科學行業還要嚴重。

微軟和谷歌都在去年推出了自動深度學習平臺。這些平臺從遷移學習起步,正朝向完整的AutoDL平臺進發。詳細內容請參閱微軟 Custom Vision Services和Google的類似條目Cloud AutoML。還有一些研究集成AutoDL平臺的初創公司。我們今年早些時候關注了OneClick.AI。它們包括了完整的AutoML和AutoDL平臺。 Gartner最近提名DimensionalMechanics,稱其擁有AutoDL平臺的“5大炫酷公司”之一。

曾經有一段時間,我試圖持續更新和整合無代碼化AutoML和AutoDL的供應商列表,并提供有關其功能的更新。但因為該行業的快速發展,使得這個整合的工作量急速上升。

據我所知,當前沒有全面整合所有完全自動化或基本全自動化功能平臺供應商的統計表格。然而,從Gartner的報告中,你可以看到,從IBM和SAS這些大企業,到小型的初創公司都在提供類似服務。(文章出自《大數據文摘》)

猜你喜歡
代碼機器科學家
機器狗
機器狗
假如我是科學家
創世代碼
創世代碼
創世代碼
創世代碼
未來機器城
與科學家面對面
當天才遇上科學家(二)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合