天涯明月刀老版|天涯明月刀官网

三板學堂

新能源汽車

光伏產業

智能制造

醫工醫藥

大數據:人工智能的基石

OFweek機器人網訊:目前的深度學習主要是建立在大數據的基礎上,即對大數據進行訓練,并從中歸納出可以被計算機運用在類似數據上的知識或規律。那么,到底什么是大數據呢?
人們經常籠統地說,大數據就是大規模的數據。
這個說法并不準確。“大規模”只是指數據的量而言。數據量大,并不代表著數據一定有可以被深度學習算法利用的價值。例如,地球繞太陽運轉的過程中,每一秒鐘記錄一次地球相對太陽的運動速度、位置,可以得到大量數據。可如果只有這樣的數據,其實并沒有太多可以挖掘的價值,因為地球圍繞太陽運轉的物理規律,人們已經研究得比較清楚了。
那么,大數據到底是什么?大數據是如何產生的?什么樣的數據才最有價值,最適合作為計算機的學習對象呢?
根據馬丁·希爾伯特的總結,今天我們常說的大數據其實是在2000年后,因為信息交換、信息存儲、信息處理三個方面能力的大幅增長而產生的數據:
信息交換:據估算,從1986年到2007年這20年間,地球上每天可以通過既有信息通道交換的信息數量增長了約217倍,這些信息的數字化程度,則從1986年的約20%增長到2007年的約99.9%。在數字化信息爆炸式增長的過程里,每個參與信息交換的節點都可以在短時間內接收并存儲大量數據。
信息存儲:全球信息存儲能力大約每3年翻一番。從1986年到2007年這20年間,全球信息存儲能力增加了約120倍,所存儲信息的數字化程度也從1986年的約1%增長到2007年的約94%。1986年時,即便用上我們所有的信息載體、存儲手段,我們也不過能存儲全世界所交換信息的大約1%,而2007年這個數字已經增長到大約16%。信息存儲能力的增加為我們利用大數據提供了近乎無限的想象空間。
信息處理:有了海量的信息獲取能力和信息存儲能力,我們也必須有對這些信息進行整理、加工和分析的能力。谷歌、Facebook等公司在數據量逐漸增大的同時,也相應建立了靈活、強大的分布式數據處理集群。

從應用角度來說,今天的大數據越來越多地呈現出以下一種或幾種特性:

大數據越來越多地來源于生產或服務過程的副產品,但在價值上卻往往超過了為了特定目的專門采集的數據。例如,谷歌曾利用全球用戶查詢中,涉及流行性感冒的關鍵詞的出現頻率變化情況,對2003年到2008年全球季節性流感的分布和傳播進行跟蹤與預測。這一預測的覆蓋規模和價值甚至超出了各國衛生部門專門收集相關數據所做的預測。

大數據往往可以取代傳統意義上的抽樣調查。例如,按照傳統方式,電視臺某個節目的收視率往往要由專業調查公司通過抽樣調查的方式獲得數據后估算出來。現在,有了微博或類似的社交網絡,我們可以直接利用微博上每時每刻產生的大數據對節目熱度進行分析,其準確性往往超過傳統的抽樣調查方式。

許多大數據都可以實時獲取。例如,每年雙十一,在各類電子商務平臺上,每時每刻都有成千上萬筆交易正在進行,所有這些交易數據在阿里交易平臺的內部,都可以實時匯總,供人們對雙十一當天的交易情況進行監控、管理或分析、匯總。大數據的實時性為大數據的應用提供了更多的選擇,為大數據更快產生應用價值提供了基礎。

大數據往往混合了來自多個數據源的多維度信息。假如能利用用戶ID,將用戶在微博上的社交行為,和用戶在電子商務平臺的購買行為關聯起來,就可以向微博用戶更準確地推薦他最喜歡的商品。聚合更多數據源,增加數據維度,這是提高大數據價值的好辦法。

大數據的價值在于數據分析以及分析基礎上的數據挖掘和智能決策。大數據的擁有者只有基于大數據建立有效的模型和工具,才能充分發揮大數據的價值。例如利用谷歌趨勢對過去5年全球地震分布進行分析匯總。根據用戶查詢地震相關關鍵詞的頻率,看出過去5年內主要地震的發生時間和地點。在這里,谷歌趨勢就是一個利用已有大數據建模、分析、匯總的有效工具。

暫無評論
    ,上海易津投資股份有限公司,上海易津投資股份有限公司

    行業動態-上海易津投資股份有限公司

    行業動態,易津動態,三板學堂,易津三板學堂,上海易津投資股份有限公司

    天涯明月刀老版