以前我們講數據挖掘,大數據時代講大數據挖掘。那么大數據挖掘的“大”在哪里呢?本文做一些歸納,希望能提供一些思考問題的方法。
不足之處歡迎留言發表意見。
一、數據量的大
數據量有多大?這是很多人在挖掘大數據時不得不問的問題。
從一些實際應用來看,如果每天處理的數據量達到T、P級別,可以考慮部署Hadoop、Spark等大數據處理平臺。只有一定程度的數據處理才能凸顯這些平臺的優勢。
數據量小,讀取和遷移數據所花費的時間占太多,不能體現大數據處理平臺的優勢。很多應用只是為了大數據大數據,幾百M也搞定Hadoop。因此,談大數據時想到Hadoop、Spark等平臺是非常有限的。
當然,在決定是否使用大數據平臺時,可能需要考慮更多的因素,例如:許多低性能機器的集成、異構軟硬件平臺之間的可移植性、海量非結構化數據處理等。
二、數據類型的多樣化
在數據挖掘時代,我們挖掘的數據主要是關系數據。大數據時代,各種應用產生各種數據,大數據挖掘通常涉及多種數據類型。這里所說的數據類型不是編程中的普通數據類型,而是更接近于應用數據表示,通常包括時序數據、軌跡數據、圖形數據、文本數據等。
每天的銷售記錄和價格都是常見的數據類型,但它們從時間維度上是按順序連接起來的,形成的時間序列數據可以反映價格的變化規律,當然具有更豐富的含義。
每個人的位置只是一個普通的數據類型(x,y),但是按照運動的先后順序將位置連接起來就構成了一個人的活動軌跡,反映了他背后的生活和習慣。隱藏的信息才是大數據應該關注的。
微博或論壇中的每個人都是獨立存在的,也是公共數據,但是如果把每個人按照粉絲、粉絲等關系連接起來,就可以形成一個大圖,即圖數據。圖中的人群和離群點,以及加入群體偏好、群體移動等屬性后的高層次圖數據,是大數據挖掘的重點。
三、數據處理的噪音
在數據挖掘時代,數據來源于關系型數據庫,是與業務相關的高質量數據,通??梢灾苯油诰?。這絕對不是大數據挖掘的情況。大數據思維決定了我們必須考慮不同來源數據的質量和混合數據結構,以增強數據處理的健壯性。例如,要進行企業級的客戶分析,不同的分支機構可能會使用不同的客戶管理系統。有的系統用本科/碩士/博士來區分客戶的教育背景,有的則用本科/研究生來區分。這就需要考慮數據的一致性處理。此外,數據格式、數據完整性等都是大數據挖掘需要考慮的東西。
四、數據挖掘的多樣化
在數據挖掘時代,一般側重于單一的數據分析,而大數據挖掘可能更側重于業務中同時存在的多個數據挖掘任務,如分類、預測、關聯、聚類等。雖然有更多的業務需求,但是這些分類、預測、關聯、聚類在底層可能會使用同一個模型。因此,在挖掘大數據時,考慮模型、算法和業務的分離是非常重要的,即所謂的大數據處理層次。
我們專注高端建站,小程序開發、軟件系統定制開發、BUG修復、物聯網開發、各類API接口對接開發等。十余年開發經驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!