大數(shù)據(jù)分析與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論,機(jī)器學(xué)習(xí),人工智能,現(xiàn)代統(tǒng)計(jì)學(xué)的迅速發(fā)展的交叉學(xué)科,在很多領(lǐng)域中都有應(yīng)用。涉及到很多的算法,源于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),決策樹,也有基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī),分類回歸樹,和關(guān)聯(lián)分析的諸多算法。數(shù)據(jù)挖掘的定義是從海量數(shù)據(jù)中找到有意義的模式或知識(shí)。
大數(shù)據(jù)是最近幾年提出來,也是媒體忽悠的一個(gè)概念。有三個(gè)重要的特征:數(shù)據(jù)量大,結(jié)構(gòu)復(fù)雜,數(shù)據(jù)更新速度很快。由于Web技術(shù)的發(fā)展,web用戶產(chǎn)生的數(shù)據(jù)自動(dòng)保存、傳感器也在不斷收集數(shù)據(jù),以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)自動(dòng)收集、存儲(chǔ)的速度在加快,全世界的數(shù)據(jù)量在不斷膨脹,數(shù)據(jù)的存儲(chǔ)和計(jì)算超出了單個(gè)計(jì)算機(jī)(小型機(jī)和大型機(jī))的能力,這給數(shù)據(jù)挖掘技術(shù)的實(shí)施提出了挑戰(zhàn)(一般而言,數(shù)據(jù)挖掘的實(shí)施基于一臺(tái)小型機(jī)或大型機(jī),也可以進(jìn)行并行計(jì)算)。Google提出了分布式存儲(chǔ)文件系統(tǒng),發(fā)展出后來的云存儲(chǔ)和云計(jì)算的概念。
1.從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)挖掘都是依據(jù)數(shù)據(jù)庫里面的數(shù)據(jù)進(jìn)行分析,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)來源多種多樣,對(duì)于這些非結(jié)構(gòu)化數(shù)據(jù)的加工是大數(shù)據(jù)數(shù)據(jù)挖掘的重要特征。因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)處理的成功與否決定了大數(shù)據(jù)數(shù)據(jù)源的質(zhì)量好壞,而這并不是算法可以解決的。
2.從抽樣數(shù)據(jù)到全量數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)挖掘受制于數(shù)據(jù)處理能力,只能使用少量的抽樣數(shù)據(jù)進(jìn)行分析。在大數(shù)據(jù)技術(shù)環(huán)境下,完全可以實(shí)現(xiàn)全量數(shù)據(jù)的分析,效率甚至可能高于抽樣數(shù)據(jù)的分析。
3.從因果關(guān)系到相關(guān)性分析。大數(shù)據(jù)分析通過事件和多種因素進(jìn)行相關(guān)性分析,通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的算法找到其關(guān)聯(lián)關(guān)系,并運(yùn)用回歸分析從而實(shí)現(xiàn)預(yù)測(cè)。
數(shù)據(jù)挖掘的任務(wù)按照目標(biāo)可以分為4類:
1) 分類:通過分析訓(xùn)練集的數(shù)據(jù),為每一個(gè)分類建立分類分析模型,用這個(gè)已知的規(guī)律對(duì)其他數(shù)據(jù)進(jìn)行分類
2) 回歸:建立因變量和自變量之間關(guān)系的模型
3) 聚類:將對(duì)象集合分成由類似的對(duì)象組成的多個(gè)類的過程
4) 關(guān)聯(lián)規(guī)則:尋找給定數(shù)據(jù)集合中各個(gè)因子之間的關(guān)聯(lián)關(guān)系
人們經(jīng)常見到的“邏輯回歸模型”、“神經(jīng)網(wǎng)絡(luò)模型”、“遺傳算法”、“決策樹”等等都是監(jiān)督學(xué)習(xí)過程的挖掘算法。這類算法在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)里面大量使用,是大數(shù)據(jù)公司必備的專業(yè)技能。極光大數(shù)據(jù)作為國(guó)內(nèi)領(lǐng)先的移動(dòng)大數(shù)據(jù)服務(wù)商,在這方面的實(shí)際案例頗多,例如極光大數(shù)據(jù)團(tuán)隊(duì)利用神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)個(gè)人前往某一個(gè)特定區(qū)域的概率和時(shí)間,準(zhǔn)確度可以達(dá)到80%以上;他們還利用神經(jīng)網(wǎng)絡(luò)算法和隨機(jī)森林算法對(duì)個(gè)人喜歡的移動(dòng)應(yīng)用進(jìn)行推薦下載和推薦產(chǎn)品;此外,極光大數(shù)據(jù)團(tuán)隊(duì)還自主開發(fā)了空間軌跡相似度STS(spatial trajectory similarity)算法進(jìn)行同軌分析等。
數(shù)據(jù)挖掘技術(shù)隨著大數(shù)據(jù)時(shí)代的到來已變幻出更強(qiáng)的功能特征,而在大數(shù)據(jù)服務(wù)商的精耕細(xì)作下,也必將為各行業(yè)帶來進(jìn)步的動(dòng)力。

責(zé)任編輯:售電衡衡
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求