欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

大數(shù)據(jù)來(lái)襲,你準(zhǔn)備好了嗎

2014-06-12 09:31:39 大云網(wǎng)  點(diǎn)擊量: 評(píng)論 (0)
最近有一則這樣的笑話在網(wǎng)上流程開(kāi)來(lái),有一個(gè)美國(guó)數(shù)學(xué)教授平生最怕坐飛機(jī),他研究了近20年的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機(jī)的幾率其實(shí)非常低,但是他還不安心,他又進(jìn)一步研究數(shù)據(jù)發(fā)現(xiàn),兩個(gè)人同時(shí)帶炸彈上
最近有一則這樣的笑話在網(wǎng)上流程開(kāi)來(lái),“有一個(gè)美國(guó)數(shù)學(xué)教授平生最怕坐飛機(jī),他研究了近20年的統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)恐怖分子帶炸彈上飛機(jī)的幾率其實(shí)非常低,但是他還不安心,他又進(jìn)一步研究數(shù)據(jù)發(fā)現(xiàn),兩個(gè)人同時(shí)帶炸彈上飛機(jī)的幾率幾乎為零,于是從此他坐飛機(jī)都自己攜帶一枚炸彈。”這雖然是一個(gè)簡(jiǎn)單笑話,但卻是一個(gè)大數(shù)據(jù)分析的真實(shí)案例。這名科學(xué)家最終的做法固然可笑,但是在整個(gè)過(guò)程中,他收集整理了20年來(lái)與之相關(guān)的數(shù)據(jù),包括天氣數(shù)據(jù)、航班信息、新聞事件、乘客信息、出租車信息、交通信息、監(jiān)控信息等等大量的相關(guān)數(shù)據(jù),通過(guò)自己的研究,整理和分析了數(shù)據(jù)之間的相關(guān)性,構(gòu)建了數(shù)據(jù)分析模型,并最終得出了分析結(jié)果。那么,什么才是大數(shù)據(jù)呢?
"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn),最終形成創(chuàng)新之力。
由此可見(jiàn),大數(shù)據(jù)的建設(shè),我們首先要明確我們分析的目標(biāo),需要具備一個(gè)高性能的、大容量的具備數(shù)據(jù)采集、存儲(chǔ)、分析和展現(xiàn)能力的那么一個(gè)平臺(tái)或者系統(tǒng)。這就需要考慮以下幾個(gè)問(wèn)題:數(shù)據(jù)從何而來(lái)?海量的數(shù)據(jù)如何存儲(chǔ)?這么多相關(guān)或非相關(guān)的數(shù)據(jù)怎么分析?分析出來(lái)結(jié)果如何展示?因此考慮上述問(wèn)題,大數(shù)據(jù)分析不應(yīng)該是一個(gè)系統(tǒng),而應(yīng)該一個(gè)平臺(tái),是一個(gè)可以收集存儲(chǔ)不同格式不同規(guī)模的海量數(shù)據(jù)的高度數(shù)據(jù)共享的平臺(tái),是一個(gè)隨時(shí)根據(jù)需求建立模型分析和展示不同結(jié)果的平臺(tái)。
 

圖1 大數(shù)據(jù)平臺(tái)系統(tǒng)結(jié)構(gòu)
1.      數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
   在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問(wèn)和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
2.      數(shù)據(jù)預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
3.      數(shù)據(jù)分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
4.      數(shù)據(jù)挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
5.      結(jié)果呈現(xiàn)
    當(dāng)通過(guò)分析子系統(tǒng)對(duì)數(shù)據(jù)分析和處理完畢,需要從在獨(dú)立的數(shù)據(jù)庫(kù)存放計(jì)算和分析結(jié)果,并最終通過(guò)分析展示子系統(tǒng)將分析結(jié)果展現(xiàn)給數(shù)據(jù)需求者。分析展示子系統(tǒng)采用B/S架構(gòu)構(gòu)建一個(gè)Web應(yīng)用,可以是更多的用戶以最便捷的方式查看到分析結(jié)果。
  上述內(nèi)容就是普遍的一個(gè)大數(shù)據(jù)分析的基本步驟,大數(shù)據(jù)分析平臺(tái)是運(yùn)用了多種技術(shù)構(gòu)建的一個(gè)整體,對(duì)基礎(chǔ)設(shè)施建設(shè)具有很高要求,也是實(shí)現(xiàn)大數(shù)據(jù)分析平臺(tái)的關(guān)鍵,而分析模型和方法建立則是大數(shù)據(jù)分析的核心,其中每一個(gè)環(huán)節(jié)都包含了大量技術(shù)應(yīng)用。例如:
數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題的一門學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU,NaturalLanguage Understanding),也稱為計(jì)算語(yǔ)言學(xué)(Computational Linguistics。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。(彭勇)
大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:葉雨田

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 国产成人a一在线观看 | 青青青免费在线视频 | 手机看片1024久久 | 天堂网在线观看在线观看精品 | 免费久久精品 | 91久久亚洲国产成人精品性色 | 国产精品香蕉成人网在线观看 | 亚洲区欧美区 | 在线播放亚洲 | 欧美日韩色视频在线观看 | 久久久免费观看视频 | 国偷盗摄自产福利一区在线 | 国产夫妻久久线观看 | 手机看片在线精品观看 | a三级毛片| 四虎色 | 亚洲成人免费在线 | 色综合免费视频 | 久久com| 不卡在线一区 | 欧美巨大精品欧美一区二区 | 精品香蕉在线观看免费 | 91国内精品久久久久怡红院 | 日本天堂影院在线播放 | 中文国产成人精品久久96 | 国产成人精品男人的天堂下载 | 国产在线一区二区三区四区 | 国产成人久久精品麻豆二区 | 天天干天天操天天爽 | 日韩成人一级 | 日韩精品一区二区三区视频 | 久久网视频| 国产99欧美精品久久精品久久 | 免费视频精品一区二区三区 | 草莓视频无限频下载-丝瓜视 | 国产噜噜噜精品免费 | 高清国产一级精品毛片基地 | 国产成人99久久亚洲综合精品 | 毛片高清视频在线看免费观看 | 精品视频在线观看一区二区三区 | aaa免费毛片 |