技術(shù)
導(dǎo)讀:當(dāng)前物聯(lián)網(wǎng)進(jìn)展中,從技術(shù)發(fā)展趨勢呈現(xiàn)出智能化的特征,從管理應(yīng)用發(fā)展趨勢呈現(xiàn)標(biāo)準(zhǔn)化的特征。伴隨著物聯(lián)網(wǎng)的應(yīng)用場景的拓展,會(huì)對(duì)企業(yè)的自動(dòng)化、信息化進(jìn)程產(chǎn)生重要的影響。在物聯(lián)網(wǎng)的應(yīng)用必然會(huì)產(chǎn)生海量數(shù)據(jù),那么我們該如何有效的處理這些海量數(shù)據(jù)呢?
物聯(lián)網(wǎng),即“萬物相連的互聯(lián)網(wǎng)”,是互聯(lián)網(wǎng)基礎(chǔ)上的延伸和擴(kuò)展的網(wǎng)絡(luò),將各種信息傳感設(shè)備與互聯(lián)網(wǎng)結(jié)合起來而形成的一個(gè)巨大網(wǎng)絡(luò),實(shí)現(xiàn)在任何時(shí)間、任何地點(diǎn),人、機(jī)、物的互聯(lián)互通。
當(dāng)前物聯(lián)網(wǎng)進(jìn)展中,從技術(shù)發(fā)展趨勢呈現(xiàn)出智能化的特征,從管理應(yīng)用發(fā)展趨勢呈現(xiàn)標(biāo)準(zhǔn)化的特征。伴隨著物聯(lián)網(wǎng)的應(yīng)用場景的拓展,會(huì)對(duì)企業(yè)的自動(dòng)化、信息化進(jìn)程產(chǎn)生重要的影響。在物聯(lián)網(wǎng)的應(yīng)用必然會(huì)產(chǎn)生海量數(shù)據(jù),那么我們該如何有效的處理這些海量數(shù)據(jù)呢?
什么是數(shù)據(jù)處理?
為了理解物聯(lián)網(wǎng)傳感器收集的大量數(shù)據(jù),我們需要對(duì)其進(jìn)行處理。換句話說,數(shù)據(jù)處理是對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸,目的是將原始數(shù)據(jù)轉(zhuǎn)換為有用的信息。其中,數(shù)據(jù)是數(shù)字、符號(hào)、字母和各種文字的集合。數(shù)據(jù)處理的輸出的是信息,并能以不同的形式呈現(xiàn),例如純文本文件、圖表、電子表格或圖像。
數(shù)據(jù)處理過程通常遵循一個(gè)由三個(gè)基本階段組成的循環(huán):輸入、處理和輸出。
輸入:輸入是數(shù)據(jù)處理周期的第一階段,這是一個(gè)將收集到的數(shù)據(jù)轉(zhuǎn)換成機(jī)器可讀形式以便計(jì)算機(jī)處理的階段。
處理:在處理階段,計(jì)算機(jī)將原始數(shù)據(jù)轉(zhuǎn)換成信息。轉(zhuǎn)換是通過使用不同的數(shù)據(jù)操作技術(shù)來執(zhí)行的。
輸出:這是處理后的數(shù)據(jù)轉(zhuǎn)換成人類可讀形式并作為有用信息呈現(xiàn)給最終用戶的階段。
那么,數(shù)據(jù)處理是如何工作的呢?
數(shù)據(jù)處理的方法
物聯(lián)網(wǎng)的大規(guī)模應(yīng)用會(huì)產(chǎn)生海量的數(shù)據(jù),為了減輕系統(tǒng)的負(fù)荷,可以對(duì)數(shù)據(jù)的分級(jí)處理和降維處理。分級(jí)處理可以有效的減輕系統(tǒng)的負(fù)荷;降維處理可以有效的壓縮數(shù)據(jù)量,是處理一些數(shù)據(jù)必須進(jìn)行的步驟,并且已在大規(guī)模的圖像處理算法中得到應(yīng)用。
數(shù)據(jù)的分級(jí)處理
從信息處理的角度,物聯(lián)網(wǎng)可以分為三個(gè)層次:
1.底層是局部區(qū)域的協(xié)同感知。多個(gè)同類或異類的傳感器辦同感知被測目標(biāo),獲得立體的豐富的感知數(shù)據(jù),通過局部區(qū)域的信息處理和融合,能夠獲得高精度的、可靠的感知信息;2.第二層是傳輸過程中的數(shù)據(jù)處理。包括面向無線傳輸網(wǎng)絡(luò)狀態(tài)的感知信息的進(jìn)一步聚合和融合處理,自適應(yīng)傳輸鏈路狀態(tài)的應(yīng)用層編碼和傳送協(xié)議優(yōu)化,以及數(shù)據(jù)的安全傳輸處理,使得海量信息能夠高效的、可靠和安全的傳輸;3.第三層是應(yīng)用支撐層上的基于各類物聯(lián)網(wǎng)應(yīng)用的共性支撐、服務(wù)決策、協(xié)調(diào)控制等。物聯(lián)網(wǎng)的信息是超大規(guī)模的海量信息,需要利用感知信息具有的時(shí)間和空間的關(guān)聯(lián)特性,實(shí)現(xiàn)不同空間區(qū)域上的多粒度的分級(jí)存儲(chǔ)和檢索,提高資源利用率和信息獲取效率。提出一種基于多級(jí)數(shù)據(jù)處理的嵌人式中間件系統(tǒng)的解決方案,系統(tǒng)集合了數(shù)據(jù)過濾、數(shù)據(jù)聚合和數(shù)據(jù)處理等功能,可在一定程度上提高大型應(yīng)用系統(tǒng)的整體效率。
數(shù)據(jù)的降維處理
隨著信息技術(shù)的發(fā)展,特別是物聯(lián)網(wǎng)技術(shù)的應(yīng)用,人們將會(huì)不分時(shí)間和地點(diǎn),可以方便的獲得大量的信息,人們獲得的數(shù)據(jù)量將以指數(shù)形式快速增長。這些數(shù)據(jù)具有快速更新、數(shù)據(jù)維數(shù)更高、非結(jié)構(gòu)化等特點(diǎn)。
目前人們對(duì)這些數(shù)據(jù)的處理還沒有形成相應(yīng)的有效方法,傳統(tǒng)的數(shù)據(jù)分析方法在處理這些數(shù)據(jù)集合時(shí),往往效果并不好,甚至在某些情況下失效。蘊(yùn)含在數(shù)據(jù)中的知識(shí)和規(guī)律我們無法得知,將會(huì)導(dǎo)致數(shù)據(jù)災(zāi)難問題。因此,人們就迫切希望去認(rèn)識(shí)和探索這些數(shù)據(jù)之間的奧秘。而如何能有效的利用這些高維數(shù)據(jù)是人們面臨的基本問題。
在很多情況下,我們可以首先將數(shù)據(jù)的維數(shù)將到一個(gè)合理的大小,同時(shí)盡可能多的保留原始的信息,然后再將降維處理后的數(shù)據(jù)送入信息處理系統(tǒng)。這樣的做法是非常有用的。而降維算法也是一些機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘方法的組成部分。對(duì)數(shù)據(jù)降維處理,結(jié)合一些具體的業(yè)務(wù)需求,是一個(gè)行之有效對(duì)海量數(shù)據(jù)進(jìn)行處理的方法。
降維算法主要分為線性降維算法和非線性降維算法。降維的實(shí)質(zhì)就是尋找投影變換:從高維空間到低維空間變換。現(xiàn)在有一種最小量嵌入算法,在保持局部等距和角度不變的約束條件下,就能很好的揭示數(shù)據(jù)內(nèi)在的流形結(jié)構(gòu)。
數(shù)據(jù)處理的注意事項(xiàng)
既然我們已經(jīng)知道了數(shù)據(jù)的分級(jí)和降維處理,那么在物聯(lián)網(wǎng)中涉及到這些問題時(shí),有注意事項(xiàng)需要我們了解:
期望的輸出
即使數(shù)據(jù)處理周期從輸入階段開始,我們也應(yīng)該首先考慮想要的輸出。換句話說,我們對(duì)什么樣的信息感興趣?一個(gè)示例是,在機(jī)器的溫度超過閾值時(shí)接收警報(bào)。
數(shù)據(jù)的存儲(chǔ)
一旦我們弄清楚想要的輸出是什么,我們就必須找到一種方法來獲得它。傳感器收集的數(shù)據(jù)必須以適當(dāng)?shù)男问酱鎯?chǔ),以便將其轉(zhuǎn)換為我們正在尋找的信息。
例如,當(dāng)機(jī)器運(yùn)行時(shí),我們可以定期(例如每10分鐘)接收數(shù)據(jù)。我們可能希望利用這些數(shù)據(jù)來計(jì)算自上次維護(hù)以來機(jī)器已經(jīng)運(yùn)行了多少小時(shí)。我們還可以檢測這些數(shù)據(jù)中的趨勢,并對(duì)何時(shí)達(dá)到特定的小時(shí)數(shù)進(jìn)行預(yù)估(如果使用量保持在相同的水平)。
由于傳感器收集的數(shù)據(jù)量可能很大,我們應(yīng)該購買可擴(kuò)展的云服務(wù)來存儲(chǔ)數(shù)據(jù)。此外,我們還應(yīng)該制定一個(gè)數(shù)據(jù)保留政策,以便定時(shí)清理不必要的數(shù)據(jù)。我們擁有的數(shù)據(jù)越多,保存的時(shí)間越長,存儲(chǔ)數(shù)據(jù)的成本就越高。另一方面,更少的數(shù)據(jù)意味著更少的見解和歷史參考。因此,我們必須在成本和想要存儲(chǔ)的數(shù)據(jù)量之間進(jìn)行優(yōu)先級(jí)排序和平衡。
更新頻率
在執(zhí)行數(shù)據(jù)處理之前,重要的是要確定更新頻率和資源消耗(如計(jì)算能力、功率)之間的良性平衡?!傲夹云胶狻蓖耆Q于物聯(lián)網(wǎng)用例。
在某些用例中,必須立即知道收集的數(shù)據(jù)是如何影響輸出的,然而,這需要實(shí)時(shí)的數(shù)據(jù)處理,這可能非常消耗資源。在其他一些用例中,收集到的數(shù)據(jù),每天處理一次就足夠了。
小結(jié)
在物聯(lián)網(wǎng)數(shù)據(jù)處理方面,我們正處于一個(gè)充滿挑戰(zhàn)的時(shí)刻,這個(gè)時(shí)刻充滿了機(jī)遇,也充滿了風(fēng)險(xiǎn)。通過收集、處理和分析物聯(lián)網(wǎng)數(shù)據(jù),消費(fèi)者和組織可以獲得有價(jià)值的見解,幫助他們成長并對(duì)未來做出更好的決策。