當前位置:文思屋>學習教育>畢業論文>

初探電子商務在大資料時代下的資料管理論文

文思屋 人氣:1.74W

大資料時代的到來改變了人們對資料的認識和態度,電子商務作為大資料產生的主要來源之一,其發展狀態及趨勢越來越被人們所關注。電子商務資料每年增長約60%,但資料利用卻不足5%,人們迫切希望通過資料的力量來解決一些發展道路上遇到的瓶頸問題。資料的價值逐漸被人們所重視,資料的客觀性、真實性、可靠性為電子商務的資料服務提供了堅實的“物質基礎”,繼而發展成為一種產業。那麼大資料時代進行資料儲存方式、讀取方式、分析方式的創新以及增加資料服務模式已經成為大勢所趨,本文正是對上述問題進行初步研究。

初探電子商務在大資料時代下的資料管理論文

一、資料儲存方式

隨著Web2.0時代的到來,傳統的資料儲存模式已經不能夠應付規模龐大的資料流。儲存裝置的成本增加,資料洪期的不預定型,結構化資料與非結構化資料混雜等因素讓儲存不得不做出徹底的變革。

為了減少儲存成本,提高儲存容量和儲存空間利用率,人們利用虛擬化技術對儲存裝置進行改造,將所有儲存空間作為一個資源池,可以自由的配置儲存裝置空間。虛擬化技術主要利用軟體實現對儲存資源的控制,根據實際需要可以將軟體安裝在相應的硬體裝置之上。為提高一些效能較為低下的裝置利用率,可以通過網路將這些裝置連線起來,作為資料儲存的載體。例如San系統,集群系統。San系統與集群系統都可以實現資料共享和訪問,並可以對儲存空間進行自由的擴充套件,但是San系統可以支援不同客戶端的作業系統,擴充套件範圍更加廣泛,運用更加靈活

San網路儲存由伺服器、儲存、互連組成,利用光纖通道實現對儲存裝置的管理,既可以實現伺服器到儲存的資料傳輸,也可以實現伺服器到伺服器的資料通訊。San網路採用雙環方式及資料遠端備份,增加了資料安全性。San對於磁碟進行虛擬化,可以讓磁碟同步儲存資料,加速了磁碟讀/寫操作的效率。

二、資料讀取方式

現階段,電子商務的資料儲存方式大多依靠廣泛使用的關係型資料庫。關係型資料庫採用關係模型,在結構上更容易理解,而其使用的資料庫操作語言SQL也廣泛被人們所接受。由於其對資料型別等多方面的嚴謹性,減少了使得資料庫的維護量,提高了資料管理效率。

然而,隨著電子商務的飛速發展,資料量的'巨增,給關係資料庫的I/O埠造成了很大的壓力。其次,在對資料的查詢操作上,尤其是一些大表的巢狀查詢,效率非常低。由於龐大的資料量,對資料庫的維護造成了一定影響,資料庫無法動態擴充套件其儲存空間及提高其負載能力。資料庫升級和往往要進行停機維護,導致業務的中斷。

近年來,非關係型資料庫及分散式儲存的出現可以解決傳統關係型資料庫存在的問題。NoSQL資料庫是為了解決大規模資料集的管理,包括對資料的儲存及併發控制。而資料的多樣化,非結構化等難題,給大資料處理及分析帶來了挑戰。現在NoSQL型別有很多,且各自擁有各自的技術優勢,資料管理者要結合自己的需求選擇好合適的NoSQL資料庫,才能體現非關係型資料庫具備的優勢。NoSQL資料庫主要分為:鍵值儲存資料庫,列儲存資料庫,文件型資料庫,圖形資料庫等。NoSQL資料庫並沒有一個統一的架構,兩種NoSQL資料庫之間的不同,甚至遠遠超過兩種關係型資料庫的不同。NoSQL沒有高低之分,只能合理地使用NoSQL到適合的場合,才能充分發揮NoSQL的優勢。

現在比較常用的NoSQL資料庫主要是Redis,Leveldb, Mongodb,HBase。HBase作為Hadoop的子專案,適合於非結構化的資料儲存。HBase的一大特點是基於列的模式,這樣可以增強資料庫的擴充套件性,提高資料庫的儲存效率。而且,HBase作為分散式資料庫可以在廉價伺服器上搭建起規模龐大且結構化的儲存叢集。

三、資料分析方式

大資料時代下,人們對資料的態度有了很大改變,對資料的研究由追尋因果向資料相關性轉變。然而,對於電子商務來說,需求關係的分析是電商市場一個重要因素,仍然不可或缺。電子商務資料包含了客戶的基本資訊、消費資訊、商家的產品資訊、金融交易資訊等結構化或非結構化資料。對電子商務資料的分析可分為幾個方面:

(1)流量資料分析,包含了對電子商務網站的流量,點選率等資料的分析。流量的大小可以反映商品的推廣程度,但是,為檢測一些為提高點選率的惡意、虛假行為,需要對流量來源等資料進行分析,確保點選率能真實反映產品推廣程度。網站到達率,二跳率,pv/ip值等資料都可反映商品宣傳的效果。

(2)網站資料分析,網站資料最能直接反映商品推廣效率,商品質量及商品銷售情況等重要資訊。各式各樣的電商產品琳琅滿目,客戶往往會陷入難以抉擇的尷尬局面,難以達成交易。通過對網站資料的分析,可以更好的瞭解客戶的真實需求和偏好,並制定相應的營銷策略,更好的將商品推銷至客戶。

(3)信用資料分析,無論是客戶還是商家,信用都代表了其交易的真誠度和可靠性。信用主要以交易量及交易評價作為依據。面對日益競爭激烈的電商市場,商家為了提高自身的銷售額,難免採用一些不正當手段,通過構造虛假評論資訊來提升自己和打擊對手。通過對評價資料的分析,可以判斷其評價的真實性,避免了一些商家通過炒作來提高自身信用和客戶惡意評價等行為帶來的影響。

四、資料服務模式

大資料時代下,資料分析所利用的資料不再是通過簡單的抽樣得到的樣本,而是要將整體資料作為分析來源。以大資料的分析手段,得到分析結果。儘管相較於傳統方法,大資料分析需要消耗更多的時間和資源,然而,往往一些孤僻、異常的資料才是問題出現的根本原因,而原有的抽樣方式很有可能將此類資料遺漏,影響到最終的分析結果。

通常,資料服務提供視覺化介面,展現資料的統計分析結果。對於大資料的統計分析,需要呈現出更多,更廣的事務特徵。例如,某些電商推出的十年賬單查詢服務,引起了社會廣泛的反響。如今,隨著大資料分析技術的革新,資料服務模式也在不斷增加,大資料輔助決策和預測事物發展的特點引發了人們利用資料來研究事物發展規律的極大興趣,使得研究結果更具有客觀性和可靠性。