2012年維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》指出,大數據或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊;維基百科中指出,大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間限制的數據集;全球著名的管理咨詢公司McKinsey則將數據規模超出傳統數據庫管理軟件的獲取、存儲、管理以及分析能力的數據集稱為大數據;研究機構Gartner將大數據歸納為需要新處理模式才能增強決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產;以上所有關于大數據的定義都是建立在大數據的特征之上,即大數據的5V特征:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。通過這些權威機構發布的大數據概念,讓我們對于大數據有了全新的了解,與此同時隨著大數據時代的到來,大數據應用的爆發,大數據的概念是否也需要重新描述呢?其實早在幾年前,數據的海量增長就引起了人們的關注,海量數據的發生、使用、儲存伴隨著云計算的發展等都成為了現實,“大數據”已經走入了我們的生活。
最早將大數據用于IT環境的是知名咨詢公司麥肯錫,麥肯錫在研究報告中指出:如果云計算為數據資產提供了保管、訪問的場所和渠道,那么如何盤活數據資產使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。從信息安全角看,大數據是指規模和格式前所未有而又相互關聯的大量數據,搜集自企業的各個部分,技術人員可以對它們進行高速分析。就像電影《黑客帝國》中的感知機器人或者《終結者》電影中的天網一樣,現在的大數據環境由大規模并行處理數據庫產品(不過所幸的是,它們沒有自我感知能力)組成,這些產品通過處理PB級(1015)到ZB級(1021)看似不同的數據來創建趨勢和數據映射。通過建立這種宏觀層面的信息,大數據可以讓企業了解到他們的產品是如何以前所未有的經濟理解水平在運行。也就是說,通過以新方式來結合和分析海量數據,我們可以實現新的業務洞察力.