數(shù)據(jù)湖是指使用大型二進制對象或文件這樣的自然格式儲存數(shù)據(jù)的系統(tǒng)。
它通常把企業(yè)所有的數(shù)據(jù)統(tǒng)一存儲,既包括源系統(tǒng)中的原始副本,也包括轉(zhuǎn)換后的數(shù)據(jù),比如那些用于報表, 可視化, 數(shù)據(jù)分析和機器學習的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)(行與列)、半結(jié)構(gòu)化的數(shù)據(jù)(CSV/日志/XML/JSON),非結(jié)構(gòu)化數(shù)據(jù) (電子郵件/文件/PDF)和 二進制數(shù)據(jù)(圖像/音頻/視頻)。
數(shù)據(jù)湖的本質(zhì)包含四個標準:1. 統(tǒng)一的存儲系統(tǒng);2. 存儲原始數(shù)據(jù);3. 豐富的計算模型/范式;4. 數(shù)據(jù)湖與上云無關(guān)。這四個標準來判斷,開源大數(shù)據(jù)的Hadoop HDFS存儲系統(tǒng)就是一個標準的數(shù)據(jù)湖架構(gòu),具備統(tǒng)一的原始數(shù)據(jù)存儲架構(gòu)。