摘要:利益相關(guān)網(wǎng)易云打造的大數(shù)據(jù)平臺(tái),能夠提供更好的建設(shè)方案,歡迎免費(fèi)試用。網(wǎng)易有數(shù)則定位于敏捷數(shù)據(jù)可視化分析平臺(tái),可便捷地嵌入企業(yè)經(jīng)營(yíng)的業(yè)務(wù)模塊,且面對(duì)不同客戶的需求提供定制化服務(wù),數(shù)據(jù)分析效率最高提升。
歡迎訪問(wèn)網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營(yíng)經(jīng)驗(yàn)。
數(shù)據(jù)倉(cāng)庫(kù)作為企業(yè)提供決策支持而構(gòu)建的集成化數(shù)據(jù)環(huán)境,本身并不產(chǎn)生或者消費(fèi)數(shù)據(jù),基本架構(gòu)包含的是數(shù)據(jù)流入流出的過(guò)程,首先放上一張數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)圖。數(shù)據(jù)倉(cāng)庫(kù)作為中間集成化數(shù)據(jù)管理的一個(gè)平臺(tái),底層有多種數(shù)據(jù)來(lái)源,流入數(shù)據(jù)倉(cāng)庫(kù)之后對(duì)上層應(yīng)用開放。
1、分析業(yè)務(wù)需求,確定數(shù)據(jù)倉(cāng)庫(kù)主題
數(shù)據(jù)模型的創(chuàng)建依賴數(shù)據(jù)倉(cāng)庫(kù)主題的確定,在搭建數(shù)據(jù)倉(cāng)庫(kù)之前,首先就是要充分了解業(yè)務(wù)部門的問(wèn)題需求,明確我們所要?jiǎng)?chuàng)建的數(shù)據(jù)倉(cāng)庫(kù)真正可以解決的問(wèn)題,在多次溝通的前提下,可以準(zhǔn)確的確定系統(tǒng)能夠?qū)崿F(xiàn)的功能。在這個(gè)過(guò)程中,基于雙方理解問(wèn)題的不同,還需要我們對(duì)需求做出一些原型的演示,避免理解上的分歧。
需要做到包括:從業(yè)務(wù)方需求中提取出重要的業(yè)務(wù)數(shù)據(jù)主題,并對(duì)業(yè)務(wù)數(shù)據(jù)主題進(jìn)行詳細(xì)的解釋;對(duì)提取出的業(yè)務(wù)數(shù)據(jù)主題進(jìn)行主題域的劃分,并對(duì)主題域進(jìn)行詳細(xì)的解釋;根據(jù)主題域的劃分,對(duì)內(nèi)部的組織結(jié)構(gòu)和業(yè)務(wù)關(guān)系細(xì)節(jié)化,構(gòu)建出主題域的概念模型。
2、構(gòu)建邏輯模型
在概念模型的基礎(chǔ)上,對(duì)其進(jìn)行進(jìn)一步的細(xì)化和分解,通過(guò)實(shí)體和實(shí)體之間的關(guān)系描述業(yè)務(wù)的需求和系統(tǒng)實(shí)現(xiàn)的技術(shù)領(lǐng)域。邏輯模型的構(gòu)建在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施中最為重要,是業(yè)務(wù)需求人員和技術(shù)人員進(jìn)行溝通的橋梁和平臺(tái),能夠直接反映業(yè)務(wù)部門實(shí)際的需求和對(duì)業(yè)務(wù)的規(guī)劃,同時(shí)對(duì)下面物理模型的構(gòu)建也具有指導(dǎo)意義。邏輯模型通過(guò)實(shí)體與實(shí)體之間的關(guān)系勾勒出了整個(gè)業(yè)務(wù)部門的數(shù)據(jù)藍(lán)圖和規(guī)劃。
邏輯模型主要關(guān)注細(xì)節(jié)性的業(yè)務(wù)規(guī)則,同時(shí)也需要解決每個(gè)主題域包含的概念范疇和跨主題域的集成和共享問(wèn)題,構(gòu)建的步驟一般包括:分析需求,列出需要分析的主題,明確需求目標(biāo)、維度指標(biāo)、分析的指標(biāo)、分析的方法、數(shù)據(jù)的來(lái)源以及需要關(guān)注的對(duì)象等;選擇用戶感興趣的數(shù)據(jù),通過(guò)業(yè)務(wù)需求將需要分析的指標(biāo)分離抽取出來(lái),轉(zhuǎn)換為實(shí)體;在實(shí)體中增加時(shí)間戳屬性;考慮粒度層次的劃分,粒度決定了數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)方式、性能、靈活性以及數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量;在粒度層次劃分的基礎(chǔ)上,進(jìn)行關(guān)系模式的定義,關(guān)系模式一般采取第三范式的特點(diǎn)進(jìn)行定義;同時(shí)在邏輯模型的基礎(chǔ)上對(duì)實(shí)體的屬性、屬性的值域等信息進(jìn)行明確、完善和細(xì)化,保證真實(shí)的反映業(yè)務(wù)的邏輯關(guān)系和業(yè)務(wù)的規(guī)則。
3、邏輯模型轉(zhuǎn)換為物理模型
基于邏輯模型,接下來(lái)就是為應(yīng)用環(huán)境選擇一個(gè)合適的物理結(jié)構(gòu),包括合適的存儲(chǔ)結(jié)構(gòu)以及合適的存儲(chǔ)方法。將邏輯模型轉(zhuǎn)換為物理模型主要包括:實(shí)體名轉(zhuǎn)換為表名;屬性名轉(zhuǎn)換為列名,并且確定列的屬性;在物理模型的創(chuàng)建過(guò)程中,必須要對(duì)列的屬性進(jìn)行明確,包括列名、數(shù)據(jù)類型、是否是空值以及長(zhǎng)度等。確定物理模型之后,對(duì)于數(shù)據(jù)的存放位置和存儲(chǔ)空間的分配等也需要進(jìn)行規(guī)劃。
4、數(shù)據(jù)源接入
在數(shù)據(jù)倉(cāng)庫(kù)的建立之前,需采集底層多種數(shù)據(jù)源數(shù)據(jù),明確數(shù)據(jù)源中的數(shù)據(jù)種類,采用合適的工具。比如,F(xiàn)lume NG作為實(shí)時(shí)日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),同時(shí),對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接收方;NDC,Netease Data Canal,直譯為網(wǎng)易數(shù)據(jù)運(yùn)河系統(tǒng),可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)實(shí)時(shí)遷移;Sqoop可以將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入到平臺(tái)中;Logstash作為開源的服務(wù)端數(shù)據(jù)處理管道,也可以輕松的將日志、WEB應(yīng)用等數(shù)據(jù)采集到平臺(tái)中。
5、數(shù)據(jù)存儲(chǔ)清洗和轉(zhuǎn)換
對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,保證進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的一致性。結(jié)合業(yè)務(wù)需求,采用合適的數(shù)據(jù)清洗轉(zhuǎn)換工具。
6、對(duì)接BI,數(shù)據(jù)展示
為業(yè)務(wù)部門選擇合適的工具實(shí)現(xiàn)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行分析的目的,正確清晰的展現(xiàn)用戶的功能需求。
數(shù)據(jù)倉(cāng)庫(kù)搭建成功之后,還需對(duì)其安全性、備份恢復(fù)等方面進(jìn)行管理。
利益相關(guān):網(wǎng)易云打造的大數(shù)據(jù)平臺(tái),能夠提供更好的建設(shè)方案,歡迎免費(fèi)試用。
網(wǎng)易猛犸是一個(gè)大數(shù)據(jù)應(yīng)用開發(fā)與數(shù)據(jù)管理平臺(tái),覆蓋了數(shù)據(jù)傳輸、計(jì)算及作業(yè)流調(diào)度等多個(gè)環(huán)節(jié),日處理數(shù)據(jù)量達(dá)到 PB 級(jí)。
網(wǎng)易有數(shù)則定位于敏捷數(shù)據(jù)可視化分析平臺(tái),可便捷地嵌入企業(yè)經(jīng)營(yíng)的業(yè)務(wù)模塊,且面對(duì)不同客戶的需求提供定制化服務(wù),數(shù)據(jù)分析效率最高提升80%。
文章來(lái)源: 網(wǎng)易云社區(qū)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/25318.html
摘要:作為互聯(lián)網(wǎng)工作者,相信對(duì)這個(gè)全球最大的同性交友網(wǎng)站一定不會(huì)陌生,使用的是目前如日中天的分布式版本控制系統(tǒng)。等這個(gè)狀態(tài)變成時(shí)則說(shuō)明已經(jīng)部署完成,可以訪問(wèn)了。修改完成后,輸入命令使配置生效,然后重啟即可。 showImg(https://segmentfault.com/img/remote/1460000018991664); 作為互聯(lián)網(wǎng)工作者,相信對(duì) GitHub 這個(gè) 全球最大的同性...
摘要:我們平時(shí)鏡像都是習(xí)慣于放在公共倉(cāng)庫(kù)的,比如。但在企業(yè)里,我們經(jīng)常會(huì)需要搭建公司自己的鏡像倉(cāng)庫(kù)。這樣可以將數(shù)據(jù)持久化,當(dāng)容器掛掉時(shí)鏡像不會(huì)丟失。下面會(huì)講解如何創(chuàng)建一個(gè)協(xié)議的高可用倉(cāng)庫(kù)。于是我為集群添加了一個(gè)節(jié)點(diǎn),來(lái)做集群的鏡像倉(cāng)庫(kù)。 我們平時(shí)鏡像都是習(xí)慣于放在公共倉(cāng)庫(kù)的,比如Dockerhub, Daocloud。但在企業(yè)里,我們經(jīng)常會(huì)需要搭建公司自己的鏡像倉(cāng)庫(kù)。 這篇文章講解如何用d...
閱讀 2910·2021-09-10 10:50
閱讀 2232·2019-08-29 16:06
閱讀 3254·2019-08-29 11:02
閱讀 1144·2019-08-26 14:04
閱讀 2857·2019-08-26 13:24
閱讀 2372·2019-08-26 12:16
閱讀 605·2019-08-26 10:29
閱讀 3150·2019-08-23 18:33