<pre id="4gios"><button id="4gios"></button></pre>
    <kbd id="4gios"><wbr id="4gios"></wbr></kbd>
    
    
    • <samp id="4gios"></samp>
      <samp id="4gios"><th id="4gios"></th></samp>
    • 從經(jīng)驗(yàn)角度描述:在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點(diǎn)

      時間:2023-08-30 點(diǎn)擊:182次
      前言
      大數(shù)據(jù)時 代,作為數(shù)據(jù)的掌握者,我們不僅要更好地使用數(shù)據(jù),也要更好地管理數(shù)據(jù)。而數(shù)據(jù)倉庫正是這樣一套管理和組織數(shù)據(jù)的解決方案。
      本文試圖從一種經(jīng)驗(yàn)的角度來描述在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點(diǎn),希望以此幫助踏上數(shù)據(jù)倉庫之路的小伙伴們。
      注意:本文不會詳細(xì)地解釋數(shù)據(jù)倉庫的各個概念,亦不會給出各種示例代碼來闡述數(shù)據(jù)倉庫的建設(shè)細(xì)節(jié)。

      請理解數(shù)據(jù)倉庫和數(shù)據(jù)平臺的區(qū)別
      當(dāng)你開始建設(shè)數(shù)據(jù)倉庫之前,需要明白數(shù)據(jù)倉庫和數(shù)據(jù)平臺是兩個不同的概念,不要把搭建一套 hadoop + hive 的平臺叫數(shù)據(jù)倉庫,這是數(shù)據(jù)平臺的范疇。
      我們常說的數(shù)據(jù)倉庫不僅僅是指數(shù)據(jù)接入、數(shù)據(jù)存儲和數(shù)據(jù)計(jì)算,它也要包括數(shù)據(jù)治理、數(shù)據(jù)建模和數(shù)據(jù)挖掘。比如元數(shù)據(jù)管理、維度建模和 olap 分析,這些都是我們在建設(shè)數(shù)據(jù)倉庫時候要考慮的內(nèi)容。

      提前規(guī)劃你的數(shù)據(jù)倉庫
      數(shù)據(jù)倉庫是公司數(shù)據(jù)體系的核心模塊,數(shù)據(jù)倉庫可以做的不好,但是不能不做。
      因此,在數(shù)據(jù)體系設(shè)計(jì)的前期最好要有一定的規(guī)劃,即使最簡單的表和字段命名的規(guī)范也能帶來很大的收益。
      另外,從數(shù)據(jù)開發(fā)的角度出發(fā),在做各種臨時數(shù)據(jù)處理需求的時候也要有數(shù)據(jù)倉庫的思維,多嘗試抽象出來數(shù)據(jù)中間層,這樣對公司和對自己的成長都是有幫助的。

      實(shí)現(xiàn)輕量級的數(shù)據(jù)倉庫
      如果業(yè)務(wù)的快速發(fā)展不能留給你太多的時間來實(shí)現(xiàn)一個完善的數(shù)據(jù)倉庫,那么可以考慮在前期實(shí)現(xiàn)一個輕量級的數(shù)據(jù)倉庫,以盡可能小的成本帶來最大收益。關(guān)于這個輕量級的數(shù)據(jù)倉庫,建議優(yōu)先考慮如下幾個點(diǎn):
      1.明確數(shù)據(jù)分層
      2.確定可執(zhí)行的表和字段命名規(guī)范
      3.定期抽象出常用的中間表
      4.建設(shè)元數(shù)據(jù)管理系統(tǒng),或者建設(shè)文檔庫,提供中間表的文檔說明

      不要脫離業(yè)務(wù)場景
      做數(shù)據(jù)一定要記得貼近業(yè)務(wù),雖說會有很多臨時和重復(fù)需求,但卻能切實(shí)地創(chuàng)造價值。
      切記不要以為可以完全脫離業(yè)務(wù)去做一套數(shù)據(jù)倉庫,我們可以在數(shù)據(jù)倉庫的某個層次不以業(yè)務(wù)需求為導(dǎo)向來設(shè)計(jì),但是最終面向業(yè)務(wù)的數(shù)據(jù)一定會是和業(yè)務(wù)理解有關(guān)。

      文檔!文檔!
      數(shù)據(jù)倉庫建設(shè)的初期,要逐步沉淀出各種文檔,比如模型設(shè)計(jì)文檔、字段命名規(guī)范文檔、sql 開發(fā)規(guī)范文檔。文檔是數(shù)據(jù)倉庫沉淀的最直觀的一種體現(xiàn),這也是技術(shù)積累的一部分。
      最重要的是,如果元數(shù)據(jù)系統(tǒng)沒有成型,那就要把數(shù)據(jù)倉庫中間表的內(nèi)容沉淀到文檔中,盡量做到一表一文檔。這樣不管是從節(jié)約溝通成本的角度,亦或是增加團(tuán)隊(duì)積累,更或是完成 kpi 的角度考慮,都是有很大益處的。

      盡早布局?jǐn)?shù)據(jù)質(zhì)量管理
      請盡早布局?jǐn)?shù)據(jù)質(zhì)量管理的內(nèi)容,不要等到發(fā)生嚴(yán)重的數(shù)據(jù)事故后才注意到數(shù)據(jù)質(zhì)量問題。關(guān)于數(shù)據(jù)質(zhì)量監(jiān)控,如果沒有足夠的時間和精力做一套完整的系統(tǒng),可以先從以下幾個點(diǎn)入手,這樣至少能對自己有一層基本的保護(hù):
      1.核心數(shù)據(jù)每日數(shù)據(jù)量級監(jiān)控和告警
      2.重要業(yè)務(wù)指標(biāo)監(jiān)控和告警
      3.主要業(yè)務(wù)流程各階段數(shù)據(jù)的監(jiān)控和告警

      多使用視圖表
      多使用視圖表對外提供數(shù)據(jù)服務(wù),它可以有效地屏蔽業(yè)務(wù)方對最底層表結(jié)構(gòu)變更的感知,同時加強(qiáng)權(quán)限管理。
      如下場景可以多考慮使用視圖表:
      1.該表經(jīng)常會有加字段的需求
      2.該表的計(jì)算口徑會出現(xiàn)變化,需要并行跑多份數(shù)據(jù),某個時間點(diǎn)進(jìn)行表切換
      3.該表可能會對不同人或部門提供服務(wù),希望不同人或部門可讀的字段不同
      視圖表主要是來晚上表結(jié)構(gòu)變更、口徑修改和權(quán)限管理的場景,不要濫用而增加維護(hù)成本。

      考慮你的職業(yè)發(fā)展
      不要一直埋著頭搞 etl,可以搞半年或一年來了解大致的業(yè)務(wù)和技能,但不能長期這樣發(fā)展。現(xiàn)在開源平臺相對成熟,長時間搞 etl,會弱化自己的技術(shù)深度,如果再沒有數(shù)據(jù)挖掘相關(guān)的項(xiàng)目經(jīng)驗(yàn),很容易在以后得面試中被淘汰。
      因此,建議各位數(shù)據(jù)開發(fā)的小伙伴,如果你近一年的工作主要都是在用 sql 做 etl,那就要有一點(diǎn)危機(jī)意識,經(jīng)常反思一下自己是否有成長,核心競爭力是否有所提現(xiàn)。
      如果有些心虛,可以考慮在數(shù)據(jù)倉庫、數(shù)據(jù)挖掘或者核心平臺開發(fā)上下一些功夫。
      青春久久| 精品国产福利久久久| 精品国产一区二区三区久久蜜臀| 大蕉久久伊人中文字幕| 久久久久精品国产亚洲AV无码| 久久香蕉超碰97国产精品| 嫩草影院久久99| 久久久久波多野结衣高潮| 日本一区精品久久久久影院| 热久久视久久精品18| 成人资源影音先锋久久资源网| 久久综合九色综合欧美就去吻| 久久精品蜜芽亚洲国产AV| 香蕉99久久国产综合精品宅男自 | 狠狠色综合久久久久尤物| 久久久久久伊人高潮影院| 国产69精品久久久久99| 老色鬼久久亚洲AV综合| 欧美色综合久久久久久| 国产成人精品免费久久久久| 久久中文字幕人妻熟av女| 久久久久18| 国产精品免费久久久久影院 | 久久精品国产亚洲AV蜜臀色欲| 国产精品狼人久久久久影院| 久久青青草原综合伊人| 99久久99久久| 国产99精品久久| 国产午夜精品久久久久免费视| 东方aⅴ免费观看久久av| 日韩va亚洲va欧美va久久| 狠狠色综合久久久久尤物| 国产三级观看久久| 久久精品亚洲精品国产欧美| 99久久国产综合精品网成人影院| 国产成人精品白浆久久69| 精品一区二区久久| 国产精品狼人久久久久影院| 久久精品人妻一区二区三区| 一级女性全黄久久生活片免费 | 热99RE久久精品这里都是精品免费 |