免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

挑戰(zhàn)海量數據:基于Apache DolphinScheduler對千億級數據應用實踐

點亮 ? Star · 照亮開源之路
GitHub:https://github.com/apache/dolphinscheduler

挑戰(zhàn)海量數據:基于Apache DolphinScheduler對千億級數據應用實踐

文章插圖
精彩回顧
近期,初靈科技的大數據開發(fā)工程師鐘霈合在社區(qū)活動的線上 Meetup 上中,給大家分享了《基于 Apache DolphinScheduler 對千億級數據的應用實踐》主題演講 。
我們對于千億級數據量的數據同步需求,進行分析和選型后,初靈科技最終決定使用DolphinScheduler進行任務調度,同時需要周期性調度 DataX、SparkSQL 等方式進行海量數據遷移 。在日常大數據工作中,利用DolphinScheduler減少日常運維工作量 。
講師介紹
挑戰(zhàn)海量數據:基于Apache DolphinScheduler對千億級數據應用實踐

文章插圖
?
鐘霈合
初靈科技 大數據開發(fā)工程師
演講大綱:
  1. 背景介紹
  2. 海量數據處理
  3. 應用場景
  4. 未來的規(guī)劃
背景介紹01 自研任務調度我們公司前期一直是用的自研的任務調度框架,隨著這個調度領域開源軟件的發(fā)展,涌現了很多像海豚調度這樣非常優(yōu)秀的任務調度系統(tǒng),而我們的需求已經到了必須要引入新的任務調度系統(tǒng)程度,來保證技術的更新迭代 。
02 需求分析1、支持多租戶的權限控制
我們在日常工作中不止研發(fā)會進行任務的調度,其他的業(yè)務部門和廠商都可能會在DS上跑一些任務,如果沒有多租戶的權限控制的話,那整個集群使用起來都會非常的混亂 。
2、上手簡單,支持可視化任務管理
上手簡單,因為我們團隊內部在很多時候,開發(fā)會給到數倉/業(yè)務團隊去使用,如果任務調度上手非常困難,如果需要進行大量的配置或者編寫代碼,相對成本就要高很多,相信在很多大數據團隊都會存在這個需求,并且有些項目需要快速迭代,所以對于選型的工具必然是上手簡單的 。
3、支持對任務及節(jié)點狀態(tài)進行監(jiān)控
我們對任務調度原生監(jiān)控主要有兩點需求,第一是服務器的監(jiān)控,可以直接通過任務調度web頁面去看,第二是任務調度的監(jiān)控,針對任務是否成功、執(zhí)行時間等相關數據和狀態(tài)能夠一目了然 。
4、支持較為方便的重跑、補數
我們數據有實時、周期和離線三部分的,數據特性產生了這個需求,比如對于每15分鐘或者每小時的數據任務,如果不能很好的支持重跑和補數的話,對我們影響還是比較大的 。
5、支持高可用HA、彈性擴容、故障容錯
集群運維和故障管理方面也是需要支持的 。
6、支持時間參數
有時候需要基于時間參數進行數據的ETL周期操作 。
03 任務調度對比
挑戰(zhàn)海量數據:基于Apache DolphinScheduler對千億級數據應用實踐

文章插圖
?
Crontab
在Unix和類Unix系統(tǒng)中周期性地執(zhí)行指令或腳本,用來在Linux上直接執(zhí)行腳本,但只能用來運行腳本 。
不支持多租戶權限管理、平臺管理、分發(fā)執(zhí)行等功能,在我們公司中的應用是在一些特點服務器跑一些臨時的腳本 。
并且原生Crontab只支持分鐘級別的調度,不支持重跑 。
Rundeck
Rundeck是一個基于Java和Grails的開源的運維自動化工具,提供了Web管理界面進行操作,同時提供命令行工具和WebAPI的訪問控制方式 。
像Ansible之類的工具一樣,Rundeck能夠幫助開發(fā)和運維人員更好地管理各個節(jié)點 。
分為企業(yè)版和免費版,免費版對于我們來說功能還是有點欠缺的 。
Quartz
Quartz 是一款開源且豐富特性的任務調度庫,是基于Java實現的任務調度框架,能夠集成與任何的java應用 。
需要使用Java編程語言編寫任務調度,這對于非研發(fā)團隊而言,是無法去推廣使用的 。

經驗總結擴展閱讀