免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

PGL Paddle Graph Learning 關(guān)于圖計(jì)算&圖學(xué)習(xí)的基礎(chǔ)知識(shí)概覽:前置知識(shí)點(diǎn)學(xué)習(xí)

關(guān)于圖計(jì)算&圖學(xué)習(xí)的基礎(chǔ)知識(shí)概覽:前置知識(shí)點(diǎn)學(xué)習(xí)(Paddle Graph Learning (PGL))歡迎fork本項(xiàng)目原始鏈接:關(guān)于圖計(jì)算&圖學(xué)習(xí)的基礎(chǔ)知識(shí)概覽:前置知識(shí)點(diǎn)學(xué)習(xí)(Paddle Graph L)https://aistudio.baidu.com/aistudio/projectdetail/4982973?contributionType=1
因?yàn)槠P(guān)系就只放了部分程序在第三章,如有需求可自行fork項(xiàng)目原始鏈接 。
0.1圖計(jì)算基本概念首先看到百度百科定義:
圖計(jì)算(Graph Processing)是將數(shù)據(jù)按照?qǐng)D的方式建??梢垣@得以往用扁平化的視角很難得到的結(jié)果 。
圖(Graph)是用于表示對(duì)象之間關(guān)聯(lián)關(guān)系的一種抽象數(shù)據(jù)結(jié)構(gòu),使用頂點(diǎn)(Vertex)和邊(Edge)進(jìn)行描述:頂點(diǎn)表示對(duì)象,邊表示對(duì)象之間的關(guān)系 ??沙橄蟪捎脠D描述的數(shù)據(jù)即為圖數(shù)據(jù) 。圖計(jì)算,便是以圖作為數(shù)據(jù)模型來表達(dá)問題并予以解決的這一過程 。以高效解決圖計(jì)算問題為目標(biāo)的系統(tǒng)軟件稱為圖計(jì)算系統(tǒng) 。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)之間存在關(guān)聯(lián)關(guān)系 。由于圖是表達(dá)事物之間復(fù)雜關(guān)聯(lián)關(guān)系的組織結(jié)構(gòu),因此現(xiàn)實(shí)生活中的諸多應(yīng)用場(chǎng)景都需要用到圖,例如,淘寶用戶好友關(guān)系圖、道路圖、電路圖、病毒傳播網(wǎng)、國家電網(wǎng)、文獻(xiàn)網(wǎng)、社交網(wǎng)和知識(shí)圖譜 。
為了從這些數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系中獲取有用信息,大量圖算法層出不窮 。它們通過對(duì)大型圖數(shù)據(jù)的迭代處理,獲得圖數(shù)據(jù)中隱藏的重要信息 。圖計(jì)算作為下一代人工智能的核心技術(shù),已被廣泛應(yīng)用于醫(yī)療、教育、軍事、金融等多個(gè)領(lǐng)域,并備受各國政府、全球研發(fā)機(jī)構(gòu)和巨頭公司關(guān)注,目前已成為全球科技競(jìng)爭(zhēng)新的戰(zhàn)略制高點(diǎn) 。
0.1.1圖計(jì)算

  • 圖可以將各類數(shù)據(jù)關(guān)聯(lián)起來:將不同來源、不同類型的數(shù)據(jù)融合到同一個(gè)圖里進(jìn)行分析,得到原本獨(dú)立分析難以發(fā)現(xiàn)的結(jié)果;
  • 圖的表示可以讓很多問題處理地更加高效:例如最短路徑、連通分量等等,只有用圖計(jì)算的方式才能予以最高效的解決 。然而,圖計(jì)算具有一些區(qū)別于其它類型計(jì)算任務(wù)的挑戰(zhàn)與特點(diǎn):
  • 隨機(jī)訪問多:圖計(jì)算圍繞圖的拓?fù)浣Y(jié)構(gòu)展開,計(jì)算過程會(huì)訪問邊以及關(guān)聯(lián)的兩個(gè)頂點(diǎn),但由于實(shí)際圖數(shù)據(jù)的稀疏性(通常只有幾到幾百的平均度數(shù)),不可避免地產(chǎn)生了大量隨機(jī)訪問;
  • 計(jì)算不規(guī)則:實(shí)際圖數(shù)據(jù)具有冪律分布的特性,即絕大多數(shù)頂點(diǎn)的度數(shù)很小,極少部分頂點(diǎn)的度數(shù)卻很大(例如在線社交網(wǎng)絡(luò)中明星用戶的粉絲),這使得計(jì)算任務(wù)的劃分較為困難,十分容易導(dǎo)致負(fù)載不均衡 。
0.1.2圖計(jì)算系統(tǒng)隨著圖數(shù)據(jù)規(guī)模的不斷增長(zhǎng),對(duì)圖計(jì)算能力的要求越來越高,大量專門面向圖數(shù)據(jù)處理的計(jì)算系統(tǒng)便是誕生在這樣的背景下 。
Pregel由Google研發(fā)是專用圖計(jì)算系統(tǒng)的開山之作 。Pregel提出了以頂點(diǎn)為中心的編程模型,將圖分析過程分析為若干輪計(jì)算,每一輪各個(gè)頂點(diǎn)獨(dú)立地執(zhí)行各自的頂點(diǎn)程序,通過消息傳遞在頂點(diǎn)之間同步狀態(tài) 。Giraph是Pregel的一個(gè)開源實(shí)現(xiàn),F(xiàn)acebook基于Giraph使用200臺(tái)機(jī)器分析萬億邊級(jí)別的圖數(shù)據(jù),計(jì)算一輪PageRank的用時(shí)近4分鐘 。
GraphLab出自于CMU的實(shí)驗(yàn)室,基于共享內(nèi)存的機(jī)制,允許用戶使用異步的方式計(jì)算以加快某些算法的收斂速度 。PowerGraph在GraphLab基礎(chǔ)上做了優(yōu)化,針對(duì)實(shí)際圖數(shù)據(jù)中頂點(diǎn)度數(shù)的冪律分布特性,提出了頂點(diǎn)分割的思想,可以實(shí)現(xiàn)更細(xì)粒度的數(shù)據(jù)劃分,從而實(shí)現(xiàn)更好的負(fù)載均衡 。其計(jì)算模型也被用在后續(xù)的圖計(jì)算系統(tǒng)上,例如GraphX 。
盡管上述的這些圖計(jì)算系統(tǒng)相比MapReduce、Spark等在性能上已經(jīng)有了顯著的性能提升,但是它們的計(jì)算效率依然非常低下,甚至不如精心優(yōu)化的單線程程序 。
Gemini由清華大學(xué)計(jì)算機(jī)系的團(tuán)隊(duì)提出,針對(duì)已有系統(tǒng)的局限性,提出了以計(jì)算為中心的設(shè)計(jì)理念,通過降低分布式帶來的開銷并盡可能優(yōu)化本地計(jì)算部分的實(shí)現(xiàn),使得系統(tǒng)能夠在具備擴(kuò)展性的同時(shí)不失高效性 [5]。針對(duì)圖計(jì)算的各個(gè)特性,Gemini在數(shù)據(jù)壓縮存儲(chǔ)、圖劃分、任務(wù)調(diào)度、通信模式切換等方面都提出了對(duì)應(yīng)的優(yōu)化措施,比其他知名圖計(jì)算系統(tǒng)的最快性能還要快一個(gè)數(shù)量級(jí) 。ShenTu沿用并擴(kuò)展了Gemini的編程和計(jì)算模型,能夠利用神威·太湖之光整機(jī)上千萬核的計(jì)算資源,高效處理70萬億邊的超大規(guī)模圖數(shù)據(jù),入圍了2018年戈登·貝爾獎(jiǎng)的決賽名單 。

經(jīng)驗(yàn)總結(jié)擴(kuò)展閱讀