免费A级毛片无码专区网站-成人国产精品视频一区二区-啊 日出水了 用力乖乖在线-国产黑色丝袜在线观看下-天天操美女夜夜操美女-日韩网站在线观看中文字幕-AV高清hd片XXX国产-亚洲av中文字字幕乱码综合-搬开女人下面使劲插视频

paddle&蜜度 文本智能較對大賽經(jīng)驗分享(17/685)

引言我之前參加了一個中文文本智能校對大賽,拿了17名,雖然沒什么獎金但好歹也是自己solo拿的第一個比較好的名次吧,期間也學到了一些BERT應(yīng)用的新視角和新的預訓練方法,感覺還挺有趣的,所以在這里記錄一下這期間學到的知識,分享一下自己的比賽過程 。這個賽題任務(wù)大概就是,選擇網(wǎng)絡(luò)文本作為輸入,從中檢測并糾正錯誤,實現(xiàn)中文文本校對系統(tǒng) 。即給定一段文本,校對系統(tǒng)從中檢測出錯誤字詞、錯誤類型,并進行糾正 。
任務(wù)定義系統(tǒng)/模型的輸入為原始序列\(zhòng)(X=(x1,x2,..,xn)\),輸出為糾錯后的序列 \(Y=(y1,y2,..,ym)\)X可能已經(jīng)是完全正確的序列,所以X可能與Y相同 。系統(tǒng)/模型需要支持多種粒度的序列,包括:字詞、短語、句子、短文 。
中文錯誤類型一般包含三種,從字詞到語義錯誤,難度依次遞增

paddle&蜜度 文本智能較對大賽經(jīng)驗分享(17/685)

文章插圖
Soft-Masked BERT (ACL2020,字節(jié)跳動)論文:Spelling Error Correction with Soft-Masked BERT
注意該模型只能處理輸入序列和輸出序列等長度的糾錯場景!
paddle&蜜度 文本智能較對大賽經(jīng)驗分享(17/685)

文章插圖
模型簡介:整個模型包括檢錯網(wǎng)絡(luò)和改錯網(wǎng)路:
  • 檢錯網(wǎng)絡(luò)是一個簡單的Bi-GRU+MLP的網(wǎng)絡(luò),輸出每個token是錯字的概率
  • 改錯網(wǎng)絡(luò)是BERT模型,創(chuàng)新點在于,BERT的輸入是原始Token的embbeding和 [MASK]的embbeding的加權(quán)平均值,權(quán)重就是檢錯網(wǎng)絡(luò)的概率,這也就是所謂的Soft-MASK,即 \(ei=pi?e_{mask}+(1?p_i)?e_i\)。極端情況下,如果檢錯網(wǎng)絡(luò)輸出的錯誤概率是1,那么BERT的輸入就是MASK的embedding,如果輸出的錯誤概率是0,那么BERT的輸入就是原始Token的embedding 。
在訓練方式上采用Multi-Task Learning的方式進行,\(L=λ·L_c+(1?λ)·L_d\),這里λ取值為0.8最佳,即更側(cè)重于改錯網(wǎng)絡(luò)(Lc means correction)的學習 。
模型結(jié)果:
paddle&蜜度 文本智能較對大賽經(jīng)驗分享(17/685)

文章插圖
該結(jié)果是句子級別的評價結(jié)果,Soft-MASK BERT在兩個數(shù)據(jù)集上均達到了新的SOTA,相比僅使用BERT在F1上有2-3%的提升 。
該模型處理錯誤的情況,主要有以下缺點,模型沒有推理能力不能處理邏輯錯誤(語義錯誤),模型缺乏世界知識不能處理知識錯誤(地名等)
用MLM-phonetics糾錯2021ACL中文文本糾錯論文:Correcting Chinese Spelling Errors with Phonetic Pre-training 論文筆記 - 知乎 (zhihu.com)
論文地址: paper
作者在論文中對比了MLM-base和MLM-phonetics的差異:
  1. MLM-base 遮蓋了15%的詞進行預測, MLM-phonetics 遮蓋了20%的詞進行預測 。
  2. MLM-base 的遮蓋策略基于以下3種:[MASK]標記替換(

      經(jīng)驗總結(jié)擴展閱讀