騰訊科技訊 6月23-24日,中文互聯(lián)網(wǎng)知名知識(shí)分享平臺(tái)知乎舉辦了一場(chǎng)“陰陽怪氣”主題書法展,現(xiàn)場(chǎng)不僅有陰陽怪氣粉碎機(jī)、“瓦力”實(shí)驗(yàn)室等精彩互動(dòng),知乎社區(qū)治理團(tuán)隊(duì)也首次亮相,和現(xiàn)場(chǎng)用戶、媒體朋友分享了知乎在識(shí)別陰陽怪氣類內(nèi)容上的探索。
交流會(huì)上,知乎運(yùn)營總監(jiān)孫達(dá)云、內(nèi)容質(zhì)量管理團(tuán)隊(duì)技術(shù)負(fù)責(zé)人劉兆來分別從運(yùn)營、技術(shù)角度,對(duì)知乎在構(gòu)建良性社區(qū)氛圍上所做的努力進(jìn)行了闡述。
在過去一年里,知乎不斷優(yōu)化算法機(jī)器人“瓦力”,著力挑戰(zhàn)識(shí)別陰陽怪氣這一情感分析領(lǐng)域的傳統(tǒng)難題,通過綜合使用情感模型、用戶親密度模型和文本識(shí)別模型,其識(shí)別準(zhǔn)確率得以大幅優(yōu)化,已超過大部分人工判斷。
據(jù)了解,知乎還將在近期對(duì)該技術(shù)進(jìn)行產(chǎn)品化嘗試,向用戶提供“瓦力”陰陽怪氣智能過濾選項(xiàng),同時(shí),還將對(duì)“瓦力”進(jìn)行更多訓(xùn)練,不斷提升準(zhǔn)確率和召回率,最終將陰陽怪氣識(shí)別技術(shù)全面應(yīng)用到社區(qū)治理中。
三大算法模型引領(lǐng),突圍復(fù)雜網(wǎng)絡(luò)語言分析困境
目前,知乎借助AI技術(shù),并輔以人機(jī)結(jié)合和多元的產(chǎn)品舉措,多重手段加強(qiáng)對(duì)社區(qū)氛圍的維護(hù)?,F(xiàn)階段,知乎已實(shí)現(xiàn)對(duì)95%以上的違法違規(guī)、廣告導(dǎo)流和不友善等內(nèi)容的主動(dòng)打擊、覆蓋和篩查 。
過去一年,知乎全力探索對(duì)陰陽怪氣類評(píng)論的解決方案。陰陽怪氣可用“杠精”這個(gè)詞來指代,通常以“不針對(duì)發(fā)言內(nèi)容,而是批評(píng)對(duì)方的語氣”以及“提出反對(duì)意見,但不給或給出極少數(shù)論據(jù)支持”這兩類常見言論為代表,此類評(píng)論極大了傷害創(chuàng)作者和交流者的體驗(yàn),但難以解決。
解決陰陽怪氣類評(píng)論的難點(diǎn)核心主要在于網(wǎng)絡(luò)語言的復(fù)雜性,情感分析不同于普通文本分析,例如經(jīng)典的“呵呵”,由于雙方不同關(guān)系、說話的不同場(chǎng)景和時(shí)間都會(huì)帶來迥然不同的表意。即便是人工判定都存在標(biāo)準(zhǔn)化難度,算法模型的訓(xùn)練挑戰(zhàn)就更為艱辛。
針對(duì)陰陽怪氣評(píng)論通常表達(dá)負(fù)面情感的特點(diǎn),知乎構(gòu)建了內(nèi)容情感傾向性識(shí)別的算法模型和識(shí)別用戶親密度的模型,并通過訓(xùn)練不斷迭代完善。
此外,針對(duì)陰陽怪氣評(píng)論的典型特征,知乎建立了文本識(shí)別模型不斷標(biāo)記訓(xùn)練樣本。三大模型的結(jié)合,不僅擺脫單一算法模型的局限性,也讓“瓦力”的陰陽怪氣識(shí)別準(zhǔn)確率超過了大多數(shù)人工判斷。
持續(xù)迭代技術(shù)方案 攻克情感分析前沿難題
現(xiàn)場(chǎng),劉兆來詳細(xì)介紹了“瓦力”最新的陰陽怪氣技術(shù)方案:首先通過知乎社區(qū)里的舉報(bào)、反對(duì)等負(fù)向用戶行為收集訓(xùn)練數(shù)據(jù)。然后通過各種同義替換、規(guī)則模版方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展,以緩解訓(xùn)練數(shù)據(jù)稀疏的問題。同時(shí),“瓦力”提取文本、句法、表情符等特征,并利用一個(gè)帶attention的CNN和LSTM的融合模型進(jìn)行分類,最終判斷出內(nèi)容是否為陰陽怪氣。
優(yōu)化技術(shù)方案后,“瓦力”已能實(shí)現(xiàn)對(duì)“暗藏玄機(jī)夸獎(jiǎng)”(忍不住關(guān)注答主了,你的答案很有水平!你博士快畢業(yè)了吧?。ⅰ昂脼槿藥煛保ㄎ矣X得你挺慘,雖然長這么大了,還真應(yīng)該回小學(xué)改造)、“強(qiáng)行反駁”(你開心就好、請(qǐng)開始你的表演)等數(shù)類陰陽怪氣內(nèi)容的識(shí)別。而根據(jù)知乎社區(qū)治理團(tuán)隊(duì)的調(diào)查,用戶最反感的陰陽怪氣言論大多屬于這些類型,這意味著,“瓦力”在處理網(wǎng)絡(luò)言語暴力上取得了階段性進(jìn)展。
劉兆來表示,未來將不斷優(yōu)化“瓦力”的識(shí)別能力,提高模型泛化能力,同時(shí)不斷迭代更新模型,緊跟學(xué)術(shù)前沿的同時(shí),適應(yīng)網(wǎng)絡(luò)語言的變化潮流。