登陆 | 订阅服务 | 广告服务 | 电子报 繁体 | 简体

 
 

   
 



香港商報

中大研發檢測系統 糾錯別字修正粵語
2017年 06月 12日 01:27    香港商报
 

    中大研發檢測系統 糾錯別字修正粵語

    【香港商報訊】記者葉佩瑜報道:隨着各種潮語及表情符號的出現,不少學生習慣使用網絡語言,大大影響中文寫作能力。有大學成功研究出「錯字和粵語檢測系統」(下稱ACT),只需幾秒即可完成分析一篇幾百字的文章,找出錯字及粵語,提供修正建議,準確率高達八成。研究團隊希望將ACT推廣至教育界,特別在考試方面提升學生的語言能力。

    檢測千字文章只需數秒

    中文大學系統工程與工程管理學系教授黃錦輝表示,其研究團隊從2014年起獲創科院邀請研發ACT系統,以針對學生慣用網絡語言,導致中文寫作能力下降的問題,ACT內有20GB的中文文章資料及6萬多個中文字的混淆集,經過教師的修改、機械學習及數據分析等提升,目前ACT準確率高達八成,只要幾秒時間即可完成分析一篇幾百到一千字的文章,標示出大部分錯別字,并提供錯別字與粵語口語的修正建議。

    提供粵語字句修正供選擇

    ACT主要分為錯字檢測與粵語檢測兩部分,可檢測常見錯字、粵語字底近似字型,如:「他很喜歡吃媽媽做的『梁』瓜『抄』蛋飯」、「『距』很『鍾意』吃媽媽做的涼瓜炒蛋飯」,并建議修正為「他很喜歡吃媽媽做的涼瓜炒蛋飯」,亦可檢測粵語用法如:「我『走先』然后去打球」、量詞如:「我家養了一『尾』狗」以及倒裝詞,包括:緊要與要緊、質素與素質等,讓用戶自行決定是否修正。

    中大系統工程及工程管理學系研究員馮沛璋表示,ACT會先運用錯字檢測模組為句子進行分詞及詞性標註,以分析出句子中不能與前文后理組成通順句子的字,雖然其他研究機構亦有以此邏輯進行相似研究,但由於目前演算法的限制,容易將常用單字如「的」、「地」等誤判為錯字,而ACT則較為準確,由於語言會隨時間及地區演變,難以制定一套永久及四海通用的用法,故ACT會透過人工智能與深度學習等,不斷自我改進。

    黃錦輝透露,希望可在本年內將ACT轉化為辦公室軟件的插件,長遠而言將ACT產品化,推廣至教育界,以輔助教師及學生。他又指,ACT的成功是創科上游與中下游結合的例子,從另一方向看,可是鼓勵學生創業的一種方法。 

 
(來源: 香港商报) 編輯: 肖静文