自然語言處理,到底在“處理”些什么?

自然語言處理究竟擁有什么“能力”,結合具體應用場景能做哪些事兒?技術邊界在哪?
隨著自然語言處理技術的發展,計算器對文字對處理能力也達到了一個新的層次。本文中,筆者將為我們解答:自然語言處理究竟擁有什么“能力”,結合具體應用場景能做哪些事兒?技術邊界在哪?

一、詞法分析

基于大數據和用戶行為的分詞后,對詞性進行標注、命名實體識別,消除歧義 。

識別文本中具有特定意義的實體,主要包括:人名、地名、職位名、產品名詞等。

實體識別是信息提取、問答系統、句法分析、機器翻譯等應用領域的重要基礎工具,作為結構化信息提取的重要步驟。

應用場景:各大手機廠商語音助手

以分詞和詞性標注為基礎,分析語音命令中的關鍵名詞、動詞、數量、時間等,快速理解用戶命令的含義,迅速反饋提高用戶體驗。

二、文本分類

對文章按照內容類型(體育、教育、財經、社會、軍事等等)進行自動分類,為文章聚類、文本內容分析等應用提供基礎支持。

文章分類對文章內容進行深度分析,輸出文章的主題一級分類、主題二級分類,在個性化推薦、文章聚合、文本內容分析等場景具有廣泛的應用價值。

三、文本糾錯

識別文本中有錯誤的片段,進行錯誤提示并給出正確的建議文本內容,在搜索引擎、語音識別、內容審查等功能更好運行的基礎模塊之一,文本糾錯能顯著提高這些場景下的語義準確性和用戶體驗。

應用場景:寫作類平臺

在內容寫作平臺上內嵌糾錯模塊,可在作者寫作時自動檢查并提示錯別字情況。從而降低因疏忽導致的錯誤表述,有效提升作者的文章寫作質量,同時給用戶更好的閱讀體驗

四、獲取摘要

實現文本內容精簡提煉,從長篇的文章中自動提取關鍵句和關鍵段落,構成摘要內容,進而生成指定長度的新聞摘要。

應用場景:

(1)智能寫作

通過對大量的新聞文本進行語義分析和快速摘要,可以快速形成熱點匯總類、新聞聚合類、事件盤點類的新聞稿件,進行自動寫作和輔助寫作,提升新聞生產效率。

(2)語音播報

語音播報場景往往有嚴格的字數要求,新聞摘要能夠自動生成符合字數規范且表達通順的信息,在提升用戶體驗的同時,也提升了播報效率。

五、情感分析

能夠對文本信息進行“情感”上的正向、負向及中性進行評價。

情感分析一般根據不同行業語料進行標注,根據不同的模型獲得最佳的情感判斷準確率。

應用場景:

(1)評論分析與決策

通過對產品多維度評論觀點進行傾向性分析,可幫助商家進行產品分析,輔助用戶進行消費決策。

(2)評論分類

通過對評論進行情感傾向性分析,將不同用戶對同一事件或對象的評論內容按情感極性予以分類展示。

(3)輿情監控

通過對需要輿情監控的實時文字數據流進行情感傾向性分析,把握用戶對熱點信息的情感傾向性變化。

六、關鍵詞提取

對文本信息進行核心關鍵詞分析,是內容推薦算法的核心。實施手段之一是根據分詞后某個詞在文章中的出現次數越多,權重越高,但是,在每篇文章中,往往出現次數最多是“的”“是”“在”等等,這些詞稱為“停用詞”,表示對結果毫無用處,必須過濾掉的詞。

另外,在其他有實際意義的詞中,又會遇到一些問題。

比如:在《中國蜜蜂養殖》這篇文章中,“中國”“蜜蜂”“養殖”三個詞出現的次數一樣多,但很顯然,我們更想要的標簽是后面兩個詞。

應用場景:

(1)各大內容分發平臺——基于內容推薦算法

通過對文章的關鍵詞計算再結合用戶行為特征兩者之間就能進行匹配和推薦,進而實現精準內容推薦。

(2)話題聚合

根據文章計算的關鍵詞權重,聚合相同標簽的文章,便于用戶對同一話題的文章進行全方位的信息閱讀。

七、文本審核

判斷一段文本內容是否符合網絡發文規范,識別文本中是否包含違禁類型里面的關鍵字/詞,能夠實現自動化、智能化的文本審核,大幅節省內容審核的人力成本。

應用場景:

(1)用戶信息審核

對網站的注冊信息進行檢測,過濾篩查用戶提交注冊的用戶名或網名昵稱,避免通過用戶名的方式惡意推廣。

(2)用戶評論監控

對網站用戶的評論信息檢測,一旦發現用戶提交惡意垃圾內容,可以做到文本的自動審核與過濾,保證產品良好用戶體驗

(3)文章內容審核

媒體文章的文本內容審核,自動識別文章中可能存在的推廣、反動、色情信息,避免已發布文章的線上風險

八、人與人工智能

“我們把香蕉給猴子,因為它們餓了”和“我們把香蕉給猴子,因為它們熟透了”有同樣的結構。

但是代詞“它們”在第一句中指的是“猴子”;在第二句中指的是“香蕉”。

如果不了解猴子和香蕉的屬性,無法區分,這就是電腦只能處理“字符串”,而人可以解決“意義”。


動物園園長,微信公眾號:首席吹牛官,人人都是產品經理專欄作家?;ヂ摼W圈十八線作詞人,國家一級退堂鼓表演藝術家。顏良而文丑,歡迎交流。

0條評論 添加新討論

登錄后參與討論
Ctrl+Enter 發表