AI深度學習

機器視覺成就語意理解

作者: 尹相志
2018 年 01 月 29 日

舉例而言,如繁瑣的資料庫整理、閱讀查詢等等工作,都與語意分析有關係。另外,電子商務中的輿情分析,也是語意理解技術一項相當重要應用實例。儘管語言相關的應用依然是人工智慧中比較困難的一部分,然而目前在輿情分析應用中,準確率已可達到八成以上。雖距離完全正確尚有距離,但已經可以做到相當程度的應用。

與輿情分析概念相同的意圖偵測功能,同樣可以應用在線上客服機器人的開發,或是自動翻譯機制,都是人工智慧中的語意理解技術能夠發揮的應用領域。

中文編碼無法窮舉 須轉向機器學習技術編碼

語意理解的第一個步驟是為文字編碼。例如,英文屬於拼音文字,26個字母加上標點符號頂多70個編碼就能涵蓋英語的所有編碼可能。但中文的變化不如英語穩定,同樣一件事情有無限多種表述方式,因此在中文的語意理解操作上,就會相較英語困難許多。

若是將每個中文字看作單獨的存在並個別編碼,大約會有兩萬個以上的編碼數據。由於相較於英文而言,中文若是將幾個單字抽換、交換位置,人類依然可以理解,要是再加上網路流行語、同音字、中英文夾雜等等使用情境,編碼數可能將會超過四萬。

先前曾針對電子商務的評論進行分析,發現同樣是在表示「快遞速度優良」此一訊息,就有超過三千種中文表述方式。而且表述方式還能夠無限擴充,該資料量將隨著數據的增加而出現無限多種中文句型(圖1)。

圖1 針對電子商務的評論進行分析,發現同樣是在表示「快遞速度優良」此一訊息,就有超過三千種中文表述方式。
圖1 針對電子商務的評論進行分析,發現同樣是在表示「快遞速度優良」此一訊息,就有超過三千種中文表述方式。

以往,傳統語意分析方法是必須先建立一個巨型的資料庫,接著用抓關鍵字的方式比對出需要的資料,並沒有使用到深度學習技術。然而,由於語言很複雜且具彈性,因此使用窮舉法建立資料庫將會發現永遠無法列出所有可能。唯有轉向讓機器理解,以新的角度理解中文的語意理解,才能做到最具效率且準確的語意理解。

配合詞向量技術 以機器視覺技術理解語意

以往人們皆是以序列的方式去思考文字,進而理解語意。近來人們開始將技術開發方式轉移至詞向量技術。由於其能自主學習,進而找到中文字詞之間關聯的特性,故成為近來中文語言分析的最大突破。

利用詞向量的特性,把百萬個詞彙壓縮成兩百個維度,會發現語言突然變得很簡單,只要使用基本的加法、減法數學概念,便能夠解決語意之間的關聯性。舉例而言,「國王」、「皇后」、「男人」、「女人」四個字詞都能夠指向一個向量,因此,假如我們輸入「國王-男人+女人」,電腦便能計算向量之間的相似度,而得出「皇后」此一解答。詞向量的計算方式大致如圖2。

 圖2 利用詞向量的特性,基本的加法、減法數學概念便能夠解決語意之間的關聯性。
圖2 利用詞向量的特性,基本的加法、減法數學概念便能夠解決語意之間的關聯性。

也由於每個字詞都有一個向量,該向量也能被視為是一個二維的圖像。因此又進一步衍伸出一個新的技術趨勢,便是將機器視覺技術運用於語意理解之中。也就是說,以前會去偵測序列的意義,現在是去偵測該二維圖像的意義。

利用機器視覺技術處理語意理解將會有效提高運算速度。以往利用序列的方式,一次只能運算一個字詞的維度,無法平行運算。然而機器視覺能利用GPU平行運算,將比傳統運算方式更為精準且效率更好。

(本文由尹相志口述,記者程倚華整理)

》想看更多內容?快來【免費加入會員】【登入會員】,享受更多閱讀文章的權限喔!
標籤
相關文章

應用範疇大幅擴展 3D/AI助機器視覺華麗蛻變

2020 年 11 月 02 日

讓機器長智慧 AI/感測器結合將成大勢所趨

2021 年 10 月 21 日

新冠疫情加速製造業數位轉型腳步 AI視覺/手臂整合更強大

2020 年 09 月 12 日

協作機器人展現強勁爆發力 大廠積極布局次世代產品

2023 年 04 月 20 日

搶食邊緣AI商機 小語言模型有大用(2)

2024 年 05 月 30 日

GAI生成超擬真資料 瑕疵檢測模型精度大突破

2024 年 08 月 01 日
前一篇
全自動駕駛運算平台問世 NVIDIA鞏固自駕生態圈
下一篇
盛群推出8K×16 A/D MCU with EEPROM