成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

最全知識(shí)圖譜綜述#1: 概念以及構(gòu)建技術(shù)

wujl596 / 932人閱讀

摘要:本質(zhì)上知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。圖知識(shí)圖譜示例知識(shí)圖譜的架構(gòu)知識(shí)圖譜的架構(gòu)包括自身的邏輯結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)體系架構(gòu)。

引言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì)。由于互聯(lián)網(wǎng)內(nèi)容的大規(guī)模、異質(zhì)多元、組織結(jié)構(gòu)松散的特點(diǎn),給人們有效獲取信息和知識(shí)提出了挑戰(zhàn)。知識(shí)圖譜(Knowledge Graph) 以其強(qiáng)大的語(yǔ)義處理能力和開(kāi)放組織能力,為互聯(lián)網(wǎng)時(shí)代的知識(shí)化組織和智能應(yīng)用奠定了基礎(chǔ)。最近,大規(guī)模知識(shí)圖譜庫(kù)的研究和應(yīng)用在學(xué)術(shù)界和工業(yè)界引起了足夠的注意力[1-5]。一個(gè)知識(shí)圖譜旨在描述現(xiàn)實(shí)世界中存在的實(shí)體以及實(shí)體之間的關(guān)系。知識(shí)圖譜于2012年5月17日由[Google]正式提出[6],其初衷是為了提高搜索引擎的能力,改善用戶的搜索質(zhì)量以及搜索體驗(yàn)。隨著人工智能的技術(shù)發(fā)展和應(yīng)用,知識(shí)圖譜作為關(guān)鍵技術(shù)之一,已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦、內(nèi)容分發(fā)等領(lǐng)域。

知識(shí)圖譜的定義

在維基百科的官方詞條中:知識(shí)圖譜是Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫(kù)。本質(zhì)上, 知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。現(xiàn)在的知識(shí)圖譜已被用來(lái)泛指各種大規(guī)模的知識(shí)庫(kù)。 在具體介紹知識(shí)圖譜的定義,我們先來(lái)看下知識(shí)類型的定義:

知識(shí)圖譜中包含三種節(jié)點(diǎn):

實(shí)體: 指的是具有可區(qū)別性且獨(dú)立存在的某種事物。如某一個(gè)人、某一個(gè)城市、某一種植物等、某一種商品等等。世界萬(wàn)物有具體事物組成,此指實(shí)體。如圖1的“中國(guó)”、“美國(guó)”、“日本”等。,實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。

語(yǔ)義類(概念):具有同種特性的實(shí)體構(gòu)成的集合,如國(guó)家、民族、書(shū)籍、電腦等。 概念主要指集合、類別、對(duì)象類型、事物的種類,例如人物、地理等。

內(nèi)容: 通常作為實(shí)體和語(yǔ)義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來(lái)表達(dá)。

屬性(值): 從一個(gè)實(shí)體指向它的屬性值。不同的屬性類型對(duì)應(yīng)于不同類型屬性的邊。屬性值主要指對(duì)象指定屬性的值。如圖1所示的“面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對(duì)象指定屬性的值,例如960萬(wàn)平方公里等。

關(guān)系: 形式化為一個(gè)函數(shù),它把kk個(gè)點(diǎn)映射到一個(gè)布爾值。在知識(shí)圖譜上,關(guān)系則是一個(gè)把kk個(gè)圖節(jié)點(diǎn)(實(shí)體、語(yǔ)義類、屬性值)映射到布爾值的函數(shù)。

圖1 知識(shí)圖譜示例

知識(shí)圖譜的架構(gòu)

知識(shí)圖譜的架構(gòu)包括自身的邏輯結(jié)構(gòu)以及構(gòu)建知識(shí)圖譜所采用的技術(shù)(體系)架構(gòu)。

1) 知識(shí)圖譜的邏輯結(jié)構(gòu)

知識(shí)圖譜在邏輯上可分為模式層與數(shù)據(jù)層兩個(gè)層次,數(shù)據(jù)層主要是由一系列的事實(shí)組成,而知識(shí)將以事實(shí)為單位進(jìn)行存儲(chǔ)。如果用(實(shí)體1,關(guān)系,實(shí)體2)、(實(shí)體、屬性,屬性值)這樣的三元組來(lái)表達(dá)事實(shí),可選擇圖數(shù)據(jù)庫(kù)作為存儲(chǔ)介質(zhì),例如開(kāi)源的Neo4j[7]、Twitter的FlockDB[8]、sones的GraphDB[9]等。模式層構(gòu)建在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,通常采用本體庫(kù)來(lái)管理知識(shí)圖譜的模式層。本體是結(jié)構(gòu)化知識(shí)庫(kù)的概念模板,通過(guò)本體庫(kù)而形成的知識(shí)庫(kù)不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小。

2) 知識(shí)圖譜的體系架構(gòu)

圖2 知識(shí)圖譜的技術(shù)架構(gòu)

知識(shí)圖譜的體系架構(gòu)是其指構(gòu)建模式結(jié)構(gòu),如圖2所示。其中虛線框內(nèi)的部分為知識(shí)圖譜的構(gòu)建過(guò)程,也包含知識(shí)圖譜的更新過(guò)程。知識(shí)圖譜構(gòu)建從最原始的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù))出發(fā),采用一系列自動(dòng)或者半自動(dòng)的技術(shù)手段,從原始數(shù)據(jù)庫(kù)和第三方數(shù)據(jù)庫(kù)中提取知識(shí)事實(shí),并將其存入知識(shí)庫(kù)的數(shù)據(jù)層和模式層,這一過(guò)程包含:信息抽取、知識(shí)表示、知識(shí)融合、知識(shí)推理四個(gè)過(guò)程,每一次更新迭代均包含這四個(gè)階段。知識(shí)圖譜主要有自頂向下(top-down)與自底向上(bottom-up)兩種構(gòu)建方式。自頂向下指的是先為知識(shí)圖譜定義好本體與數(shù)據(jù)模式,再將實(shí)體加入到知識(shí)庫(kù)。該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識(shí)庫(kù)作為其基礎(chǔ)知識(shí)庫(kù),例如Freebase項(xiàng)目就是采用這種方式,它的絕大部分?jǐn)?shù)據(jù)是從維基百科中得到的。自底向上指的是從一些開(kāi)放鏈接數(shù)據(jù)中提取出實(shí)體,選擇其中置信度較高的加入到知識(shí)庫(kù),再構(gòu)建頂層的本體模式[10]。目前,大多數(shù)知識(shí)圖譜都采用自底向上的方式進(jìn)行構(gòu)建,其中最典型就是Google的Knowledge Vault[11]和微軟的Satori知識(shí)庫(kù)?,F(xiàn)在也符合互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容知識(shí)產(chǎn)生的特點(diǎn)。

代表性知識(shí)圖譜庫(kù)

根據(jù)覆蓋范圍而言,知識(shí)圖譜也可分為開(kāi)放域通用知識(shí)圖譜和垂直行業(yè)知識(shí)圖譜[12]。開(kāi)放通用知識(shí)圖譜注重廣度,強(qiáng)調(diào)融合更多的實(shí)體,較垂直行業(yè)知識(shí)圖譜而言,其準(zhǔn)確度不夠高,并且受概念范圍的影響,很難借助本體庫(kù)對(duì)公理、規(guī)則以及約束條件的支持能力規(guī)范其實(shí)體、屬性、實(shí)體間的關(guān)系等。通用知識(shí)圖譜主要應(yīng)用于智能搜索等領(lǐng)域。行業(yè)知識(shí)圖譜通常需要依靠特定行業(yè)的數(shù)據(jù)來(lái)構(gòu)建,具有特定的行業(yè)意義。行業(yè)知識(shí)圖譜中,實(shí)體的屬性與數(shù)據(jù)模式往往比較豐富,需要考慮到不同的業(yè)務(wù)場(chǎng)景與使用人員。下圖展示了現(xiàn)在知名度較高的大規(guī)模知識(shí)庫(kù)。

圖3 ?代表性知識(shí)圖譜庫(kù)概覽

知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)

大規(guī)模知識(shí)庫(kù)的構(gòu)建與應(yīng)用需要多種技術(shù)的支持。通過(guò)知識(shí)提取技術(shù),可以從一些公開(kāi)的半結(jié)構(gòu)化、非結(jié)構(gòu)化和第三方結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)要素。知識(shí)表示則通過(guò)一定有效手段對(duì)知識(shí)要素表示,便于進(jìn)一步處理使用。然后通過(guò)知識(shí)融合,可消除實(shí)體、關(guān)系、屬性等指稱項(xiàng)與事實(shí)對(duì)象之間的歧義,形成高質(zhì)量的知識(shí)庫(kù)。知識(shí)推理則是在已有的知識(shí)庫(kù)基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫(kù)。分布式的知識(shí)表示形成的綜合向量對(duì)知識(shí)庫(kù)的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義。接下來(lái),本文將以知識(shí)抽取、知識(shí)表示、知識(shí)融合以及知識(shí)推理技術(shù)為重點(diǎn),選取代表性的方法,說(shuō)明其中的相關(guān)研究進(jìn)展和實(shí)用技術(shù)手段 。

1 知識(shí)提取

知識(shí)抽取主要是面向開(kāi)放的鏈接數(shù)據(jù),通常典型的輸入是自然語(yǔ)言文本或者多媒體內(nèi)容文檔(圖像或者視頻)等。然后通過(guò)自動(dòng)化或者半自動(dòng)化的技術(shù)抽取出可用的知識(shí)單元,知識(shí)單元主要包括實(shí)體(概念的外延)、關(guān)系以及屬性3個(gè)知識(shí)要素,并以此為基礎(chǔ),形成一系列高質(zhì)量的事實(shí)表達(dá),為上層模式層的構(gòu)建奠定基礎(chǔ)。

1.1 實(shí)體抽取

實(shí)體抽取也稱為命名實(shí)體學(xué)習(xí)(named entity learning) 或命名實(shí)體識(shí)別 (named entity recognition),指的是從原始數(shù)據(jù)語(yǔ)料中自動(dòng)識(shí)別出命名實(shí)體。由于實(shí)體是知識(shí)圖譜中的最基本元素,其抽取的完整性、準(zhǔn)確率、召回率等將直接影響到知識(shí)圖譜構(gòu)建的質(zhì)量。因此,實(shí)體抽取是知識(shí)抽取中更為基礎(chǔ)與關(guān)鍵的一步。參照文獻(xiàn)[13],我們可以將實(shí)體抽取的方法分為4種:基于百科站點(diǎn)或垂直站點(diǎn)提取、基于規(guī)則與詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及面向開(kāi)放域的抽取方法?;诎倏普军c(diǎn)或垂直站點(diǎn)提取則是一種很常規(guī)基本的提取方法;基于規(guī)則的方法通常需要為目標(biāo)實(shí)體編寫(xiě)模板,然后在原始語(yǔ)料中進(jìn)行匹配;基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法主要是通過(guò)機(jī)器學(xué)習(xí)的方法對(duì)原始語(yǔ)料進(jìn)行訓(xùn)練,然后再利用訓(xùn)練好的模型去識(shí)別實(shí)體;面向開(kāi)放域的抽取將是面向海量的Web語(yǔ)料[14]。

1) 基于百科或垂直站點(diǎn)提取

基于百科站點(diǎn)或垂直站點(diǎn)提取這種方法是從百科類站點(diǎn)(如維基百科、百度百科、互動(dòng)百科等)的標(biāo)題和鏈接中提取實(shí)體名。這種方法的優(yōu)點(diǎn)是可以得到開(kāi)放互聯(lián)網(wǎng)中最常見(jiàn)的實(shí)體名,其缺點(diǎn)是對(duì)于中低頻的覆蓋率低。與一般性通用的網(wǎng)站相比,垂直類站點(diǎn)的實(shí)體提取可以獲取特定領(lǐng)域的實(shí)體。例如從豆瓣各頻道(音樂(lè)、讀書(shū)、電影等)獲取各種實(shí)體列表。這種方法主要是基于爬取技術(shù)來(lái)實(shí)現(xiàn)和獲取。基于百科類站點(diǎn)或垂直站點(diǎn)是一種最常規(guī)和基本的方法。

2) 基于規(guī)則與詞典的實(shí)體提取方法

早期的實(shí)體抽取是在限定文本領(lǐng)域、限定語(yǔ)義單元類型的條件下進(jìn)行的,主要采用的是基于規(guī)則與詞典的方法,例如使用已定義的規(guī)則,抽取出文本中的人名、地名、組織機(jī)構(gòu)名、特定時(shí)間等實(shí)體[15]。文獻(xiàn)[16]首次實(shí)現(xiàn)了一套能夠抽取公司名稱的實(shí)體抽取系統(tǒng),其中主要用到了啟發(fā)式算法與規(guī)則模板相結(jié)合的方法。然而,基于規(guī)則模板的方法不僅需要依靠大量的專家來(lái)編寫(xiě)規(guī)則或模板,覆蓋的領(lǐng)域范圍有限,而且很難適應(yīng)數(shù)據(jù)變化的新需求。

3) 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的實(shí)體抽取方法

鑒于基于規(guī)則與詞典實(shí)體的局限性,為具更有可擴(kuò)展性,相關(guān)研究人員將機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)算法用于命名實(shí)體的抽取問(wèn)題上。例如文獻(xiàn)[17]利用KNN算法與條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)了對(duì)Twitter文本數(shù)據(jù)中實(shí)體的識(shí)別。單純的監(jiān)督學(xué)習(xí)算法在性能上不僅受到訓(xùn)練集合的限制,并且算法的準(zhǔn)確率與召回率都不夠理想。相關(guān)研究者認(rèn)識(shí)到監(jiān)督學(xué)習(xí)算法的制約性后,嘗試將監(jiān)督學(xué)習(xí)算法與規(guī)則相互結(jié)合,取得了一定的成果。例如文獻(xiàn)[18]基于字典,使用較大熵算法在Medline論文摘要的GENIA數(shù)據(jù)集上進(jìn)行了實(shí)體抽取實(shí)驗(yàn),實(shí)驗(yàn)的準(zhǔn)確率與召回率都在70%以上。近年來(lái)隨著深度學(xué)習(xí)的興起應(yīng)用,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別得到廣泛應(yīng)用。在文獻(xiàn)[19],介紹了一種基于雙向LSTM深度神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)的識(shí)別方法,在測(cè)試數(shù)據(jù)上取得的較好的表現(xiàn)結(jié)果。

圖4 ?基于BI-LSTM和CRF的架構(gòu)

4) 面向開(kāi)放域的實(shí)體抽取方法

針對(duì)如何從少量實(shí)體實(shí)例中自動(dòng)發(fā)現(xiàn)具有區(qū)分力的模式,進(jìn)而擴(kuò)展到海量文本去給實(shí)體做分類與聚類的問(wèn)題,文獻(xiàn)[20]提出了一種通過(guò)迭代方式擴(kuò)展實(shí)體語(yǔ)料庫(kù)的解決方案,其基本思想是通過(guò)少量的實(shí)體實(shí)例建立特征模型,再通過(guò)該模型應(yīng)用于新的數(shù)據(jù)集得到新的命名實(shí)體。文獻(xiàn)[21]提出了一種基于無(wú)監(jiān)督學(xué)習(xí)的開(kāi)放域聚類算法,其基本思想是基于已知實(shí)體的語(yǔ)義特征去搜索日志中識(shí)別出命名的實(shí)體,然后進(jìn)行聚類。

1.2 語(yǔ)義類抽取

語(yǔ)義類抽取是指從文本中自動(dòng)抽取信息來(lái)構(gòu)造語(yǔ)義類并建立實(shí)體和語(yǔ)義類的關(guān)聯(lián), 作為實(shí)體層面上的規(guī)整和抽象。以下介紹一種行之有效的語(yǔ)義類抽取方法,包含三個(gè)模塊:并列度相似計(jì)算、上下位關(guān)系提取以及語(yǔ)義類生成 [22]。

1) 并列相似度計(jì)算

?并列相似度計(jì)算其結(jié)果是詞和詞之間的相似性信息,例如三元組(蘋(píng)果,梨,s1)表示蘋(píng)果和梨的相似度是s1。兩個(gè)詞有較高的并列相似度的條件是它們具有并列關(guān)系(即同屬于一個(gè)語(yǔ)義類),并且有較大的關(guān)聯(lián)度。按照這樣的標(biāo)準(zhǔn),北京和上海具有較高的并列相似度,而北京和汽車(chē)的并列相似度很低(因?yàn)樗鼈儾粚儆谕粋€(gè)語(yǔ)義類)。對(duì)于海淀、朝陽(yáng)、閔行三個(gè)市轄區(qū)來(lái)說(shuō),海淀和朝陽(yáng)的并列相似度大于海淀和閔行的并列相似度(因?yàn)榍皟烧叩年P(guān)聯(lián)度更高)。?

當(dāng)前主流的并列相似度計(jì)算方法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度方法[23-24]基于哈里斯(Harris)的分布假設(shè)(distributional hypothesis)[25],即經(jīng)常出現(xiàn)在類似的上下文環(huán)境中的兩個(gè)詞具有語(yǔ)義上的相似性。分布相似度方法的實(shí)現(xiàn)分三個(gè)步驟:第一步,定義上下文;第二步,把每個(gè)詞表示成一個(gè)特征向量,向量每一維代表一個(gè)不同的上下文,向量的值表示本詞相對(duì)于上下文的權(quán)重;第三步,計(jì)算兩個(gè)特征向量之間的相似度,將其作為它們所代表的詞之間的相似度。 模式匹配法的基本思路是把一些模式作用于源數(shù)據(jù),得到一些詞和詞之間共同出現(xiàn)的信息,然后把這些信息聚集起來(lái)生成單詞之間的相似度。模式可以是手工定義的,也可以是根據(jù)一些種子數(shù)據(jù)而自動(dòng)生成的。分布相似度法和模式匹配法都可以用來(lái)在數(shù)以百億計(jì)的句子中或者數(shù)以十億計(jì)的網(wǎng)頁(yè)中抽取詞的相似性信息。有關(guān)分布相似度法和模式匹配法所生成的相似度信息的質(zhì)量比較參見(jiàn)文獻(xiàn)。

2) 上下位關(guān)系提取

該該模塊從文檔中抽取詞的上下位關(guān)系信息,生成(下義詞,上義詞)數(shù)據(jù)對(duì),例如(狗,動(dòng)物)、(悉尼,城市)。提取上下位關(guān)系最簡(jiǎn)單的方法是解析百科類站點(diǎn)的分類信息(如維基百科的“分類”和百度百科的“開(kāi)放分類”)。這種方法的主要缺點(diǎn)包括:并不是所有的分類詞條都代表上位詞,例如百度百科中“狗”的開(kāi)放分類“養(yǎng)殖”就不是其上位詞;生成的關(guān)系圖中沒(méi)有權(quán)重信息,因此不能區(qū)分同一個(gè)實(shí)體所對(duì)應(yīng)的不同上位詞的重要性;覆蓋率偏低,即很多上下位關(guān)系并沒(méi)有包含在百科站點(diǎn)的分類信息中。?

在英文數(shù)據(jù)上用Hearst 模式和IsA 模式進(jìn)行模式匹配被認(rèn)為是比較有效的上下位關(guān)系抽取方法。下面是這些模式的中文版本(其中NPC 表示上位詞,NP 表示下位詞):?

NPC { 包括| 包含| 有} {NP、}* [ 等| 等等]?

NPC { 如| 比如| 像| 象} {NP、}*?

{NP、}* [{ 以及| 和| 與} NP] 等 NPC?

{NP、}* { 以及| 和| 與} { 其它| 其他} NPC?

NP 是 { 一個(gè)| 一種| 一類} NPC?

此外,一些網(wǎng)頁(yè)表格中包含有上下位關(guān)系信息,例如在帶有表頭的表格中,表頭行的文本是其它行的上位詞。

3) 語(yǔ)義類生成

該模塊包括聚類和語(yǔ)義類標(biāo)定兩個(gè)子模塊。聚類的結(jié)果決定了要生成哪些語(yǔ)義類以及每個(gè)語(yǔ)義類包含哪些實(shí)體,而語(yǔ)義類標(biāo)定的任務(wù)是給一個(gè)語(yǔ)義類附加一個(gè)或者多個(gè)上位詞作為其成員的公共上位詞。此模塊依賴于并列相似性和上下位關(guān)系信息來(lái)進(jìn)行聚類和標(biāo)定。有些研究工作只根據(jù)上下位關(guān)系圖來(lái)生成語(yǔ)義類,但經(jīng)驗(yàn)表明并列相似性信息對(duì)于提高最終生成的語(yǔ)義類的精度和覆蓋率都至關(guān)重要。

1.3 屬性和屬性值抽取

屬性提取的任務(wù)是為每個(gè)本體語(yǔ)義類構(gòu)造屬性列表(如城市的屬性包括面積、人口、所在國(guó)家、地理位置等),而屬性值提取則為一個(gè)語(yǔ)義類的實(shí)體附加屬性值。屬性和屬性值的抽取能夠形成完整的實(shí)體概念的知識(shí)圖譜維度。常見(jiàn)的屬性和屬性值抽取方法包括從百科類站點(diǎn)中提取,從垂直網(wǎng)站中進(jìn)行包裝器歸納,從網(wǎng)頁(yè)表格中提取,以及利用手工定義或自動(dòng)生成的模式從句子和查詢?nèi)罩局刑崛 ?

常見(jiàn)的語(yǔ)義類/ 實(shí)體的常見(jiàn)屬性/ 屬性值可以通過(guò)解析百科類站點(diǎn)中的半結(jié)構(gòu)化信息(如維基百科的信息盒和百度百科的屬性表格)而獲得。盡管通過(guò)這種簡(jiǎn)單手段能夠得到高質(zhì)量的屬性,但同時(shí)需要采用其它方法來(lái)增加覆蓋率(即為語(yǔ)義類增加更多屬性以及為更多的實(shí)體添加屬性值)。

圖5 愛(ài)因斯坦信息頁(yè)

由于垂直網(wǎng)站(如電子產(chǎn)品網(wǎng)站、圖書(shū)網(wǎng)站、電影網(wǎng)站、音樂(lè)網(wǎng)站)包含有大量實(shí)體的屬性信息。例如上圖的網(wǎng)頁(yè)中包含了圖書(shū)的作者、出版社、出版時(shí)間、評(píng)分等信息。通過(guò)基于一定規(guī)則模板建立,便可以從垂直站點(diǎn)中生成包裝器(或稱為模版),并根據(jù)包裝器來(lái)提取屬性信息。從包裝器生成的自動(dòng)化程度來(lái)看,這些方法可以分為手工法(即手工編寫(xiě)包裝器)、監(jiān)督方法、半監(jiān)督法以及無(wú)監(jiān)督法。考慮到需要從大量不同的網(wǎng)站中提取信息,并且網(wǎng)站模版可能會(huì)更新等因素,無(wú)監(jiān)督包裝器歸納方法顯得更加重要和現(xiàn)實(shí)。無(wú)監(jiān)督包裝器歸納的基本思路是利用對(duì)同一個(gè)網(wǎng)站下面多個(gè)網(wǎng)頁(yè)的超文本標(biāo)簽樹(shù)的對(duì)比來(lái)生成模版。簡(jiǎn)單來(lái)看,不同網(wǎng)頁(yè)的公共部分往往對(duì)應(yīng)于模版或者屬性名,不同的部分則可能是屬性值,而同一個(gè)網(wǎng)頁(yè)中重復(fù)的標(biāo)簽塊則預(yù)示著重復(fù)的記錄。?

屬性抽取的另一個(gè)信息源是網(wǎng)頁(yè)表格。表格的內(nèi)容對(duì)于人來(lái)說(shuō)一目了然,而對(duì)于機(jī)器而言,情況則要復(fù)雜得多。由于表格類型千差萬(wàn)別,很多表格制作得不規(guī)則,加上機(jī)器缺乏人所具有的背景知識(shí)等原因,從網(wǎng)頁(yè)表格中提取高質(zhì)量的屬性信息成為挑戰(zhàn)。?

上述三種方法的共同點(diǎn)是通過(guò)挖掘原始數(shù)據(jù)中的半結(jié)構(gòu)化信息來(lái)獲取屬性和屬性值。與通過(guò)“閱讀”句子來(lái)進(jìn)行信息抽取的方法相比,這些方法繞開(kāi)了自然語(yǔ)言理解這樣一個(gè)“硬骨頭”而試圖達(dá)到以柔克剛的效果。在現(xiàn)階段,計(jì)算機(jī)知識(shí)庫(kù)中的大多數(shù)屬性值確實(shí)是通過(guò)上述方法獲得的。但現(xiàn)實(shí)情況是只有一部分的人類知識(shí)是以半結(jié)構(gòu)化形式體現(xiàn)的,而更多的知識(shí)則隱藏在自然語(yǔ)言句子中,因此直接從句子中抽取信息成為進(jìn)一步提高知識(shí)庫(kù)覆蓋率的關(guān)鍵。當(dāng)前從句子和查詢?nèi)罩局刑崛傩院蛯傩灾档幕臼侄问悄J狡ヅ浜蛯?duì)自然語(yǔ)言的淺層處理。圖6 描繪了為語(yǔ)義類抽取屬性名的主框架(同樣的過(guò)程也適用于為實(shí)體抽取屬性值)。圖中虛線左邊的部分是輸入,它包括一些手工定義的模式和一個(gè)作為種子的(詞,屬性)列表。模式的例子參見(jiàn)表3,(詞,屬性)的例子如(北京,面積)。在只有語(yǔ)義類無(wú)關(guān)的模式作為輸入的情況下,整個(gè)方法是一個(gè)在句子中進(jìn)行模式匹配而生成(語(yǔ)義類,屬性)關(guān)系圖的無(wú)監(jiān)督的知識(shí)提取過(guò)程。此過(guò)程分兩個(gè)步驟,第一個(gè)步驟通過(guò)將輸入的模式作用到句子上而生成一些(詞,屬性)元組,這些數(shù)據(jù)元組在第二個(gè)步驟中根據(jù)語(yǔ)義類進(jìn)行合并而生成(語(yǔ)義類,屬性)關(guān)系圖。在輸入中包含種子列表或者語(yǔ)義類相關(guān)模式的情況下,整個(gè)方法是一個(gè)半監(jiān)督的自舉過(guò)程,分三個(gè)步驟:

模式生成:在句子中匹配種子列表中的詞和屬性從而生成模式。模式通常由詞和屬性的環(huán)境信息而生成。

模式匹配。

模式評(píng)價(jià)與選擇:通過(guò)生成的(語(yǔ)義類,屬性)關(guān)系圖對(duì)自動(dòng)生成的模式的質(zhì)量進(jìn)行自動(dòng)評(píng)價(jià)并選擇高分值的模式作為下一輪匹配的輸入。

1.3 關(guān)系抽取

關(guān)系抽取的目標(biāo)是解決實(shí)體語(yǔ)義鏈接的問(wèn)題。關(guān)系的基本信息包括參數(shù)類型、滿足此關(guān)系的元組模式等。例如關(guān)系BeCapitalOf(表示一個(gè)國(guó)家的首都)的基本信息如下:?

參數(shù)類型:(Capital, Country)?

模式:?

元組:(北京,中國(guó));(華盛頓,美國(guó));Capital 和 Country表示首都和國(guó)家兩個(gè)語(yǔ)義類。?

早期的關(guān)系抽取主要是通過(guò)人工構(gòu)造語(yǔ)義規(guī)則以及模板的方法識(shí)別實(shí)體關(guān)系。隨后,實(shí)體間的關(guān)系模型逐漸替代了人工預(yù)定義的語(yǔ)法與規(guī)則。但是仍需要提前定義實(shí)體間的關(guān)系類型。 文獻(xiàn)[26]提出了面向開(kāi)放域的信息抽取框架 (open information extraction,OIE),這是抽取模式上的一個(gè)巨大進(jìn)步。但OIE方法在對(duì)實(shí)體的隱含關(guān)系抽取方面性能低下,因此部分研究者提出了基于馬爾可夫邏輯網(wǎng)、基于本體推理的深層隱含關(guān)系抽取方法[27]。

開(kāi)放式實(shí)體關(guān)系抽取

開(kāi)放式實(shí)體關(guān)系抽取可分為二元開(kāi)放式關(guān)系抽取和n元開(kāi)放式關(guān)系抽取。在二元開(kāi)放式關(guān)系抽取中,早期的研究有KnowItAll[28]與TextRunner[27]系統(tǒng),在準(zhǔn)確率與召回率上表現(xiàn)一般。文獻(xiàn)[29]提出了一種基于Wikipedia的OIE方法WOE,經(jīng)自監(jiān)督學(xué)習(xí)得到抽取器,準(zhǔn)確率較TextRunner有明顯的提高。針對(duì)WOE的缺點(diǎn),文獻(xiàn)[30]提出了第二代OIE ReVerb系統(tǒng),以動(dòng)詞關(guān)系抽取為主。文獻(xiàn)[31]提出了第三代OIE系統(tǒng)OLLIE(open language learning for information extraction),嘗試彌補(bǔ)并擴(kuò)展OIE的模型及相應(yīng)的系統(tǒng),抽取結(jié)果的準(zhǔn)確度得到了增強(qiáng)。?

然而,基于語(yǔ)義角色標(biāo)注的OIE分析顯示:英文語(yǔ)句中40%的實(shí)體關(guān)系是n元的[32],如處理不當(dāng),可能會(huì)影響整體抽取的完整性。文獻(xiàn)[33]提出了一種可抽取任意英文語(yǔ)句中n元實(shí)體關(guān)系的方法KPAKEN,彌補(bǔ)了ReVerb的不足。但是由于算法對(duì)語(yǔ)句深層語(yǔ)法特征的提取導(dǎo)致其效率顯著下降,并不適用于大規(guī)模開(kāi)放域語(yǔ)料的情況。

基于聯(lián)合推理的實(shí)體關(guān)系抽取

聯(lián)合推理的關(guān)系抽取中的典型方法是馬爾可夫邏輯網(wǎng)MLN(Markov logic network)[34],它是一種將馬爾可夫網(wǎng)絡(luò)與一階邏輯相結(jié)合的統(tǒng)計(jì)關(guān)系學(xué)習(xí)框架,同時(shí)也是在OIE中融入推理的一種重要實(shí)體關(guān)系抽取模型?;谠撃P停墨I(xiàn)[35]提出了一種無(wú)監(jiān)督學(xué)習(xí)模型StatSnowball,不同于傳統(tǒng)的OIE,該方法可自動(dòng)產(chǎn)生或選擇模板生成抽取器。在StatSnowball的基礎(chǔ)上,文獻(xiàn)[27,36]提出了一種實(shí)體識(shí)別與關(guān)系抽取相結(jié)合的模型EntSum,主要由擴(kuò)展的CRF命名實(shí)體識(shí)別模塊與基于StatSnowball的關(guān)系抽取模塊組成,在保證準(zhǔn)確率的同時(shí)也提高了召回率。文獻(xiàn)[27,37]提出了一種簡(jiǎn)易的Markov邏輯TML(tractable Markov logic),TML將領(lǐng)域知識(shí)分解為若干部分,各部分主要來(lái)源于事物類的層次化結(jié)構(gòu),并依據(jù)此結(jié)構(gòu),將各大部分進(jìn)一步分解為若干個(gè)子部分,以此類推。TML具有較強(qiáng)的表示能力,能夠較為簡(jiǎn)潔地表示概念以及關(guān)系的本體結(jié)構(gòu)。

2、知識(shí)表示

傳統(tǒng)的知識(shí)表示方法主要是以RDF(Resource Description Framework資源描述框架)的三元組SPO(subject,property,object)來(lái)符號(hào)性描述實(shí)體之間的關(guān)系。這種表示方法通用簡(jiǎn)單,受到廣泛認(rèn)可,但是其在計(jì)算效率、數(shù)據(jù)稀疏性等方面面臨諸多問(wèn)題。近年來(lái),以深度學(xué)習(xí)為代表的以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)取得了重要的進(jìn)展,可以將實(shí)體的語(yǔ)義信息表示為稠密低維實(shí)值向量,進(jìn)而在低維空間中高效計(jì)算實(shí)體、關(guān)系及其之間的復(fù)雜語(yǔ)義關(guān)聯(lián),對(duì)知識(shí)庫(kù)的構(gòu)建、推理、融合以及應(yīng)用均具有重要的意義[38-40]。

2.1 代表模型

知識(shí)表示學(xué)習(xí)的代表模型有距離模型、單層神經(jīng)網(wǎng)絡(luò)模型、雙線性模型、神經(jīng)張量模型、矩陣分解模型、翻譯模型等。詳細(xì)可參見(jiàn)清華大學(xué)劉知遠(yuǎn)的知識(shí)表示學(xué)習(xí)研究進(jìn)展。相關(guān)實(shí)現(xiàn)也可參見(jiàn) [39]。

1)距離模型

距離模型在文獻(xiàn)[41] 提出了知識(shí)庫(kù)中實(shí)體以及關(guān)系的結(jié)構(gòu)化表示方法(structured embedding,SE),其基本思想是:首先將實(shí)體用向量進(jìn)行表示,然后通過(guò)關(guān)系矩陣將實(shí)體投影到與實(shí)體關(guān)系對(duì)的向量空間中,最后通過(guò)計(jì)算投影向量之間的距離來(lái)判斷實(shí)體間已存在的關(guān)系的置信度。由于距離模型中的關(guān)系矩陣是兩個(gè)不同的矩陣,使得協(xié)同性較差。

2.2 復(fù)雜關(guān)系模型

知識(shí)庫(kù)中的實(shí)體關(guān)系類型也可分為1-to-1、1-to-N、N-to-1、N-to-N4種類型[47],而復(fù)雜關(guān)系主要指的是1-to-N、N-to-1、N-to-N的3種關(guān)系類型。由于TransE模型不能用在處理復(fù)雜關(guān)系上[39],一系列基于它的擴(kuò)展模型紛紛被提出,下面將著重介紹其中的幾項(xiàng)代表性工作。

1)TransH模型

文獻(xiàn)[48]提出的TransH模型嘗試通過(guò)不同的形式表示不同關(guān)系中的實(shí)體結(jié)構(gòu),對(duì)于同一個(gè)實(shí)體而言,它在不同的關(guān)系下也扮演著不同的角色。模型首先通過(guò)關(guān)系向量與其正交的法向量選取某一個(gè)超平面F, 然后將頭實(shí)體向量和尾實(shí)體向量法向量的方向投影到F, 最后計(jì)算損失函數(shù)。TransH使不同的實(shí)體在不同的關(guān)系下?lián)碛辛瞬煌谋硎拘问剑捎趯?shí)體向量被投影到了關(guān)系的語(yǔ)義空間中,故它們具有相同的維度。

3)TransD模型

考慮到在知識(shí)庫(kù)的三元組中,頭實(shí)體和尾實(shí)體表示的含義、類型以及屬性可能有較大差異,之前的TransR模型使它們被同一個(gè)投影矩陣進(jìn)行映射,在一定程度上就限制了模型的表達(dá)能力。除此之外,將實(shí)體映射到關(guān)系空間體現(xiàn)的是從實(shí)體到關(guān)系的語(yǔ) 義聯(lián)系,而TransR模型中提出的投影矩陣僅考慮了不同的關(guān)系類型,而忽視了實(shí)體與關(guān)系之間的交互。因此,文獻(xiàn)[50]提出了TransD模型,模型分別定義了頭實(shí)體與尾實(shí)體在關(guān)系空間上的投影矩陣。

4)TransG模型

文獻(xiàn)[51]提出的TransG模型認(rèn)為一種關(guān)系可能會(huì)對(duì)應(yīng)多種語(yǔ)義,而每一種語(yǔ)義都可以用一個(gè)高斯分布表示。TransG模型考慮到了關(guān)系r 的不同語(yǔ)義,使用高斯混合模型來(lái)描述知識(shí)庫(kù)中每個(gè)三元組(h,r,t)頭實(shí)體與尾實(shí)體之間的關(guān)系,具有較高的實(shí)體區(qū)分度。

5)KG2E模型

考慮到知識(shí)庫(kù)中的實(shí)體以及關(guān)系的不確定性,文獻(xiàn)[52]提出了KG2E模型,其中同樣是用高斯分布來(lái)刻畫(huà)實(shí)體與關(guān)系。模型使用高斯分布的均值表示實(shí)體或關(guān)系在語(yǔ)義空間中的中心位置,協(xié)方差則表示實(shí)體或關(guān)系的不確定度。?

3/知識(shí)融合

通過(guò)知識(shí)提取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體、關(guān)系以及實(shí)體屬性信息的目標(biāo)。但是由于知識(shí)來(lái)源廣泛,存在知識(shí)質(zhì)量良莠不齊、來(lái)自不同數(shù)據(jù)源的知識(shí)重復(fù)、層次結(jié)構(gòu)缺失等問(wèn)題,所以必須要進(jìn)行知識(shí)的融合。知識(shí)融合是高層次的知識(shí)組織[53],使來(lái)自不同知識(shí)源的知識(shí)在同一框架規(guī)范下進(jìn)行異構(gòu)數(shù)據(jù)整合、消歧、加工、推理驗(yàn)證、更新等步驟[54],達(dá)到數(shù)據(jù)、信息、方法、經(jīng)驗(yàn)以及人的思想的融合,形成高質(zhì)量的知識(shí)庫(kù)。

3.1 實(shí)體對(duì)齊

實(shí)體對(duì)齊 (entity alignment) 也稱為實(shí)體匹配 (entity matching)或?qū)嶓w解析(entity resolution)或者實(shí)體鏈接(entity linking),主要是用于消除異構(gòu)數(shù)據(jù)中實(shí)體沖突、指向不明等不一致性問(wèn)題,可以從頂層創(chuàng)建一個(gè)大規(guī)模的統(tǒng)一知識(shí)庫(kù),從而幫助機(jī)器理解多源異質(zhì)的數(shù)據(jù),形成高質(zhì)量的知識(shí)。

在大數(shù)據(jù)的環(huán)境下,受知識(shí)庫(kù)規(guī)模的影響,在進(jìn)行知識(shí)庫(kù)實(shí)體對(duì)齊時(shí),主要會(huì)面臨以下3個(gè)方面的挑戰(zhàn)[55]:1) 計(jì)算復(fù)雜度。匹配算法的計(jì)算復(fù)雜度會(huì)隨知識(shí)庫(kù)的規(guī)模呈二次增長(zhǎng),難以接受;2) 數(shù)據(jù)質(zhì)量。由于不同知識(shí)庫(kù)的構(gòu)建目的與方式有所不同,可能存在知識(shí)質(zhì)量良莠不齊、相似重復(fù)數(shù)據(jù)、孤立數(shù)據(jù)、數(shù)據(jù)時(shí)間粒度不一致等問(wèn)題[56];3) 先驗(yàn)訓(xùn)練數(shù)據(jù)。在大規(guī)模知識(shí)庫(kù)中想要獲得這種先驗(yàn)數(shù)據(jù)卻非常困難。通常情況下,需要研究者手工構(gòu)造先驗(yàn)訓(xùn)練數(shù)據(jù)。

基于上述,知識(shí)庫(kù)實(shí)體對(duì)齊的主要流程將包括[55]:1) 將待對(duì)齊數(shù)據(jù)進(jìn)行分區(qū)索引,以降低計(jì)算的復(fù)雜度;2) 利用相似度函數(shù)或相似性算法查找匹配實(shí)例;3) 使用實(shí)體對(duì)齊算法進(jìn)行實(shí)例融合;4) 將步驟2)與步驟3)的結(jié)果結(jié)合起來(lái),形成最終的對(duì)齊結(jié)果。對(duì)齊算法可分為成對(duì)實(shí)體對(duì)齊與集體實(shí)體對(duì)齊兩大類,而集體實(shí)體對(duì)齊又可分為局部集體實(shí)體對(duì)齊與全局集體實(shí)體對(duì)齊。

1)成對(duì)實(shí)體對(duì)齊方法

① 基于傳統(tǒng)概率模型的實(shí)體對(duì)齊方法

基于傳統(tǒng)概率模型的實(shí)體對(duì)齊方法主要就是考慮兩個(gè)實(shí)體各自屬性的相似性,而并不考慮實(shí)體間的關(guān)系。文獻(xiàn)[57]將基于屬性相似度評(píng)分來(lái)判斷實(shí)體是否匹配的問(wèn)題轉(zhuǎn)化為一個(gè)分類問(wèn)題,建立了該問(wèn)題的概率模型,缺點(diǎn)是沒(méi)有體現(xiàn)重要屬性對(duì)于實(shí)體相似度的影響。文獻(xiàn)[58]基于概率實(shí)體鏈接模型,為每個(gè)匹配的屬性對(duì)分配了不同的權(quán)重,匹配準(zhǔn)確度有所提高。文獻(xiàn)[59]還結(jié)合貝葉斯網(wǎng)絡(luò)對(duì)屬性的相關(guān)性進(jìn)行建模,并使用較大似然估計(jì)方法對(duì)模型中的參數(shù)進(jìn)行估計(jì)。

② 基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊方法

基于機(jī)器學(xué)習(xí)的實(shí)體對(duì)齊方法主要是將實(shí)體對(duì)齊問(wèn)題轉(zhuǎn)化為二分類問(wèn)題。根據(jù)是否使用標(biāo)注數(shù)據(jù)可分為有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)兩類,基于監(jiān)督學(xué)習(xí)的實(shí)體對(duì)齊方法主要可分為成對(duì)實(shí)體對(duì)齊、基于聚類的對(duì)齊、主動(dòng)學(xué)習(xí)。

通過(guò)屬性比較向量來(lái)判斷實(shí)體對(duì)匹配與否可稱為成對(duì)實(shí)體對(duì)齊。這類方法中的典型代表有決策樹(shù) [60]、支持向量機(jī)[61]、集成學(xué)習(xí)[62]等。文獻(xiàn)[63]使用分類回歸樹(shù)、線性分析判別等方法完成了實(shí)體辨析。文獻(xiàn)[64]基于二階段實(shí)體鏈接分析模型,提出了一種新的SVM分類方法,匹配準(zhǔn)確率遠(yuǎn)高于TAILOR中的混合算法。

基于聚類的實(shí)體對(duì)齊算法,其主要思想是將相似的實(shí)體盡量聚集到一起,再進(jìn)行實(shí)體對(duì)齊。文獻(xiàn)[65]提出了一種擴(kuò)展性較強(qiáng)的自適應(yīng)實(shí)體名稱匹配與聚類算法,可通過(guò)訓(xùn)練樣本生成一個(gè)自適應(yīng)的距離函數(shù)。文獻(xiàn)[66]采用類似的方法,在條件隨機(jī)場(chǎng)實(shí)體對(duì)齊模型中使用監(jiān)督學(xué)習(xí)的方法訓(xùn)練產(chǎn)生距離函數(shù),然后調(diào)整權(quán)重,使特征函數(shù)與學(xué)習(xí)參數(shù)的積較大。

在主動(dòng)學(xué)習(xí)中,可通過(guò)與人員的不斷交互來(lái)解決很難獲得足夠的訓(xùn)練數(shù)據(jù)問(wèn)題,文獻(xiàn)[67]構(gòu)建的ALIAS系統(tǒng)可通過(guò)人機(jī)交互的方式完成實(shí)體鏈接與去重的任務(wù)。文獻(xiàn)[68]采用相似的方法構(gòu)建了ActiveAtlas系統(tǒng)。

2)局部集體實(shí)體對(duì)齊方法

局部集體實(shí)體對(duì)齊方法為實(shí)體本身的屬性以及與它有關(guān)聯(lián)的實(shí)體的屬性分別設(shè)置不同的權(quán)重,并通過(guò)加權(quán)求和計(jì)算總體的相似度,還可使用向量空間模型以及余弦相似性來(lái)判別大規(guī)模知識(shí)庫(kù)中的實(shí)體的相似程度[69],算法為每個(gè)實(shí)體建立了名稱向量與虛擬文檔向量,名稱向量用于標(biāo)識(shí)實(shí)體的屬性,虛擬文檔向量則用于表示實(shí)體的屬性值以及其鄰居節(jié)點(diǎn)的屬性值的加權(quán)和值[55]。為了評(píng)價(jià)向量中每個(gè)分量的重要性,算法主要使用TF-IDF為每個(gè)分量設(shè)置權(quán)重,并為分量向量建立倒排索引,最后選擇余弦相似性函數(shù)計(jì)算它們的相似程度[55]。該算法的召回率較高,執(zhí)行速度快,但準(zhǔn)確率不足。其根本原因在于沒(méi)有真正從語(yǔ)義方面進(jìn)行考慮。

3)全局集體實(shí)體對(duì)齊方法

① 基于相似性傳播的集體實(shí)體對(duì)齊方法

基于相似性傳播的方法是一種典型的集體實(shí)體對(duì)齊方法,匹配的兩個(gè)實(shí)體與它們產(chǎn)生直接關(guān)聯(lián)的其他實(shí)體也會(huì)具有較高的相似性,而這種相似性又會(huì)影響關(guān)聯(lián)的其他實(shí)體[55]。

相似性傳播集體實(shí)體對(duì)齊方法最早來(lái)源于文獻(xiàn)[70-71]提出的集合關(guān)系聚類算法,該算法主要通過(guò)一種改進(jìn)的層次凝聚算法迭代產(chǎn)生匹配對(duì)象。文獻(xiàn)[72]在以上算法的基礎(chǔ)上提出了適用于大規(guī)模知識(shí)庫(kù)實(shí)體對(duì)齊的算法SiGMa,該算法將實(shí)體對(duì)齊問(wèn)題看成是一個(gè)全局匹配評(píng)分目標(biāo)函數(shù)的優(yōu)化問(wèn)題進(jìn)行建模,屬于二次分配問(wèn)題,可通過(guò)貪婪優(yōu)化算法求得其近似解。SiGMa方法[55]能夠綜合考慮實(shí)體對(duì)的屬性與關(guān)系,通過(guò)集體實(shí)體的領(lǐng)域,不斷迭代發(fā)現(xiàn)所有的匹配對(duì)。

② 基于概率模型的集體實(shí)體對(duì)齊方法基于概率模型的集體實(shí)體對(duì)齊方法主要采用統(tǒng)計(jì)關(guān)系學(xué)習(xí)進(jìn)行計(jì)算與推理,常用的方法有LDA模型[73]、CRF模型[74]、Markov邏輯網(wǎng)[75]等。

文獻(xiàn)[73]將LDA模型應(yīng)用于實(shí)體的解析過(guò)程中,通過(guò)其中的隱含變量獲取實(shí)體之間的關(guān)系。但在大規(guī)模的數(shù)據(jù)集上效果一般。文獻(xiàn)[74]提出了一種基于圖劃分技術(shù)的CRF實(shí)體辨析模型,該模型以觀察值為條件產(chǎn)生實(shí)體判別的決策,有利于處理屬性間具有依賴關(guān)系的數(shù)據(jù)。文獻(xiàn)[66]在CRF實(shí)體辨析模型的基礎(chǔ)上提出了一種基于條件隨機(jī)場(chǎng)模型的多關(guān)系的實(shí)體鏈接算法,引入了基于canopy的索引,提高了大規(guī)模知識(shí)庫(kù)環(huán)境下的集體實(shí)體對(duì)齊效率。文獻(xiàn)[75]提出了一種基于Markov邏輯網(wǎng)的實(shí)體解析方法。通過(guò)Markov邏輯網(wǎng),可構(gòu)建一個(gè)Markov網(wǎng),將概率圖模型中的較大可能性計(jì)算問(wèn)題轉(zhuǎn)化為典型的較大化加權(quán)可滿足性問(wèn)題,但基于Markov網(wǎng)進(jìn)行實(shí)體辨析時(shí),需要定義一系列的等價(jià)謂詞公理,通過(guò)它們完成知識(shí)庫(kù)的集體實(shí)體對(duì)齊。

3.2 知識(shí)加工

通過(guò)實(shí)體對(duì)齊,可以得到一系列的基本事實(shí)表達(dá)或初步的本體雛形,然而事實(shí)并不等于知識(shí),它只是知識(shí)的基本單位。要形成高質(zhì)量的知識(shí),還需要經(jīng)過(guò)知識(shí)加工的過(guò)程,從層次上形成一個(gè)大規(guī)模的知識(shí)體系,統(tǒng)一對(duì)知識(shí)進(jìn)行管理。知識(shí)加工主要包括本體構(gòu)建與質(zhì)量評(píng)估兩方面的內(nèi)容。

1)本體構(gòu)建

本體是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語(yǔ)義基礎(chǔ)[76],其主要呈現(xiàn)樹(shù)狀結(jié)構(gòu),相鄰的層次節(jié)點(diǎn)或概念之間具有嚴(yán)格的“IsA”關(guān)系,有利于進(jìn)行約束、推理等,卻不利于表達(dá)概念的多樣性。本體在知識(shí)圖譜中的地位相當(dāng)于知識(shí)庫(kù)的模具,通過(guò)本體庫(kù)而形成的知識(shí)庫(kù)不僅層次結(jié)構(gòu)較強(qiáng),并且冗余程度較小[77]。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/4644.html

相關(guān)文章

  • 最全知識(shí)圖譜綜述#2: 構(gòu)建技術(shù)與典型應(yīng)用

    摘要:知識(shí)圖譜開(kāi)源庫(kù)或簡(jiǎn)稱是一個(gè)用于構(gòu)建語(yǔ)義和關(guān)聯(lián)數(shù)據(jù)應(yīng)用程序的自由和開(kāi)源的框架。垂直行業(yè)應(yīng)用下面將以金融醫(yī)療電商行業(yè)為例,說(shuō)明知識(shí)圖譜在上述行業(yè)中的典型應(yīng)用。 知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)1 知識(shí)提取2 知識(shí)表示3 知識(shí)融合4 知識(shí)推理知識(shí)推理則是在已有的知識(shí)庫(kù)基礎(chǔ)上進(jìn)一步挖掘隱含的知識(shí),從而豐富、擴(kuò)展知識(shí)庫(kù)。在推理的過(guò)程中,往往需要關(guān)聯(lián)規(guī)則的支持。由于實(shí)體、實(shí)體屬性以及關(guān)系的多樣性,人們很難窮舉所有...

    duan199226 評(píng)論0 收藏0
  • 知識(shí)圖譜是什么?一文了解其技術(shù)與應(yīng)用場(chǎng)景案例

    摘要:四知識(shí)圖譜應(yīng)用利用知識(shí)圖譜技術(shù)可以直接給出用戶想要的搜索結(jié)果,而不再是各類鏈接。智慧城市公安機(jī)關(guān)在偵查案件時(shí),經(jīng)常看到辦案民警用圖譜梳理案件及人物關(guān)系。在電視劇人民的名義中,警方利用知識(shí)圖譜分析,可以很快看清山水集團(tuán)背后的利益鏈條。 導(dǎo)讀:悟已往之不諫,知來(lái)者之可追。 ?小編整理了各種關(guān)于人...

    tomato 評(píng)論0 收藏0
  • 前端每周清單第 47 期:NPM 年度報(bào)告與 2018 展望,Airbnb React Router

    摘要:確定新的包命名規(guī)則為了盡可能避免包的誤植域名現(xiàn)象,將不會(huì)再允許使用相似的包命名不過(guò)會(huì)進(jìn)一步鼓勵(lì)開(kāi)發(fā)者使用自己的命名空間來(lái)發(fā)布包。本文是對(duì)其幾十年來(lái)技術(shù)之路的回顧與展望,也是一代技術(shù)人的青春回憶。 showImg(https://segmentfault.com/img/remote/1460000012846628); 前端每周清單專注前端領(lǐng)域內(nèi)容,以對(duì)外文資料的搜集為主,幫助開(kāi)發(fā)者了...

    makeFoxPlay 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

wujl596

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<