[論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear

leonardofed 發(fā)布于2019-08-23 10:38 / 731人閱讀

摘要：分塊效果如圖所示聚類由于不同網(wǎng)頁(yè)之間設(shè)計(jì)和布局存在較大差異，作者選擇了作為聚類算法來(lái)解決簇?cái)?shù)目未知簇形狀未知噪聲等問(wèn)題未給出距離函數(shù)。

《Web Content Extraction Through Machine Learning》 通過(guò)機(jī)器學(xué)習(xí)來(lái)提取網(wǎng)頁(yè)內(nèi)容
  2014年，未見(jiàn)期刊會(huì)議上登載，作者 Ziyan Zhou @stanford.edu

簡(jiǎn)介 數(shù)據(jù)集

以新聞文章網(wǎng)站為主
數(shù)據(jù)集鏈接 https://github.com/ziyan/spid...

網(wǎng)頁(yè)分塊

本文采用了phantom.js作為headless webkit browser（無(wú)頭瀏覽器，現(xiàn)在有更好的方法了，比如puppeteer.js）
對(duì)于每一個(gè)包含文本的DOM元素，算法會(huì)找到它最近的父元素標(biāo)記為塊。
遺憾的是，作者對(duì)一些噪音數(shù)據(jù)的處理沒(méi)有詳細(xì)地進(jìn)行解釋。

分塊效果如圖所示

聚類

由于不同網(wǎng)頁(yè)之間設(shè)計(jì)和布局存在較大差異，作者選擇了DBSCAN作為聚類算法來(lái)解決簇?cái)?shù)目未知/簇形狀未知/噪聲等問(wèn)題（未給出距離函數(shù)）。

DBSCAN 密度聚類算法 大致原理就是選擇一個(gè)樣本節(jié)點(diǎn)，聚集所有密度可達(dá)的樣本形成一個(gè)類，相比k-means聚類算法而言更適用于稠密的數(shù)據(jù)庫(kù)，想要詳細(xì)了解的可以點(diǎn)擊這里

尋找內(nèi)容塊

通過(guò)與標(biāo)題簡(jiǎn)介等meta信息對(duì)比文本間的差異（最長(zhǎng)公共子序列LCS算法），來(lái)評(píng)估每一個(gè)集群與描述之間的相似性。

分類

支持向量機(jī)SVM與交叉驗(yàn)證

特征選擇

以下特征效果依次遞增

文本長(zhǎng)度

標(biāo)簽路徑

CSS選擇器

CSS屬性

總結(jié)
emmm，有點(diǎn)淺了，數(shù)據(jù)集太少，而且針對(duì)性也太強(qiáng)，導(dǎo)致出來(lái)的結(jié)果很好，但是沒(méi)有什么說(shuō)服力，還是有可以參考的地方的。

云服務(wù)器 GPU云服務(wù)器 Extraction Through Machine machine learning

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.hztianpu.com/yun/96540.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

leonardofed

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

HostRound：美國(guó)達(dá)拉斯機(jī)房/E-2276G/32GB DDR4/1TB NVMe+4TB H

閱讀 1448·2021-09-30 09:55
zji：促銷全新中國(guó)香港特惠E3物理服務(wù)器，葵灣機(jī)房，CN2+BGP線路，月付最高優(yōu)惠300元

閱讀 1966·2021-08-27 13:10
如何自定義CSS滾動(dòng)條的樣式？

閱讀 2309·2019-08-29 17:22
[Hexo-NexT]鼠標(biāo)選取文字自動(dòng)提示版權(quán)信息

閱讀 1375·2019-08-29 16:30
小程序認(rèn)證流程

閱讀 3546·2019-08-26 18:37
react輪播圖組件react-slider-light

閱讀 2415·2019-08-26 11:47
每個(gè)JavaScript開(kāi)發(fā)人員都應(yīng)該知道的新ES2018功能（譯文）

閱讀 1225·2019-08-23 14:44
Browsers Disabled Audio AutoPlay

閱讀 1804·2019-08-23 13:46

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear

相關(guān)文章

**[論文簡(jiǎn)讀] Web Content Extraction Using Clustering**

**【論文簡(jiǎn)讀】 Deep web data extraction based on visual**

**[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati**

**[論文簡(jiǎn)讀] Deep Neural Networks for Web Page Informati**

發(fā)表評(píng)論

0條評(píng)論

leonardofed

男|高級(jí)講師

TA的文章

HostRound：美國(guó)達(dá)拉斯機(jī)房/E-2276G/32GB DDR4/1TB NVMe+4TB H

zji：促銷全新中國(guó)香港特惠E3物理服務(wù)器，葵灣機(jī)房，CN2+BGP線路，月付最高優(yōu)惠300元

如何自定義CSS滾動(dòng)條的樣式？

[Hexo-NexT]鼠標(biāo)選取文字自動(dòng)提示版權(quán)信息

小程序認(rèn)證流程

react輪播圖組件react-slider-light

每個(gè)JavaScript開(kāi)發(fā)人員都應(yīng)該知道的新ES2018功能（譯文）

Browsers Disabled Audio AutoPlay

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

[論文簡(jiǎn)讀] Web Content Extraction Through Machine Lear

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！