摘要:內(nèi)容中的少即是多除了設(shè)計(jì),內(nèi)容上有時(shí)我們也追求少即是多。算法與數(shù)據(jù)中的少即是多我還是希望自己寫的東西有一點(diǎn)技術(shù)性,所以想在最后提提算法與數(shù)據(jù)中的少即是多概念。至此,我們得到一個(gè)更加干凈的小字典,但是少即是多,他的分詞效果非常好。
每天被形形色色的信息包圍著,看十幾條來自Facebook的消息,刷上百?gòu)圛nstagram的照片,快速跳過百來個(gè)Snapchat的故事,仔細(xì)閱讀一下Wechat的公眾號(hào)和朋友圈,睡前點(diǎn)開Zaker上有趣的新聞推薦讀一讀。接收到的信息越多,使用手機(jī)頻率越大,越明白“少即是多”這個(gè)話在設(shè)計(jì),內(nèi)容以及算法數(shù)據(jù)上的重要。
其實(shí)這個(gè)文章我主要想記錄一個(gè)聽到的數(shù)據(jù)降噪的故事,想看的可以跳過前兩段。
設(shè)計(jì)中的少即是多
“少即是多”最早就在設(shè)計(jì)界被人提起,實(shí)體產(chǎn)品中有一個(gè)出名的例子就是無印良品。他們主打無標(biāo)示,少設(shè)計(jì)的家用產(chǎn)品,功能上全心解決生活痛點(diǎn)。正是他們對(duì)生活文化的理解,造就了市值7000億日元的品牌。
互聯(lián)網(wǎng)也充滿了“少即是多”的產(chǎn)品,Tinder有著像紙牌一樣的界面,每個(gè)界面上的功能都及其簡(jiǎn)單,就像紙牌一樣一目了然。你可以把紙牌理解成一個(gè)個(gè)stories,在某些互聯(lián)網(wǎng)產(chǎn)品上進(jìn)化為newsfeed,但是傳統(tǒng)的紙牌模式比newsfeed更有助于你拋開干擾,快速的作出決定。
另一個(gè)最近常常談到的產(chǎn)品就是snapchat,每當(dāng)你看到視頻或圖片時(shí)都處于全屏狀態(tài),一方面可以說他們沒有Design,一方面也可以說他們有最簡(jiǎn)單的Design。這種做法給他們帶來了極大的廣告完成率,因?yàn)橛脩艉茈y意識(shí)到的自己在看廣告。大屏幕的表現(xiàn)手法以及龐大的年輕人用戶群對(duì)電影,體育,游戲相關(guān)類的廣告有著很大的轉(zhuǎn)換率。
內(nèi)容中的少即是多
除了設(shè)計(jì),內(nèi)容上有時(shí)我們也追求“少即是多”。多顯得雜,比如快手,內(nèi)容雖多但不值錢。少有時(shí)能體現(xiàn)品牌,比如米未,擁有《奇葩說》A輪融資20億。上億的節(jié)目點(diǎn)擊率和網(wǎng)絡(luò)口碑以外,還造就了240萬粉絲的馬薇薇,顏如晶等網(wǎng)絡(luò)名人。內(nèi)容營(yíng)銷,有時(shí)在精不在多。
同時(shí)看看坐擁4.5億用戶的今日頭條,盡管活躍用戶不如某些門戶網(wǎng)站,但是用戶的流量消耗很大。他們所強(qiáng)調(diào)的精準(zhǔn)推送與無限刷新,讓你第一眼看到的內(nèi)容少而精。盡管因?yàn)樗麄兯惴ǖ牟蛔?,我已?jīng)把他們的app刪掉了,但還是不得不承認(rèn)他們獲得的成功。
算法與數(shù)據(jù)中的少即是多
我還是希望自己寫的東西有一點(diǎn)技術(shù)性,所以想在最后提提算法與數(shù)據(jù)中的“少即是多”概念。直白的說,算法上時(shí)間復(fù)雜度少,那么能處理的數(shù)據(jù)就多,數(shù)據(jù)中的噪音少,那么你從數(shù)據(jù)中提煉出來的規(guī)則就更加準(zhǔn)確。Quora上知名問題“你在工作中應(yīng)用機(jī)器學(xué)習(xí)學(xué)到的最重要的一課是什么”當(dāng)中提到重要一點(diǎn)就是確定你的數(shù)據(jù)是干凈并且高質(zhì)量的;大數(shù)據(jù)的性感充滿危險(xiǎn)。
其實(shí)寫這個(gè)文章我主要是想記錄Google做CJK分詞的算法中降噪的例子。中文分詞最大的難處就是在于有歧義,就像Matrix67在他的“漫話中文分詞”文章中提到的“北京/大學(xué)生/前來/應(yīng)聘”有可能被理解為“北京大學(xué)/生前/來/應(yīng)聘”。目前CRF算法是公認(rèn)的最好算法,但實(shí)際效果也基于訓(xùn)練模型和數(shù)據(jù)。
通過最大化概率來分詞是最簡(jiǎn)單的模型,假設(shè)我們知道每一個(gè)詞在網(wǎng)上的出現(xiàn)概率,P(北京)>P(北)*P(京),P(清華大學(xué))>P(清華)P(大學(xué)),那么我們可以通過最大化概率知道:
北京清華大學(xué)->北京/清華大學(xué)
可是簡(jiǎn)單的最大化概率模型很難解決stopword對(duì)分詞產(chǎn)生的影響,比方說“的確定不下來”很容易被理解為“的/確定/不/下來”。所以Google采用了上下文關(guān)聯(lián)的統(tǒng)計(jì)模型,對(duì)于任意兩個(gè)詞語(yǔ)考慮他們一起出現(xiàn)的概率,比如比較P(確定|的)和P(定|的確)。
Google黑板報(bào)講了他們的算法,但是并沒有講他們?nèi)绾螌?duì)海量數(shù)據(jù)降噪。他們想到的方法非常簡(jiǎn)單,那就是對(duì)原始數(shù)據(jù)分詞再分詞。
例如用戶輸入“王二小明白展堂”,這里我想表達(dá)“王二小明白展堂”。但因?yàn)椴⒉怀R姡悦總€(gè)詞語(yǔ)的上下關(guān)聯(lián)不大,很容易被拆分為“王二小明白展堂”。這是因?yàn)樵谖覀冇脕斫⒛P偷臄?shù)據(jù)當(dāng)中,每一次出現(xiàn)“王二小”都會(huì)使得“王二”的概率增大;每一次出現(xiàn)“小明”,“從小明白”都會(huì)使得“小明”的概率增大;而“白展堂”也是常見的詞語(yǔ)。
為了減小概率字典里的噪音,我們?cè)谏傻谝粋€(gè)概率字典后,對(duì)原始數(shù)據(jù)進(jìn)行分詞并且計(jì)算新的概率字典。這時(shí)候“王二小”再也不是“王二”了,“從小明白”再也不是“從小”,“小明”和“明白”了。至此,我們得到一個(gè)更加干凈的小字典,但是“少即是多”,他的分詞效果非常好。
這個(gè)降噪的想法非常的簡(jiǎn)單和直接,也許你不用拍腦袋都能想到,但是當(dāng)工作鉆入牛角尖時(shí),你可能會(huì)忘了它。說了這么多“少即是多”,還是要提醒一下在使用時(shí)最好還是等有了大數(shù)據(jù)后再使用。當(dāng)你的數(shù)據(jù)量不夠大時(shí),珍惜每一個(gè)數(shù)據(jù)點(diǎn)吧。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/125911.html
摘要:本文將模擬一個(gè)歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。創(chuàng)建廣告牌寬度高度深度寬度上的節(jié)數(shù)高度上的節(jié)數(shù)深度上的節(jié)數(shù)中心點(diǎn)家具展銷歐派這里給我們給整個(gè)場(chǎng)景用抽象物體圍起來了,以免第一人稱控件開啟時(shí)會(huì)造成無碰撞體系墜落出場(chǎng)景。 本文將模擬一個(gè)歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。 第一步,利用CampusBuilder搭建模擬場(chǎng)景。CampusBuilder的模...
摘要:最近,我需要在開發(fā)的事件管理系統(tǒng)中實(shí)現(xiàn)搜索功能。今天,我會(huì)介紹整個(gè)過程以及如何構(gòu)建靈活且可擴(kuò)展的搜索系統(tǒng)。這將是個(gè)挑戰(zhàn)前端的條件過濾的截圖。像剛剛的情況下搜索用戶時(shí)加上一個(gè)過濾器再返回搜索結(jié)果。 showImg(https://segmentfault.com/img/remote/1460000018654283?w=1680&h=494); 最近,我需要在開發(fā)的事件管理系統(tǒng)中實(shí)現(xiàn)搜...
摘要:設(shè)計(jì)者的品味現(xiàn)在流行相對(duì)主義,即認(rèn)為真理是相對(duì)的。優(yōu)秀設(shè)計(jì)的原則是許多學(xué)科的共同原則,一再反復(fù)地出現(xiàn)。好設(shè)計(jì)是永不過時(shí)的設(shè)計(jì)。好設(shè)計(jì)是解決主要問題的設(shè)計(jì)。好設(shè)計(jì)是模仿大自然的設(shè)計(jì)。好設(shè)計(jì)是成批出現(xiàn)的。好設(shè)計(jì)常常是大膽的設(shè)計(jì)。 9 設(shè)計(jì)者的品味 現(xiàn)在流行相對(duì)主義,即認(rèn)為真理是相對(duì)的。即使你已經(jīng)從小孩變成了成年人,這種觀點(diǎn)依然可能妨礙你思考品味。把品味說成個(gè)人的偏好可以有效地杜絕爭(zhēng)論,防止...
摘要:近日,在年云計(jì)算與大數(shù)據(jù)在智能工業(yè)中的發(fā)展及應(yīng)用高峰論壇上,與會(huì)專家認(rèn)為,信息技術(shù)和全球工業(yè)系統(tǒng)正在深入融合,給全球工業(yè)帶來深刻的變革,創(chuàng)新了工業(yè)企業(yè)的研發(fā)生產(chǎn)運(yùn)營(yíng)營(yíng)銷和管理方式?! 〗眨?016年云計(jì)算與大數(shù)據(jù)在智能工業(yè)中的發(fā)展及應(yīng)用高峰論壇上,與會(huì)專家認(rèn)為,信息技術(shù)和全球工業(yè)系統(tǒng)正在深入融合,給全球工業(yè)帶來深刻的變革,創(chuàng)新了工業(yè)企業(yè)的研發(fā)、生產(chǎn)、運(yùn)營(yíng)、營(yíng)銷和管理方式。 步入智能化綜...
閱讀 3670·2023-04-25 20:09
閱讀 3831·2022-06-28 19:00
閱讀 3193·2022-06-28 19:00
閱讀 3227·2022-06-28 19:00
閱讀 3341·2022-06-28 19:00
閱讀 2999·2022-06-28 19:00
閱讀 3236·2022-06-28 19:00
閱讀 2777·2022-06-28 19:00