摘要:解決方案查詢重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)去除重復(fù)組的第一個元數(shù)據(jù),得到除第一個之外的其他元組刪除這些重復(fù)的數(shù)據(jù)刪除重復(fù)數(shù)據(jù)版本復(fù)制里的數(shù)據(jù)到另一個中過濾重復(fù)字段并統(tǒng)計總記錄數(shù)添加過濾條件
前言
分享一些Mongdb常用的數(shù)據(jù)清洗方式
原因
大數(shù)據(jù)計算、數(shù)據(jù)統(tǒng)計時,每個計算任務(wù)(job或task)都會使用獨立有限的內(nèi)存空間,mongodb沒有提供復(fù)雜的內(nèi)存分配模型(任務(wù)調(diào)度算法),僅限定每個stage最多使用100M內(nèi)存,如果超過此值將終止計算并返回error;為了支持較大數(shù)據(jù)集合的處理,我們可以指定“allowDiskUse”參數(shù)將“溢出”的數(shù)據(jù)寫入本地的臨時文件中(臨時的collection),這個參數(shù)我們通常需要設(shè)定為true。
解決方案:
{allowDiskUse:true}查詢重復(fù)數(shù)據(jù)
db.feedImg_all.aggregate([ { $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}} }, { $match: {count: {$gt: 1}} } ],{allowDiskUse:true})刪除重復(fù)數(shù)據(jù)
db.xiuxiu_all.aggregate([ { $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}} }, { $match: {count: {$gt: 1}} } ],{allowDiskUse:true}).forEach(function(doc){ doc.dups.shift(); // 去除重復(fù)組的第一個元數(shù)據(jù)_id,得到除第一個之外的其他元組 db.xiuxiu_all.remove({_id: {$in: doc.dups}}); // remove()刪除這些重復(fù)的數(shù)據(jù) })刪除重復(fù)數(shù)據(jù)(python版本)
# -*- coding:utf-8 -*- import pymongo from pymongo import DeleteOne """ @author: lcx @time: 2018/11/15 @desc: """ pipeline = [ { "$group": { "_id": {"mvid": "$mvid", "feed_id": "$feed_id"}, "count": {"$sum": 1}, "dups": { "$addToSet": "$_id" } }, }, { "$match": { "count": { "$gt": 1 } } } ] myclient = pymongo.MongoClient(host="m3005.test.com",port=3005,connect=False) db = myclient.deepnet_test if __name__ == "__main__": map_id = map(lambda doc: doc["dups"][1:], db["xiuxiu_all"].aggregate(pipeline=pipeline,allowDiskUse=True)) list_id = [item for sublist in map_id for item in sublist] print(db["xiuxiu_all"] .bulk_write(list(map(lambda _id: DeleteOne({"_id": _id}), list_id))) .bulk_api_result)復(fù)制collection里的數(shù)據(jù)到另一個collection中
db.xiuxiu_all.find().forEach(function(x){ db.xiuxiu_all_bak.insert(x); })過濾重復(fù)字段并統(tǒng)計總記錄數(shù)
db.feedImg_all.aggregate( [ {$match:{"createTime": {"$gte": 1541606400, "$lt": 1541692800}}}, // 添加過濾條件 {$project:{"feedId": true}}, {$group:{_id: "$feedId"}}, {$group:{_id: null, count: {$sum:1}}} ], {allowDiskUse: true})
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/19411.html
摘要:解決方案查詢重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)去除重復(fù)組的第一個元數(shù)據(jù),得到除第一個之外的其他元組刪除這些重復(fù)的數(shù)據(jù)刪除重復(fù)數(shù)據(jù)版本復(fù)制里的數(shù)據(jù)到另一個中過濾重復(fù)字段并統(tǒng)計總記錄數(shù)添加過濾條件 前言 分享一些Mongdb常用的數(shù)據(jù)清洗方式 注:Exceeded memory limit for $group, but didnt allow external sort. Pass allowDisk...
摘要:登陸叢機此時,叢機已經(jīng)在副本集群中了,進行最后一個操作這樣在主機上的操作就會同步到從機上了。 本文目的 為了在各個MongDB之間實現(xiàn)多節(jié)點之間的數(shù)據(jù)自動備份,提高容災(zāi)性能。MongoDB復(fù)制是將數(shù)據(jù)同步在多個服務(wù)器的過程。復(fù)制提供了數(shù)據(jù)的冗余備份,并在多個服務(wù)器上存儲數(shù)據(jù)副本,提高了數(shù)據(jù)的可用性,并可以保證數(shù)據(jù)的安全性。mongodb的復(fù)制至少需要兩個節(jié)點。其中一個是主節(jié)點,負(fù)責(zé)處理...
摘要:設(shè)計數(shù)據(jù)庫模型數(shù)據(jù)庫字段定義傳入模式編譯,生成構(gòu)造函數(shù)文檔實例化,調(diào)用模型批量查詢單條數(shù)據(jù)的查詢單條數(shù)據(jù)的刪除數(shù)據(jù)庫的正刪改查,及后臺開發(fā)邏輯文件目錄 用node.js和mongDB建立網(wǎng)站 參考資料:1.jade學(xué)習(xí)https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結(jié)構(gòu)設(shè)計(作用)http...
摘要:設(shè)計數(shù)據(jù)庫模型數(shù)據(jù)庫字段定義傳入模式編譯,生成構(gòu)造函數(shù)文檔實例化,調(diào)用模型批量查詢單條數(shù)據(jù)的查詢單條數(shù)據(jù)的刪除數(shù)據(jù)庫的正刪改查,及后臺開發(fā)邏輯文件目錄 用node.js和mongDB建立網(wǎng)站 參考資料:1.jade學(xué)習(xí)https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結(jié)構(gòu)設(shè)計(作用)http...
摘要:在這個教程中,我們將利用的和包來進行數(shù)據(jù)清洗。在很多情況下,使用唯一的值作為索引值識別數(shù)據(jù)字段是非常有幫助的。清洗數(shù)據(jù)字段到現(xiàn)在為止,我們移除了不必要的列并改變了我們的索引變得更有意義。 作者:xiaoyu微信公眾號:Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 數(shù)據(jù)科學(xué)家花了大量的時間清洗數(shù)據(jù)集,并將這些數(shù)據(jù)轉(zhuǎn)換為他們可以處理的格式。事實上,很多數(shù)據(jù)科學(xué)家聲稱開始獲取和清洗數(shù)據(jù)...
閱讀 3807·2021-11-12 10:36
閱讀 3893·2021-09-22 15:48
閱讀 3599·2019-08-30 15:54
閱讀 2670·2019-08-29 16:44
閱讀 2420·2019-08-29 16:08
閱讀 2490·2019-08-29 16:06
閱讀 1368·2019-08-29 15:21
閱讀 3295·2019-08-29 12:39