摘要:準(zhǔn)備字典文件為了更加準(zhǔn)確的將失蹤地址中的省市縣三級(jí)單位提取出來(lái),最好能夠直接以省市縣區(qū)的名稱(chēng)為字典,這樣通過(guò)分詞以上的詞都能準(zhǔn)確的切分出來(lái)。在網(wǎng)上搜索發(fā)現(xiàn),根據(jù)最新的國(guó)家統(tǒng)計(jì)區(qū)位碼之作的現(xiàn)成的字典文件,并沒(méi)有。
在失蹤兒童信息保存在本地之后,有一個(gè)字段是失蹤地點(diǎn),字段內(nèi)容通常比較詳細(xì),具體到了失蹤的街道或者村,我打算通過(guò)某種方法將失蹤地點(diǎn)中的省、市、縣/區(qū)三級(jí)地址提取出來(lái)。
確定分詞技術(shù)知道要干什么之后,那就將這個(gè)“某種方法”確定下來(lái),根據(jù)以往的知識(shí)積累,利用分詞的原理來(lái)做,可能會(huì)更簡(jiǎn)單。這次就不用php來(lái)寫(xiě)了,換成python,在我的電腦上已經(jīng)安裝了python的開(kāi)發(fā)環(huán)境,在python下使用的分詞組件,搜索了一下,jieba用的比較多,而且調(diào)用也非常的容易。
準(zhǔn)備字典文件為了更加準(zhǔn)確的將失蹤地址中的省、市、縣三級(jí)單位提取出來(lái),最好能夠直接以省、市、縣、區(qū)的名稱(chēng)為字典,這樣通過(guò)分詞99%以上的詞都能準(zhǔn)確的切分出來(lái)。
在網(wǎng)上搜索發(fā)現(xiàn),根據(jù)最新的國(guó)家統(tǒng)計(jì)區(qū)位碼之作的現(xiàn)成的字典文件,并沒(méi)有。但是有同學(xué)之前開(kāi)發(fā)過(guò)爬蟲(chóng)將這些區(qū)位關(guān)系存在了mysql數(shù)據(jù)庫(kù),并且在網(wǎng)上有他放出來(lái)的sql備份文件,下載下來(lái)恢復(fù)到數(shù)據(jù)庫(kù)中即可。
這個(gè)文件包含70多萬(wàn)行數(shù)據(jù),在導(dǎo)入數(shù)據(jù)庫(kù)的過(guò)程大約花了十來(lái)分鐘。數(shù)據(jù)表如下:
因此,還需要將數(shù)據(jù)表中province_name,city_name,county_name提取出來(lái)即可,逐行存入文件就成為可以使用的字典文件。
import pymysql class AnManMysql: phost = "127.0.0.1" pyuer = "root" password = "123456" database = "anman_org" def pyMyConnection(phost,pyuser,password,database): db = pymysql.connect(phost,pyuser,password,database,charset="utf8") # cursor = db.cursor() return db # 導(dǎo)出省市縣鎮(zhèn)村字典 def getDict(db): cursor = db.cursor() cursor.execute("select distinct province_name from j_position") data = cursor.fetchall() # 打開(kāi)字典文件my.dict fo = open("my.dict","w+") for da in data: print(da[0]) fo.seek(0,2) fo.write(da[0]+" ") print(len(data)) cursor.execute("select distinct city_name from j_position") data = cursor.fetchall() for da in data: print(da[0]) fo.seek(0, 2) fo.write(da[0] + " ") print(len(data)) cursor.execute("select distinct county_name from j_position") data = cursor.fetchall() for da in data: print(da[0]) fo.seek(0, 2) fo.write(da[0] + " ") print(len(data)) cursor.execute("select distinct town_name from j_position") data = cursor.fetchall() for da in data: print(da[0]) fo.seek(0, 2) fo.write(da[0] + " ") print(len(data)) # cursor.execute("select distinct village_name,village_id from j_position") # data = cursor.fetchall() # for da in data: # print(da[0]) # print(da[1]) # fo.seek(0, 2) # fo.write(da[0] + " ") # print(len(data)) fo.close()
在python里新建一個(gè)類(lèi),增加一個(gè)方法,打開(kāi)一個(gè)字典文件,逐個(gè)從數(shù)據(jù)庫(kù)中distinct字段,然后逐行追加到字典文件中。
cursor = AnManMysql.pyMyConnection(AnManMysql.phost,AnManMysql.pyuer,AnManMysql.password,AnManMysql.database) AnManMysql.getDict(cursor)最后再來(lái)看看得到的字典文件
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/41623.html
摘要:需求展示西安市各區(qū)縣的地圖,點(diǎn)擊各區(qū)縣下鉆到各鄉(xiāng)鎮(zhèn)街道,只能內(nèi)網(wǎng)環(huán)境使用,不可用通過(guò)百度高德地圖來(lái)實(shí)現(xiàn)。利用展示自定義的地圖關(guān)于具體如何導(dǎo)入格式數(shù)據(jù)到的方法,可以參考官方示例。 需求 展示西安市各區(qū)縣的地圖,點(diǎn)擊各區(qū)縣下鉆到各鄉(xiāng)鎮(zhèn)/街道,只能內(nèi)網(wǎng)環(huán)境使用,不可用通過(guò)百度/高德地圖來(lái)實(shí)現(xiàn)。 解決 利用地圖數(shù)據(jù)生成區(qū)域的geojson 網(wǎng)絡(luò)上大部分地圖數(shù)據(jù)只是到省市,最多到區(qū)縣,再往下的數(shù)...
摘要:實(shí)現(xiàn)全國(guó)城市三級(jí)聯(lián)動(dòng)傳統(tǒng)模式,監(jiān)聽(tīng)下拉選擇框的事件實(shí)現(xiàn)全國(guó)城市三級(jí)聯(lián)動(dòng)傳統(tǒng)方式省份請(qǐng)選擇城市請(qǐng)選擇區(qū)縣請(qǐng)選擇三級(jí)聯(lián)動(dòng)用到的全國(guó)城市數(shù)據(jù) extjs 6.2.0 實(shí)現(xiàn)全國(guó)城市三級(jí)聯(lián)動(dòng) 傳統(tǒng)模式,監(jiān)聽(tīng)下拉選擇框的change事件實(shí)現(xiàn) 全國(guó)城市三級(jí)聯(lián)動(dòng)-傳統(tǒng)方式 function ge...
摘要:寫(xiě)省市區(qū)三級(jí)聯(lián)動(dòng)插件的關(guān)鍵是在于你如何編寫(xiě)自己的省市縣區(qū)文件,你要是把數(shù)據(jù)格式寫(xiě)對(duì)了,可以很輕松的寫(xiě)一省市區(qū)插件出來(lái)。 最近剛做完一個(gè)版本的項(xiàng)目,閑暇時(shí)間,就索性把項(xiàng)目中需要用到的插件都自己寫(xiě)了一個(gè),畢竟自己動(dòng)手豐衣足食才是最重要,自己寫(xiě)的,可以應(yīng)對(duì)各種項(xiàng)目需求,今天又把手機(jī)端的省市區(qū)三級(jí)聯(lián)動(dòng)選擇功能編寫(xiě)了一個(gè)插件出來(lái),代碼很簡(jiǎn)單,樣式也是應(yīng)用的跟日期時(shí)間選擇插件的一樣。寫(xiě)省市區(qū)三級(jí)聯(lián)...
摘要:寫(xiě)省市區(qū)三級(jí)聯(lián)動(dòng)插件的關(guān)鍵是在于你如何編寫(xiě)自己的省市縣區(qū)文件,你要是把數(shù)據(jù)格式寫(xiě)對(duì)了,可以很輕松的寫(xiě)一省市區(qū)插件出來(lái)。 最近剛做完一個(gè)版本的項(xiàng)目,閑暇時(shí)間,就索性把項(xiàng)目中需要用到的插件都自己寫(xiě)了一個(gè),畢竟自己動(dòng)手豐衣足食才是最重要,自己寫(xiě)的,可以應(yīng)對(duì)各種項(xiàng)目需求,今天又把手機(jī)端的省市區(qū)三級(jí)聯(lián)動(dòng)選擇功能編寫(xiě)了一個(gè)插件出來(lái),代碼很簡(jiǎn)單,樣式也是應(yīng)用的跟日期時(shí)間選擇插件的一樣。寫(xiě)省市區(qū)三級(jí)聯(lián)...
閱讀 4117·2023-04-26 02:07
閱讀 3742·2021-10-27 14:14
閱讀 2966·2021-10-14 09:49
閱讀 1686·2019-08-30 15:43
閱讀 2696·2019-08-29 18:33
閱讀 2432·2019-08-29 17:01
閱讀 976·2019-08-29 15:11
閱讀 679·2019-08-29 11:06