宣告:個人筆記觀點,持續更新......
個人收集的自用及備用的自然語言處理相關資源,僅供學術交流
專案地址:https://github.com/junchaoIU/ChineseNLP_ResourceNote
Author:?? Wu, Junchao
開源Python庫
| 專案 | 地址 | 簡介 |
|---|---|---|
| jieba分詞 | https://github.com/fxsjy/jieba | 中文分詞庫 |
| 中文資訊抽取工具 | https://github.com/fighting41love/cocoNLP | 從中文文本資料中抽取出結構化的資訊,如時間、手機號、運營商、郵箱、地址、人名、身份證 |
| LTP(Language Technology Platform) | https://github.com/HIT-SCIR/ltp | 提供了一系列中文自然語言處理工具,用戶可以使用這些工具對于中文文本進行分詞、詞性標注、句法分析等等作業 |
| 中文地址提取工具 | https://github.com/shibing624/addressparser | 支持中國三級區劃地址(省、市、區)提取和級聯映射,支持地址目的地熱力圖繪制,適配python2和python3 |
| 中文公司名稱分詞工具 | https://github.com/shibing624/companynameparser | 支持公司名稱中的地名,品牌名(主詞),行業詞,公司名后綴提取 |
| 漢字數字(中文數字)-阿拉伯數字轉換工具 | https://github.com/Wall-ee/chinese2digits | 是一個將中文數字(大寫數字) 轉化為阿拉伯數字的工具 |
| HarvestText | https://github.com/blmoistawinde/HarvestText | 是一個專注無(弱)監督方法,能夠整合領域知識(如型別,別名)對特定領域文本進行簡單高效地處理和分析的庫,適用于許多文本預處理和初步探索性分析任務,在小說分析,網路文本,專業文獻等領域都有潛在應用價值 |
知識圖譜相關
| 專案 | 地址 | 簡介 |
|---|---|---|
| 檔案圖譜資訊可視化 | https://github.com/liuhuanyong/TextGrapher | 輸入一篇檔案,將檔案進行關鍵資訊提取,進行結構化,并最終組織成圖譜組織形式,形成對文章語意資訊的圖譜化展示, |
| 京東GoodsKG | https://github.com/liuhuanyong/ProductKnowledgeGraph | 基于京東網站的商品上下級概念,商品品牌之間關系,商品描述維度等知識庫,基于該知識庫可以支持商品屬性庫構建,商品銷售問答,品牌物品生產等知識查詢服務,也可用于情感分析等下游應用. |
| 思知知識圖譜 | https://github.com/ownthink/KnowledgeGraphData | 史上最大規模1.4億中文知識圖譜開源下載,知識圖譜,通用知識圖譜,融合了兩千五百多萬的物體,擁有億級別的物體屬性關系, |
| stock-knowledge-graph | https://github.com/lemonhu/stock-knowledge-graph | (neo4j)利用網路上公開的資料構建一個小型的證券知識圖譜/知識庫 |
| 事件三元組抽取 | https://github.com/liuhuanyong/EventTriplesExtraction | 基于依存句法與語意角色標注的事件三元組抽取,可用于文本理解如檔案主題鏈,事件線等應用,內置LTP、百度DDParser和規則模版的三種抽取方式 |
| 中文人物知識圖譜構建 | https://github.com/liuhuanyong/PersonRelationKnowledgeGraph | 中文人物關系知識圖譜專案,內容包括中文人物關系圖譜構建,基于知識庫的資料回標,基于遠程監督與bootstrapping方法的人物關系抽取,基于知識圖譜的知識問答等應用. |
| awesome-knowledge-graph | https://github.com/husthuke/awesome-knowledge-graph | 整理知識圖譜相關學習資料,提供系統化的知識圖譜學習路徑, |
語料&資料集
| 專案 | 地址 | 簡介 |
|---|---|---|
| ChineseNlpCorpus | https://github.com/SophonPlus/ChineseNlpCorpus | 搜集、整理、發布 中文 自然語言處理 語料/資料集, 包含情感/觀點/評論 傾向性分析、中文命名物體識別、推薦系統、FAQ 問答系統多個領域的資料集 |
| 公司名語料庫(Company-Names-Corpus) | https://github.com/wainshine/Company-Names-Corpus | 公司名語料庫,機構名語料庫,公司簡稱,縮寫,品牌詞,企業名,可用于中文分詞、機構名物體識別, |
| 微信公眾號語料庫 | https://github.com/nonamestreet/weixin_public_corpus | 部分網路抓取的微信公眾號的文章,已經去除HTML,只包含了純文本, |
| 百度知道問答語料庫 | https://github.com/liuhuanyong/MiningZhiDaoQACorpus | 百度知道問答語料庫,包括超過580萬的問題,938萬的答案,5800個分類標簽,基于該問答語料庫,可支持多種應用,如閑聊問答,邏輯挖掘, |
| 多語言音頻資料 | https://voice.mozilla.org/en/datasets | 多種語言音頻資料,包括來自42,000名貢獻者超過1,400小時的語音樣本,涵github |
| 中文突發事件語料庫 | https://github.com/shijiebei2009/CEC-Corpus | 中文突發事件語料庫是由上海大學(語意智能實驗室)所構建,根據國務院頒布的《國家突發公共事件總體應急預案》的分類體系,從互聯網上收集了5類(地震、火災、交通事故、恐怖襲擊和食物中毒)突發事件的新聞報道作為生語料,然后再對生語料進行文本預處理、文本分析、事件標注以及一致性檢查等處理,最后將標注結果保存到語料庫中,CEC合計332篇, |
| dh_msra | 下載地址 | 5 萬多條中文命名物體識別標注資料(包括地點、機構、人物) |
詞表
| 專案 | 地址 | 簡介 |
|---|---|---|
| multistop | https://github.com/hidadeng/multistop | 停用詞表,支持中英法德等15種語言 |
其他可能有幫助的研究
| 專案 | 地址 | 簡介 |
|---|---|---|
| 事理知識抽取研究 | https://github.com/liuhuanyong/ComplexEventExtraction | 中文復合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件抽取,并形成事理圖譜, |
| 領域情感詞典構建 | https://github.com/hidadeng/wordexpansion | 使用SO_PMI互資訊演算法簡單快速構建不同領域(手機、汽車等)的專業情感詞典 |
- 個人博客:春天與愛情の櫻花
- 博客園:夢淑の博客園
- 語雀:CCの知識庫
- Github:https://github.com/junchaoIU
有什么問題請致郵:[email protected],我會第一時間為你解答
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/294612.html
標籤:其他
