主頁 > 前端設計 > 數美科技的智能文本審核能為社交行業帶來什么價值 | 數美人工智能研究院

數美科技的智能文本審核能為社交行業帶來什么價值 | 數美人工智能研究院

2020-09-23 11:13:02 前端設計

移動互聯網打破了傳統門戶網站的交流屏障,社交軟體則架起了資訊之間無障礙溝通的橋梁,

根據《2019年社交行業研究報告》顯示,目前市面上的社交軟體一共有6000多個,包括內容社交、工具社交、場景社交三個方面,

現今,社交軟體不僅僅是普通的交友軟體,它本質上是一種傳遞資訊的媒介,并具有極大的包容性、復雜性、廣泛性,成千上萬個社交軟體散布在網路世界的各個角落,它所帶來的改變足以帶動整個互聯網時代資訊交流的變遷,

它容許并鼓勵全球不同地域的用戶注冊登錄,每一位用戶都可以自由發言盡情創作,以資訊分享為核心,進行個性交流、評論轉發、在線直播、擴列交友、知識創作等操作,所以它是數字化資訊傳播的重要落地典范,但是這把雙刃劍,同時也存在著很多令人頭疼的安全風控隱患,

社交行業挑戰升級

伴隨著產業互聯網數字化的不斷推進,社交軟體的容錯性也越來越低,

以資訊傳播為載體的6000+社交軟體在分類上成樹狀圖分布,主要以知識性內容社交分享(知乎、CSDN、微博、抖音、快手等)、即時通訊社交聊天(微信、探探、陌陌等)、各行業垂直場景社交交流(脈脈、馬蜂窩等)三類為主,

社交軟體分類

面對這些多場景多渠道社交形式,顯而易見,有交流的地方一定會有文本內容,并且在某些社交平臺上,卻存在一些共性風控問題,如頻繁出現暴恐、涉政、低俗、辱罵等違法違規內容,以及發布黑產廣告導流等違規資訊,這不僅違反了網路安全的和諧秩序,也對用戶造成了惡劣的觀感體驗,造成正常用戶流失,

從根本原因上去剖析,除了小部分原因是用戶自身的行為違規,大部分原因是由于一些黑產分子將社交軟體看成了自己的“吸金池”,且作案手法層出不窮:游戲點金、殺豬盤、惡意營銷薅羊毛、黃牛倒賣機票火車票演唱會門票…

在國家監管部門的指導下,社交平臺也采取了一系列處罰措施,

2020年8月,微博管理方關閉了109個黑產導流賬號;斗魚關停違規直播間525個、封禁賬號571個;武漢市指導某直播平臺依法依規關閉違規直播間525個,封禁違規用戶賬號571個,清理標題黨136個,

截止2020年9月,全國網信系統同電信部門處罰違法網站6907家,有關網站平臺依法關閉各類違法違規群組86萬余個…因此,國家對社交軟體的內容監管要求也越來越嚴,

各類社交平臺違規內容的不斷頻發,黑產團伙花樣百出的作案手法,使得內容審核挑戰的不斷升級,給社交軟體帶來很大的生存壓力,

黑產攻防之戰愈演愈烈,針對如何解決此類問題,數美人工智能研究院結合行業背景,對智能文本識別技術進行了深入研究和開發,通過自研天凈智能內容過濾引擎來應對挑戰,

社交軟體內容精準過濾器:數美智能文本審核

數美人工智能研究院發現,社交軟體的文本審核主要聚焦在直播視頻彈幕、論壇灌水發帖、產品評論留言、頭像昵稱簽名、垃圾廣告群發、游戲頻道聊天六大方面,

對于不同的應用場景,就對智能文本的語意識別精準度、識別范圍廣泛性、多語種識別等方面要求極高,對此,數美科技智能文本過濾通過建立完善用戶畫像系統和特色智能語意分析功能,結合多場景、多維度判定,支持涉政違禁、低俗污穢、廣告導流風險識別,

智能文本審核技術框架圖

針對不同的社交場景,數美智能文本過濾采用語意分析技術和多種文本識別模型和策略、以及文本處理技術,包括采用基于敏感詞庫的名單服務,基于深度學習的NLP模型,用戶畫像的行為分析,實時分布式規則引擎、統計引擎等,對海量文本資料進行學習和訓練,能夠精準識別語意并進行風險判斷,

涉政違規識別

實時同步網安、網信辦等有關部門監管要求,持續更新數十萬量級的敏感詞庫,通過靈活的名單匹配
(白名單、黑名單、忽略名單、變體名單等)和智能NLP模型,精準有效識別文本中的涉政違規風險,

包括領匯入名、敏感事件、禁書禁片、邪教迷信、政府機構、反動分裂、違禁品、暴力恐怖、英雄烈士、熱點事件等,并支持業務場景的敏感詞個性化設定、變體識別(同音字、形近字、拼音、插入混淆、影射等)及多種靈活匹配方式,

低俗違規識別

通過積累大量行業語料,基于NLP技術訓練低俗和辱罵等模型,結合低俗敏感詞庫,精準識別文本中不合規的低俗污穢等內容,并將該內容分為多個等級,靈活適應不同應用、場景、角色的個性化審核標準,

智能NLP模型和色情敏感詞相結合,多角度全方位進行攔截,且支持自定義敏感詞名單,并利用智能語意識別技術,對同一個詞在不同語境中產生對應的判別結果,

廣告導流識別

主要針對廣告導流黑產團伙在社交軟體中發布的大量垃圾廣告、詐騙廣告,利用智能文字變體識別能力,可以精準識別欺詐廣告、導流廣告,支持廣告法合規性檢查,減少違規風險,上萬種主流聯系方式(微信、QQ、手機號、網址、公眾號、百度搜索、微博、廣告法合規等)變體特征庫,

智能文本審核風險趨勢DEMO

漢語文化博大精深,同一個詞在不同語境中意義差別極大,傳統敏感詞匹配技術的準確率很難達到精準高效審核的要求,數美智能文本過濾識別準確率高達99%以上,可對文本進行快速處理,極大降低誤殺率,并減少人工審核成本,有效杜絕線上風險,

在技術指標上,數美智能文本過濾API平均回應時間低于50ms,最大回應時間500ms,超時率低于0.1%,吞吐大于100QPS,還可根據需求水平擴展,并可支持UTF8多語言文本字符編碼,文本內容限制為不超過1MB、2萬字,

數美核心技術優勢:文本分類NLP模型

數美智能文本過濾采用了word2vec詞向量、fasttext文本分類等技術,基于海量文本語料訓練NLP模型,

Word2Vec是從大量文本語料中以無監督的方式學習語意知識的一種模型,它被大量地用在自然語言處理(NLP)中,它通過學習文本來用詞向量的方式表征詞的語意資訊,即通過一個嵌入空間使得語意上相似的單詞在該空間內距離很近,

Embedding其實就是一個映射,將單詞從原先所屬的空間映射到新的多維空間中,也就是把原先詞所在空間嵌入到一個新的空間中去,

其中,在Word2Vec模型中,主要有Skip-Gram和CBOW兩種模型,從直觀上理解,Skip-Gram是給定input word來預測背景關系,而CBOW是給定背景關系,來預測input word,

在這里插入圖片描述
在這里插入圖片描述

fastText資料庫,能針對文本表達和分類幫助建立量化的解決方案,fastText結合了自然語言處理和機器學習中最成功的理念,這些包括了使用詞袋以及n-gram 袋表征陳述句,還有使用子字(subword)資訊,并通過隱藏表征在類別間共享資訊,

另外,數美人工智能研究院采用了一個softmax層級(利用了類別不均衡分布的優勢)來加速運算程序,這些不同概念被用于兩個不同任務:有效文本分類和學習詞向量表征,在文本處理領域中深度神經網路近來大受歡迎,但是它們訓練以及測驗程序十分緩慢,這也限制了它們在大資料集上的應用,fastText卻能夠直接解決這個問題,

fastText 專注于文本分類,這使得在特別大型的資料集上,它能夠被快速訓練,使用一個標準多核 CPU,就得到了在10分鐘內訓練完超過10億詞匯量模型的結果,此外,fastText還能在五分鐘內將50萬個句子分成超過30萬個類別,

數美人工智能研究院長期深耕在智能文本識別NLP模型訓練和開發中,不斷和黑產欺詐團伙抗爭,并從內容、行為、畫像多維度協同AI,精準有效識別違規內容,形成了一站式智能風控引擎,數美科技作為一家專業從事AI風控解決方案提供商,也會持續為全球千家社交行業客戶在線業務保駕護航,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/111310.html

標籤:其他

上一篇:c++ IO操作

下一篇:從零開始的SpringBoot前后端分離入門級專案(三)

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • vue移動端上拉加載

    可能做得過于簡單或者比較low,請各位大佬留情,一起探討技術 ......

    uj5u.com 2020-09-10 04:38:07 more
  • 優美網站首頁,頂部多層導航

    一個個人用的瀏覽器首頁,可以把一下常用的網站放在這里,平常打開會比較方便。 第一步,HTML代碼 <script src=https://www.cnblogs.com/szharf/p/"js/jquery-3.4.1.min.js"></script> <div id="navigate"> <ul> <li class="labels labels_1"> ......

    uj5u.com 2020-09-10 04:38:47 more
  • 頁面為要加<!DOCTYPE html>

    最近因為寫一個js函式,需要用到$(window).height(); 由于手寫demo的時候,過于自信,其實對前端方面的認識也不夠體系,用文本檔案直接敲出來的html代碼,第一行沒有加上<!DOCTYPE html> 導致了$(window).height();的結果直接是整個document的高 ......

    uj5u.com 2020-09-10 04:38:52 more
  • WordPress網站程式手動升級要做好資料備份

    WordPress博客網站程式在進行升級前,必須要做好網站資料的備份,這個問題良家佐言是遇見過的;在剛開始接觸WordPress博客程式的時候,因為升級問題和博客網站的修改的一些嘗試,良家佐言是吃盡了苦頭。因為購買的是西部數碼的空間和域名,每當佐言把自己的WordPress博客網站搞到一塌糊涂的時候 ......

    uj5u.com 2020-09-10 04:39:30 more
  • WordPress程式不能升級為5.4.2版本的原因

    WordPress是一款個人博客系統,受到英文博客愛好者和中文博客愛好者的追捧,并逐步演化成一款內容管理系統軟體;它是使用PHP語言和MySQL資料庫開發的,用戶可以在支持PHP和MySQL資料庫的服務器上使用自己的博客。每一次WordPress程式的更新,就會牽動無數WordPress愛好者的心, ......

    uj5u.com 2020-09-10 04:39:49 more
  • 使用CSS3的偽元素進行首字母下沉和首行改變樣式

    網頁中常見的一種效果,首字改變樣式或者首行改變樣式,效果如下圖。 代碼: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, ......

    uj5u.com 2020-09-10 04:40:09 more
  • 關于a標簽的講解

    什么是a標簽? <a> 標簽定義超鏈接,用于從一個頁面鏈接到另一個頁面。 <a> 元素最重要的屬性是 href 屬性,它指定鏈接的目標。 a標簽的語法格式:<a href=https://www.cnblogs.com/summerxbc/p/"指定要跳轉的目標界面的鏈接">需要展示給用戶看見的內容</a> a標簽 在所有瀏覽器中,鏈接的默認外觀如下: 未被訪問的鏈接帶 ......

    uj5u.com 2020-09-10 04:40:11 more
  • 前端輪播圖

    在需要輪播的頁面是引入swiper.min.js和swiper.min.css swiper.min.js地址: 鏈接:https://pan.baidu.com/s/15Uh516YHa4CV3X-RyjEIWw 提取碼:4aks swiper.min.css地址 鏈接:https://pan.b ......

    uj5u.com 2020-09-10 04:40:13 more
  • 如何設定html中的背景圖片(全屏顯示,且不拉伸)

    1 <style>2 body{background-image:url(https://uploadbeta.com/api/pictures/random/?key=BingEverydayWallpaperPicture); 3 background-size:cover;background ......

    uj5u.com 2020-09-10 04:40:16 more
  • Java學習——HTML詳解(上)

    HTML詳解 初識HTML Hyper Text Markup Language(超文本標記語言) 1 <!--DOCTYPE:告訴瀏覽器我們要使用什么規范--> 2 <!DOCTYPE html> 3 <html lang="en"> 4 <head> 5 <!--meta 描述性的標簽,描述一些 ......

    uj5u.com 2020-09-10 04:40:33 more
最新发布
  • 我的第一個NPM包:panghu-planebattle-esm(胖虎飛機大戰)使用說明

    好家伙,我的包終于開發完啦 歡迎使用胖虎的飛機大戰包!! 為你的主頁添加色彩 這是一個有趣的網頁小游戲包,使用canvas和js開發 使用ES6模塊化開發 效果圖如下: (覺得圖片太sb的可以自己改) 代碼已開源!! Git: https://gitee.com/tang-and-han-dynas ......

    uj5u.com 2023-04-20 07:59:23 more
  • 生產事故-走近科學之消失的JWT

    入職多年,面對生產環境,盡管都是小心翼翼,慎之又慎,還是難免捅出簍子。輕則滿頭大汗,面紅耳赤。重則系統停擺,損失資金。每一個生產事故的背后,都是寶貴的經驗和教訓,都是專案成員的血淚史。為了更好地防范和遏制今后的各類事故,特開此專題,長期更新和記錄大大小小的各類事故。有些是親身經歷,有些是經人耳傳口授 ......

    uj5u.com 2023-04-18 07:55:04 more
  • 記錄--Canvas實作打飛字游戲

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 打開游戲界面,看到一個畫面簡潔、卻又富有挑戰性的游戲。螢屏上,有一個白色的矩形框,里面不斷下落著各種單詞,而我需要迅速地輸入這些單詞。如果我輸入的單詞與螢屏上的單詞匹配,那么我就可以獲得得分;如果我輸入的單詞錯誤或者時間過長,那么我就會輸 ......

    uj5u.com 2023-04-04 08:35:30 more
  • 了解 HTTP 看這一篇就夠

    在學習網路之前,了解它的歷史能夠幫助我們明白為何它會發展為如今這個樣子,引發探究網路的興趣。下面的這張圖片就展示了“互聯網”誕生至今的發展歷程。 ......

    uj5u.com 2023-03-16 11:00:15 more
  • 藍牙-低功耗中心設備

    //11.開啟藍牙配接器 openBluetoothAdapter //21.開始搜索藍牙設備 startBluetoothDevicesDiscovery //31.開啟監聽搜索藍牙設備 onBluetoothDeviceFound //30.停止監聽搜索藍牙設備 offBluetoothDevi ......

    uj5u.com 2023-03-15 09:06:45 more
  • canvas畫板(滑鼠和觸摸)

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>canves</title> <style> #canvas { cursor:url(../images/pen.png),crosshair; } #canvasdiv{ bo ......

    uj5u.com 2023-02-15 08:56:31 more
  • 手機端H5 實作自定義拍照界面

    手機端 H5 實作自定義拍照界面也可以使用 MediaDevices API 和 <video> 標簽來實作,和在桌面端做法基本一致。 首先,使用 MediaDevices.getUserMedia() 方法獲取攝像頭媒體流,并將其傳遞給 <video> 標簽進行渲染。 接著,使用 HTML 的 < ......

    uj5u.com 2023-01-12 07:58:22 more
  • 記錄--短視頻滑動播放在 H5 下的實作

    這里給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 短視頻已經無數不在了,但是主體還是使用 app 來承載的。本文講述 H5 如何實作 app 的視頻滑動體驗。 無聲勝有聲,一圖頂百辯,且看下圖: 網址鏈接(需在微信或者手Q中瀏覽) 從上圖可以看到,我們主要實作的功能也是本文要講解的有: ......

    uj5u.com 2023-01-04 07:29:05 more
  • 一文讀懂 HTTP/1 HTTP/2 HTTP/3

    從 1989 年萬維網(www)誕生,HTTP(HyperText Transfer Protocol)經歷了眾多版本迭代,WebSocket 也在期間萌芽。1991 年 HTTP0.9 被發明。1996 年出現了 HTTP1.0。2015 年 HTTP2 正式發布。2020 年 HTTP3 或能正... ......

    uj5u.com 2022-12-24 06:56:02 more
  • 【HTML基礎篇002】HTML之form表單超詳解

    ??一、form表單是什么

    ??二、form表單的屬性

    ??三、input中的各種Type屬性值

    ??四、標簽 ......

    uj5u.com 2022-12-18 07:17:06 more