外貿(mào)領(lǐng)航
首頁(yè)行業(yè)資訊 > 共筑反詐防線「構(gòu)建什么體系」

共筑反詐防線「構(gòu)建什么體系」

來(lái)源:互聯(lián)網(wǎng) 2024-07-23 21:04:01

本文根據(jù)數(shù)美科技聯(lián)合創(chuàng)始人&CTO梁堃先生在2018年DataFun算法架構(gòu)系列活動(dòng)—AI 在反欺詐中的應(yīng)用實(shí)踐所做分享《互聯(lián)網(wǎng)反欺詐實(shí)踐——構(gòu)建立體攻防體系》整理編輯而來(lái),在未改變?cè)獾幕A(chǔ)上略作刪減。

導(dǎo)讀:謝謝主辦方,謝謝大家,我是數(shù)美科技的CTO梁堃,很高興有機(jī)會(huì)跟大家做這樣的一個(gè)分享。我是2009年畢業(yè)之后就去百度,然后在百度一直做到2014年,然后又去了小米的大數(shù)據(jù)團(tuán)隊(duì),2015年數(shù)美科技成立的時(shí)候,來(lái)到了數(shù)美科技創(chuàng)業(yè),我們公司主要做的就是給其他公司提供反作弊的服務(wù),我們主要的客戶來(lái)自互聯(lián)網(wǎng)和金融。

今天主要分享的是互聯(lián)網(wǎng)反欺詐的實(shí)踐,重點(diǎn)是他的副標(biāo)題,構(gòu)建立體防御體系。

這是我這次分享的一個(gè)大綱,我會(huì)先介紹下背景,之后會(huì)講兩個(gè)經(jīng)典的問(wèn)題,然后重點(diǎn)介紹下我們的反欺詐體系。

--

01

背景與挑戰(zhàn)

首先在14年的時(shí)候大家開始提出互聯(lián)網(wǎng) 的概念,到現(xiàn)在真的在落實(shí),我們發(fā)現(xiàn)互聯(lián)網(wǎng)和人們的衣食住行,幾乎每個(gè)方面都結(jié)合起來(lái)了,每個(gè)人每天花在互聯(lián)網(wǎng)上的時(shí)間也越來(lái)越長(zhǎng),這樣在互聯(lián)網(wǎng)上的欺詐和作弊行為,也不停地在增加。

這是2015年的一個(gè)統(tǒng)計(jì),其實(shí)我們想想一個(gè)新的互聯(lián)網(wǎng)產(chǎn)品,從他誕生的那一天起,就面臨著欺詐行為:

我開發(fā)一款app,不管是外賣的還是直播的,還是金融借貸app,他上線開始有這樣的流量推廣,于是第一件事情就來(lái)了,渠道流量有多少是作弊流量,當(dāng)用戶來(lái)的時(shí)候,有多少是注冊(cè),這些用戶里面有多少是機(jī)器在注冊(cè),有多少是這種垃圾的注冊(cè),登陸的時(shí)候也有登陸的問(wèn)題,比如說(shuō)賬戶攻擊,因?yàn)槲覀冇泻芏噘~號(hào)關(guān)聯(lián)了有價(jià)值的東西,包括一些支付行為或者優(yōu)惠券什么的,有多少是盜號(hào)登陸,有多少是賬戶攻擊;然后很多很多的營(yíng)銷活動(dòng),也在不停地在做,比如說(shuō)搶個(gè)優(yōu)惠券拉,因?yàn)榕判星懊嬗行┆?jiǎng)勵(lì)拉等等,刷榜我們管他統(tǒng)一叫做羊毛黨,就是搶優(yōu)惠券,刷人氣,刷單的情況。

一般的平臺(tái)都會(huì)讓大家換個(gè)頭像,換個(gè)昵稱,或者是發(fā)一些評(píng)論拉,發(fā)一些帖子拉,發(fā)一些私信拉,這里面就會(huì)有大量的問(wèn)題,就是各種各樣的欺詐廣告,其實(shí)有流量的地方就有欺詐廣告,就好比我們走在路上,人流量大的地方,電線桿上總會(huì)有一些小廣告,在互聯(lián)網(wǎng)上也是一樣子的,但凡有人氣的地方,就會(huì)有導(dǎo)流,各種問(wèn)題都在這里面出現(xiàn)。

在出現(xiàn)這情況的時(shí)候,我們來(lái)想想我們的對(duì)手他的核心利益是什么?

我們的對(duì)手他的核心就在盈利這件事情上,所以在互聯(lián)網(wǎng)上兩類最猖獗的灰色產(chǎn)業(yè),他們?cè)谧鍪裁矗麄冊(cè)讷@利,獲利的方式主要有兩種:

第一種方式就是我去參加各種各樣的營(yíng)銷活動(dòng),在營(yíng)銷活動(dòng)里面直接獲利,或者是我跟某個(gè)店家,某個(gè)主播合作,幫她刷人氣,主播獲利,在把她獲利的情況分給我,這是直接獲利的情況;

第二種就是我們互聯(lián)網(wǎng)上的經(jīng)典模式,我就去上面發(fā)各種各樣的導(dǎo)流廣告,這些廣告都是按點(diǎn)擊付費(fèi)的,導(dǎo)流一個(gè)人,活點(diǎn)擊一次給多少錢,這就是我們的對(duì)手在互聯(lián)網(wǎng)上最猖獗的倆種模式,而我們的對(duì)手也不再是原來(lái)的小作坊式的這種的刷單了,我們的對(duì)手也是在專業(yè)化的,他們也是上班打卡的,很多地方上班都是996制的上班工作日,這是原來(lái)的一個(gè)事例,就是發(fā)這種廣告的,我們來(lái)想想,假如我要去做這種壞事,比如說(shuō)最近比較火的直播答題,網(wǎng)上至少有三個(gè)項(xiàng)目,通過(guò)OCR去識(shí)別這樣的題目,然后通過(guò)百度搜索自動(dòng)獲取答案的工具已經(jīng)有了。

假如說(shuō)我想做這樣的壞事,我要怎么做呢?

首先,我一定需要賬號(hào)對(duì)吧,那么第一個(gè)環(huán)節(jié)就是卡商,我可以去卡商那買一批手機(jī)號(hào),去注冊(cè)我的賬號(hào)。

第二個(gè)就是VPN的供應(yīng)商,VPN有可能是帶著機(jī)房的服務(wù)器,也有可能是通過(guò)肉機(jī)服務(wù)器,因?yàn)椴还苁亲鰪V告還是答題,去刷渠道流量,刷廣告,他一定會(huì)有個(gè)訴求,就是批量做,如果不批量做他的收益是非常非常低的,地說(shuō)一個(gè)人全答對(duì)有怎么樣,我獲得3、5塊錢的獎(jiǎng)勵(lì),對(duì)我的收益太低了,發(fā)廣告更是這樣,發(fā)一萬(wàn)條的欺詐廣告,他的點(diǎn)擊率能有多少,1%甚至0.1%,所以他一定要批量做,如果批量的做,他就需要大量的賬號(hào),大量的行為,卡商提供了注冊(cè)賬號(hào)的一個(gè)關(guān)鍵資源就是手機(jī)號(hào),但是這些賬號(hào)的行為一定要分部在全國(guó)各地,所以他需要VPN的提供商,如果他只是從少數(shù)的vpn過(guò)來(lái)的話,其實(shí)是不需要我們提供這樣的反欺詐服務(wù)的,每個(gè)公司的業(yè)務(wù)層面就可以直接干掉他了。

第三塊就是軟件的提供商。我既然有這樣的批量行為,我靠手工操作還是太慢了,我通常都會(huì)有一些軟件,包括這種批量控制的軟件,通過(guò)批量控制來(lái)進(jìn)行發(fā)廣告,答題這樣的操作,在軟件提供商里還有另外一種軟件叫篡改軟件,這個(gè)后面我會(huì)提到,篡改軟件他主要是在篡改設(shè)備,或者是篡改設(shè)備的信息,假設(shè)他只有100臺(tái)設(shè)備,但是他可以通過(guò)篡改來(lái)變成1000臺(tái),10000臺(tái),甚至更多的設(shè)備。

其實(shí)這個(gè)產(chǎn)業(yè)他的分工是非常非常嚴(yán)密的,我們已經(jīng)發(fā)現(xiàn)了一些事情,就是拿這個(gè)賬號(hào)去發(fā)廣告的人,答題的人,根本就是倆伙人,有一些他就是比如說(shuō)在分享大會(huì)上,我只需要注冊(cè)100個(gè)賬號(hào),我的任務(wù)就完成了,把這100個(gè)賬號(hào)賣給下一組人,下一組人再拿這100個(gè)人去干別的事情,比如說(shuō)去答題,最后一步就是真的去實(shí)施這種業(yè)務(wù)的欺詐行為,就想剛才所說(shuō)的欺詐分為倆種,第一種統(tǒng)稱羊毛黨,不管他是刷單,刷優(yōu)惠券,還是答題,他是直接或者和別人合作直接獲得這樣的利益;第二種就是貼出來(lái)的這種引流廣告,他通過(guò)幫別人發(fā)廣告,導(dǎo)流點(diǎn)擊,按點(diǎn)擊計(jì)費(fèi)或者別的方式計(jì)費(fèi)也好,去獲得利益,當(dāng)然廣告的形式也分好多種,包括最原始的文本廣告,你會(huì)發(fā)現(xiàn)文本的被解決以后,他們立刻會(huì)改變方式,包括圖片的、視頻的、語(yǔ)音的,比如說(shuō)去年有一個(gè)ktv的應(yīng)用,人們可以在上面唱歌,然后分享自己,他們?cè)趺创驈V告呢,他真的是在唱一首歌,只不過(guò)這首歌唱到一半的時(shí)候,他就停了,然后開始去讀一段廣告詞,讀自己的手機(jī)號(hào),聯(lián)系方式,或者是微信號(hào),讀完之后在繼續(xù)唱歌,這樣即使是有人工審核的團(tuán)隊(duì),如果不是把一首歌完整的聽到尾,這種廣告也是很難很難識(shí)別出來(lái)的。

這個(gè)數(shù)據(jù)應(yīng)該也是2015年或者2016年的數(shù)據(jù),就是國(guó)內(nèi)的黑產(chǎn)從業(yè)人員應(yīng)該是在 150萬(wàn)人左右,今天的話,我猜會(huì)更高。

剛才有同學(xué)說(shuō)道用設(shè)備這塊,用虛擬機(jī)這塊,覺(jué)得成本太高,其實(shí)有很多作弊行為,他真的是在用真實(shí)的設(shè)備,為什么呢,他可以買一些比較便宜的設(shè)備,這種便宜的設(shè)備可能幾十塊錢到幾百塊錢買的,但這并不是關(guān)鍵,更加關(guān)鍵的是什么呢?就是這些設(shè)備可以重復(fù)利用,這些雖然都是100臺(tái)設(shè)備對(duì)吧,就算我不篡改他的ID,今天我可以去刷小米的應(yīng)用商店,明天可以去刷熊貓的優(yōu)惠券,后天我可以去刷另外一家,在不停的在重復(fù)使用這100臺(tái)設(shè)備,這樣他的收益就會(huì)高于成本,一般情況下,如果我真的有100臺(tái)設(shè)備,我都不用自己動(dòng)手做這些事情,我只需要按天或者小時(shí)去出租這些設(shè)備就可以了,然后這些設(shè)備今天出租給這個(gè)團(tuán)伙,他會(huì)干自己的事情,明天出租給另一個(gè)團(tuán)伙,他又干另外一件事,唯一需要的就是我出租這些設(shè)備的時(shí)候都要記錄上這些團(tuán)伙都干了什么壞事兒,我只要不重復(fù)就可以了。

所以我們?cè)谧龇雌墼p的時(shí)候我們的目標(biāo)與挑戰(zhàn)是什么呢?

目標(biāo)有倆個(gè),第一個(gè)目標(biāo)是用戶體驗(yàn),我們是第三方公司,我們?cè)诮o別人做反欺詐的時(shí)候,我們是沒(méi)有業(yè)務(wù)數(shù)據(jù)的,我們通常是從一些通用的行為去識(shí)別反欺詐行為,既然我不能從業(yè)務(wù)上給他們做一些變化,所以我們會(huì)更多的從用戶體驗(yàn)上來(lái),就是當(dāng)用戶在使用人家的業(yè)務(wù),根本感知不到我們的存在,對(duì)正常用戶的體驗(yàn)毫無(wú)影響,這是第一個(gè)目標(biāo)。

第二個(gè)目標(biāo)就是精準(zhǔn),我們?cè)谧龇雌墼p的時(shí)候整個(gè)產(chǎn)品系列都是實(shí)時(shí)攔截,就是能夠非常實(shí)時(shí)、準(zhǔn)確地識(shí)別這種欺詐行為。

說(shuō)到反欺詐,其實(shí)歷史上有倆種思路在做反欺詐,一種叫做Fraud Prevention(欺詐阻止),這個(gè)常見(jiàn)的方法就是大家常見(jiàn)的銀行大額轉(zhuǎn)賬的那個(gè)方法,你需要硬件open,然后需要輸入非常復(fù)雜的密碼,他是假設(shè)用戶每個(gè)環(huán)節(jié)都可能存在欺詐,我事先把完成欺詐行為的門檻提的很高,來(lái)阻止欺詐的發(fā)生,這種方式其實(shí)是和我們第一個(gè)目標(biāo)用戶體驗(yàn)是沖突的,他在大額轉(zhuǎn)賬的時(shí)候大家用的都很安心,但是比如說(shuō)我們每次打車,都要插一個(gè)硬件,然后再輸入密碼,才能把這幾塊錢付完,這樣的用戶體驗(yàn)就太差了,所以我們自己在做的時(shí)候,我們用的是第二種方法,這個(gè)叫做 Fraud Detection(欺詐檢測(cè))。

第二個(gè)方法就是在滿足我們這倆個(gè)目標(biāo),第一個(gè)我不會(huì)在用戶做這個(gè)操作之前,先付出很高的門檻,硬件拉,驗(yàn)證碼拉,不是這樣,而是我讓正常的用戶更順暢的,像平常一樣去完成這個(gè)的操作,在他的操作過(guò)程中去實(shí)時(shí)檢測(cè)他的行為風(fēng)險(xiǎn),根據(jù)他的行為風(fēng)險(xiǎn)等級(jí),做出不同的響應(yīng),如果風(fēng)險(xiǎn)很高的話,可能會(huì)做一個(gè)實(shí)時(shí)的攔截,我會(huì)告訴這次注冊(cè)是有問(wèn)題的,應(yīng)該攔截,或者告訴客戶這次注冊(cè)是沒(méi)有問(wèn)題的,你應(yīng)該把他放過(guò),好的,這就是我們的倆個(gè)目標(biāo),一個(gè)是用戶體驗(yàn),一個(gè)是精準(zhǔn)。

我們面臨的挑戰(zhàn)是什么呢?

首先是我們的對(duì)手,他們的專業(yè)技術(shù)水平在不斷地提高,我們了解過(guò)一些對(duì)手的情況,他們真的是有固定的辦公地點(diǎn),有專業(yè)的團(tuán)隊(duì)在做這件事情,第二個(gè)就是,我們常常說(shuō)模型。

說(shuō)人工智能,說(shuō)機(jī)器學(xué)習(xí),但是有一件事情是這些東西都需要的,就是這種全局的數(shù)據(jù)支撐,我們很多客戶他們其實(shí)是非常非常有技術(shù)實(shí)力的,他們?cè)谌斯ぶ悄芊矫娴耐度胍卜浅4螅窃诜雌墼p這塊的時(shí)候他仍然會(huì)和我們合作的一個(gè)很重要的原因就是在全局的數(shù)據(jù)支撐,還記得剛才欺詐那個(gè)鏈條上第一個(gè)是什么嗎,第一個(gè)是貓式號(hào)碼,或者卡商,手機(jī)號(hào)接收驗(yàn)證碼這件事情,他沒(méi)有任何可以篡改的余地,手機(jī)號(hào)總也不能改,但是這個(gè)生意仍然能做下去,為什么?

卡商的一個(gè)核心的技術(shù)能力是什么,說(shuō)起來(lái)特別簡(jiǎn)單,我有一萬(wàn)個(gè)手機(jī)號(hào),用一個(gè)目錄結(jié)構(gòu)記住這些手機(jī)號(hào)在A公司在B公司注冊(cè)過(guò)賬號(hào)了,我只要把這件事記住就行了,假設(shè)你要去買這個(gè)批量驗(yàn)證碼服務(wù)的話,你就要和卡商說(shuō)你要在哪家公司注冊(cè)多少賬號(hào),這時(shí)候卡商就會(huì)掃下這個(gè)庫(kù),看哪些手機(jī)號(hào)還沒(méi)有出現(xiàn)在這家公司上,然后用這些手機(jī)號(hào),從中挑選出1000個(gè)手機(jī)號(hào)來(lái)完成我的這次請(qǐng)求,其實(shí)這里面沒(méi)什么技術(shù)含量,他就是把一個(gè)手機(jī)號(hào)在不同的地方在用,所以當(dāng)你缺乏全局的數(shù)據(jù)支撐的時(shí)候,你就會(huì)面臨一個(gè)很嚴(yán)重性的問(wèn)題,一個(gè)手機(jī)號(hào)來(lái)你這里注冊(cè),不管這個(gè)手機(jī)號(hào)在多少家做過(guò)壞事,到你這都是一個(gè)新的手機(jī)號(hào),都能正常的接收驗(yàn)證碼,所以缺乏全局的風(fēng)險(xiǎn)數(shù)據(jù)支撐在業(yè)內(nèi)也是一個(gè)非常頭疼的問(wèn)題。

第三個(gè)就想之前的同學(xué)說(shuō)的一樣,專業(yè)的反欺詐團(tuán)隊(duì)真的是不足的,在各個(gè)公司,每個(gè)公司都有自己主要的業(yè)務(wù)招的工程師,機(jī)器學(xué)習(xí)工程師,可能都是非常缺人的,所以反欺詐這塊投入的更加的少,通常是業(yè)務(wù)團(tuán)隊(duì)分一小隊(duì)來(lái)兼職做這件事情,最后一個(gè)就是上面這倆個(gè)目標(biāo)其實(shí)是矛盾的,既要正常用戶毫無(wú)感知,又要把壞的用戶全都找出來(lái),實(shí)踐上來(lái)講通過(guò)一組模型或者策略很難做到高召回率和低誤殺率,很難同時(shí)實(shí)現(xiàn)這倆個(gè)目標(biāo)。

--

02

兩個(gè)經(jīng)典問(wèn)題

我先從倆個(gè)經(jīng)典問(wèn)題入手。

第一個(gè)就是應(yīng)對(duì)廣告的問(wèn)題,當(dāng)我們?cè)谧鰞?nèi)容作弊的時(shí)候我們會(huì)提到一些色情內(nèi)容啊,一些涉政、爆恐等等其他的,但是整個(gè)平臺(tái)上出現(xiàn)的最大量的問(wèn)題其實(shí)就是廣告,廣告是直接給灰色產(chǎn)業(yè)帶來(lái)利益的,而廣告出現(xiàn)的場(chǎng)景也會(huì)非常的多,比如說(shuō)一個(gè)頭像,一個(gè)昵稱,他的私信,他的評(píng)論,如果他在群聊的話,在群聊里出現(xiàn)的一些問(wèn)題,這就是通過(guò)內(nèi)容的層面可以解決很大一部分廣告的問(wèn)題,這塊兒會(huì)用到很多技術(shù),當(dāng)然深度學(xué)習(xí)我們也在用,但是深度學(xué)習(xí)只用到了其中的一個(gè)方面,而經(jīng)典的機(jī)器學(xué)習(xí)算法,比如說(shuō)svm還是非常有效果的,大家在解決問(wèn)題的時(shí)候,不用一味的追求這種深度學(xué)習(xí)的算法,深度學(xué)習(xí)在圖像處理,在語(yǔ)音處理,以及在長(zhǎng)范圍的自然語(yǔ)言理解上確實(shí)很有用,但是在一些短句上的分類像SVM經(jīng)典的模型他的準(zhǔn)確率和召回都可以做的非常高。

要解決這種內(nèi)容的問(wèn)題,他面臨兩個(gè)問(wèn)題:

第一個(gè)核心就是語(yǔ)義,我們盡量去理解這個(gè)內(nèi)容的語(yǔ)義,因?yàn)樽匀徽Z(yǔ)言這件事情相對(duì)復(fù)雜,同樣的一個(gè)詞或者短語(yǔ)當(dāng)在不同語(yǔ)境中他的含義是完全不同的,如果用關(guān)鍵詞或關(guān)鍵詞組合去做這件事情是很復(fù)雜的,第一個(gè)問(wèn)題是他會(huì)造成大量的誤殺,很多發(fā)東西發(fā)不出去,針對(duì)語(yǔ)義這塊該如何去做?想長(zhǎng)范圍語(yǔ)義的理解用svm效果很一般,這時(shí)候我們嘗試使用深度學(xué)習(xí)的算法,像lstm他非常擅長(zhǎng)去理解記憶相對(duì)較長(zhǎng)的語(yǔ)境,另外我們要去識(shí)別短句,這時(shí)候使用svm是非常有效的。在這個(gè)過(guò)程中,并不寄希望于用一個(gè)模型或者是一組規(guī)則,或者是在一個(gè)點(diǎn)上去把所有的壞人都攔住,把所有好人都放過(guò)去,當(dāng)一個(gè)文本發(fā)出來(lái)之后,我們?cè)谟胠stm模型去捕獲他的長(zhǎng)范圍內(nèi)是否有問(wèn)題,同時(shí)用svm去捕獲他當(dāng)前這段內(nèi)容里面是否有問(wèn)題,是不是欺詐或者色情小廣告。

第二我們是有對(duì)手的,我們的對(duì)手發(fā)現(xiàn)自己的那些廣告點(diǎn)擊率降低了,他馬上意識(shí)到我的廣告其實(shí)沒(méi)發(fā)出去,比如說(shuō)在直播間有這樣的一種服務(wù),就是你發(fā)一段話你自己是可以看到的,但其他人不一定看的到,當(dāng)對(duì)手在檢測(cè)的時(shí)候,他有時(shí)會(huì)看點(diǎn)擊率,或者用另外一個(gè)手機(jī)看他的廣告是否真的發(fā)出去了,一但攔截一條廣告,你的對(duì)手是非常清楚的,他幾乎在秒這個(gè)級(jí)別就意識(shí)到自己的廣告發(fā)不出去,所以他一定會(huì)變,這里面就涉及到了一個(gè)對(duì)變體的識(shí)別,說(shuō)道這塊的時(shí)候,我確實(shí)覺(jué)得人腦是及其厲害的,當(dāng)你在做這種變體的時(shí)候,比如說(shuō)下面微信的各種詭異的變體,各種歐洲語(yǔ)言里面的變體,比如說(shuō)某個(gè)歐洲語(yǔ)言看起來(lái)很想0其實(shí)他根本不是0而是一個(gè)詭異的字母,這種變體出現(xiàn)的時(shí)候,會(huì)對(duì)正常的svc或者lstm造成影響,怎么辦?

這塊我們用了一些圖像技術(shù),比如說(shuō)Char&Word Embedding,這倆種都在用,然后靠相似度去識(shí)別這種變體;第二種就是用序列標(biāo)注,在有變體的同時(shí)還有干擾,比如說(shuō)在中間插入一些詭異的字符去干擾你的切詞系統(tǒng),試圖干擾你的模型,這個(gè)時(shí)候我們會(huì)用CRF這種序列標(biāo)注的方法,去盡可能的把這種詭異的字符標(biāo)注出來(lái),然后把他去除,然后開始進(jìn)行切詞等別的處理方式。

這其實(shí)我們?nèi)ツ昃烷_始做了,通過(guò)這件事引發(fā)了我們的一個(gè)思考,就是我們?cè)谟脵C(jī)器學(xué)習(xí)去解決這種反欺詐的問(wèn)題,但是今天我們所有的機(jī)器學(xué)習(xí),不管是深度神經(jīng)網(wǎng)絡(luò)還是GBDT,SVM還是隨機(jī)森林還是別的什么機(jī)器學(xué)習(xí),他有另外一個(gè)名字叫統(tǒng)計(jì)學(xué)習(xí)對(duì)吧,這中機(jī)器學(xué)習(xí)算法對(duì)他解決問(wèn)題是有假設(shè)的,他的問(wèn)題用的特征也好,樣本也好,他的分布在統(tǒng)計(jì)上是相對(duì)穩(wěn)定的,所以機(jī)器學(xué)習(xí)才能把相對(duì)穩(wěn)定的pattern學(xué)出來(lái),才能做些東西,那我們來(lái)想一想我們的對(duì)手他的行為是否在統(tǒng)計(jì)學(xué)上穩(wěn)定分布的呢,這個(gè)是隨機(jī)的,所以在用機(jī)器學(xué)習(xí)尤其是統(tǒng)計(jì)學(xué)習(xí)來(lái)解決這種欺詐問(wèn)題的時(shí)候,你要想這個(gè)問(wèn)題,他底層的分布是否足夠穩(wěn)定,所以我后面會(huì)說(shuō)到另外一個(gè)技術(shù),就是泛識(shí)別欺詐這件事情上,傳統(tǒng)的方式可能會(huì)遭遇挑戰(zhàn),他不是沒(méi)有效果,仍然是有效果的,但是你可以用到更多的新方式,我們?cè)?7年初的時(shí)候引入了非監(jiān)督的學(xué)習(xí)(Unsupervised Learning),這是為什么呢?這是因?yàn)樽鰤氖碌娜瞬煌5脑诟乃年P(guān)鍵詞,幾乎不太符合一些穩(wěn)定的分布,但是正常人不會(huì)改變自己的說(shuō)話方式,不會(huì)特意改變自己的行為,他們的各種行為在統(tǒng)計(jì)學(xué)上是極其穩(wěn)定的,所以我們引入了這種非監(jiān)督的異常檢測(cè)(Anomaly detection)算法,又從這個(gè)維度去識(shí)別一些異常點(diǎn),剛才說(shuō)的是內(nèi)容反欺詐的行為,雖然我主要說(shuō)的是文本的,但是普遍語(yǔ)音、視頻都是類似的。

第二大類問(wèn)題,我們管他叫行為反欺詐,就是在行為上的作弊,他的歷史比較久遠(yuǎn),包括渠道推廣的時(shí)候,注冊(cè)的時(shí)候,無(wú)論他是發(fā)廣告也好,還是羊毛黨也好他總要有賬號(hào),所以注冊(cè)這塊我們會(huì)去識(shí)別一些機(jī)械的或者IP注冊(cè)等等,第二個(gè)就是大量的盜號(hào)行為,我們就在登陸這塊去識(shí)別像撞庫(kù)攻擊、盜號(hào)登陸這樣的事情,最后就是真正的業(yè)務(wù)活動(dòng),比如說(shuō)搶紅包拉,刷人氣拉,說(shuō)道刷人氣,之前直播不是很火嘛,我們也有一批直播客戶,一個(gè)直播間的人氣決定了這個(gè)主播要排在什么位置,主播排在什么位置是和他的收入直接相關(guān)的,我們發(fā)現(xiàn)有一些刷機(jī)是這么刷的,他的登陸行為確實(shí)是人在操作,花了14s-20s之間完成登陸,每個(gè)賬號(hào)都是人工登陸,但是登陸之后就是機(jī)器在刷機(jī),我們?cè)诤涂蛻艚ㄗh在刪除人氣的時(shí)候可以把完全沒(méi)有行為的這樣的人氣給降低,然后第3、4天發(fā)現(xiàn)這些掛人氣的賬號(hào)開始發(fā)言了,發(fā)言是什么呢,通常會(huì)從網(wǎng)上一些論壇抓一些正常的對(duì)話,然后倆三個(gè)人對(duì)話,好這是刷人氣,刷榜也好,搶優(yōu)惠券也好,他最后總是有這樣的行為,所以當(dāng)你在識(shí)別這些問(wèn)題的時(shí)候,對(duì)行為的反作弊就成了關(guān)鍵點(diǎn),而對(duì)行為來(lái)講許多傳統(tǒng)的技術(shù)已經(jīng)在不斷的被突破,比如說(shuō)想渠道推廣這塊,比較傳統(tǒng)的方式比如說(shuō)看渠道的留存率,看他低價(jià)機(jī)群的比例,看他更新的頻率,這個(gè)可以說(shuō)已經(jīng)妥妥的不起作用了,如果有一個(gè)黑產(chǎn)團(tuán)伙還突破不了這個(gè),那確實(shí)太弱了,留存率很簡(jiǎn)單,7日留存,3日留存,21日留存什么的,其實(shí)對(duì)手在刷這些渠道流量的時(shí)候,他不是說(shuō)安裝結(jié)束之后這筆錢就結(jié)束了,他還會(huì)同樣的一批硬件信息,在后面再次完成登陸等其他的一些活躍行為,使得他看起來(lái)好像是活躍的,第二個(gè)就是驗(yàn)證碼,特別是手機(jī)驗(yàn)證碼,是特別容易突破的,就是剛才我們說(shuō)的卡商,也叫貓式號(hào),注冊(cè)起來(lái)完全不費(fèi)力,一批批的,注冊(cè)的時(shí)候文字驗(yàn)證碼或者圖片驗(yàn)證碼,針對(duì)他們有種服務(wù)叫打碼平臺(tái),有利益就能標(biāo)準(zhǔn)化平臺(tái)化生產(chǎn),打碼平臺(tái)是什么呢,你只要一查驗(yàn)證碼,這個(gè)驗(yàn)證碼本身會(huì)被捕獲起來(lái)會(huì)傳到另外一個(gè)平臺(tái)上,另外的平臺(tái)上全都是真實(shí)的人,那邊的人會(huì)劃一下,或者打上碼,再傳回來(lái),我們?cè)偃プ?cè),這就是打碼平臺(tái)。

所以,行為方面的反欺詐,我們要做的核心就是識(shí)別對(duì)方到底是一個(gè)人還是機(jī)器人,我們可以把他想像成被動(dòng)的語(yǔ)音測(cè)試,如何解決這件事情呢,那我們就要抓住他的核心點(diǎn),作為黑產(chǎn),我要搞一件事情,第一件事情就是要大量的設(shè)備,如何搞到這么多設(shè)備呢,無(wú)非這幾種途徑:第一種我用虛擬機(jī),這個(gè)成本是最低的,這個(gè)方法有個(gè)嚴(yán)重的漏洞,就是當(dāng)你的虛擬機(jī)架構(gòu)和CPU架構(gòu)不一致的時(shí)候,可以通過(guò)檢測(cè)cpu架構(gòu)的方法,來(lái)識(shí)別7-80%的虛擬機(jī)。

第二種,當(dāng)你的虛擬機(jī)被識(shí)別出來(lái),你就只能上真的設(shè)備,從我們現(xiàn)在所有case里,只要使用真實(shí)的設(shè)備,大家都會(huì)想辦法提升利潤(rùn),都會(huì)篡改他,無(wú)非就是買100臺(tái)手機(jī),我做一次,然后重新把他的硬件篡改一遍,我再做一次,然后我再篡改,我不斷的篡改,在服務(wù)端就會(huì)出現(xiàn)無(wú)數(shù)個(gè)設(shè)備,所以真機(jī)篡改就是個(gè)很核心的東西,他家想象過(guò)真機(jī)篡改可以怎么篡改,無(wú)非就倆種情況:

第一種情況叫Hook模式的篡改。因?yàn)樵谧x硬件信息的時(shí)候都是在調(diào)庫(kù)函數(shù),熟悉測(cè)試框架和熟悉Hook框架的同學(xué)都知道,當(dāng)你在調(diào)這個(gè)庫(kù)函數(shù)的時(shí)候,比如說(shuō)我可以預(yù)先加載一個(gè)棧,這棧里有完全一樣的一個(gè)名字的類和他的函數(shù),那么你在調(diào)用的時(shí)候很可能先調(diào)用你加載的那個(gè)棧,或者在C語(yǔ)言里有很多動(dòng)態(tài),我可以把我的動(dòng)態(tài)加載到系統(tǒng)動(dòng)態(tài)之前,當(dāng)你在調(diào)函數(shù)的時(shí)候其實(shí)調(diào)的是我的函數(shù),那我想反饋什么就可以反饋給你,所以只要我有真實(shí)的設(shè)備信息庫(kù),Hook模式的篡改,篡改出來(lái)的設(shè)備跟真實(shí)的是一模一樣的,但是Hook也存在一個(gè)巨大的問(wèn)題,那就是他的地址空間,因?yàn)槟阋瓿蒆ook,你在地址空間一定加載了一個(gè)有問(wèn)題的點(diǎn),所以可以通過(guò)掃描地址空間的特征來(lái)識(shí)別這種Hook。

第二種就是刷機(jī)。這里面他的地址空間是有效的,但是他在統(tǒng)計(jì)學(xué)上留下了巨大的漏洞,這是因?yàn)橐慌_(tái)手機(jī)上不是所有的硬件型號(hào)都能被刷的,我可以統(tǒng)計(jì)三星的某一型號(hào)ABC,他有不同的供應(yīng)商給他提供,但是他型號(hào)下面的硬件信息的組合總是有限的數(shù)字,當(dāng)這個(gè)組合總是有限的數(shù)字,我就可以統(tǒng)計(jì)了,當(dāng)出現(xiàn)小概率事件的組合,那這個(gè)設(shè)備我們基本上可以確定是篡改的,這就是篡改設(shè)備,當(dāng)然這只是一些方法,識(shí)別設(shè)備篡改還有另外一種方法就是設(shè)備指紋,設(shè)備指紋很核心的東西一個(gè)就是唯一ID,他的思路是什么呢,他是由倆個(gè)相互沖突的指標(biāo)來(lái)衡量,第一個(gè)指標(biāo)是穩(wěn)定性,第二個(gè)是重碼率,如果是倆個(gè)設(shè)備,不管這倆個(gè)設(shè)備怎么接近,他也不應(yīng)該是同一個(gè)IP,假如可以做到唯一IP,我們可以看到這個(gè)設(shè)備是不是唯一標(biāo)識(shí)的設(shè)備,是不是做過(guò)篡改都可以做到,那怎么搞定唯一IP,通過(guò)多個(gè)弱IP不同的組合來(lái)達(dá)成他唯一的IP,來(lái)降低重碼率。

所以當(dāng)我們?cè)谧鲞@個(gè)識(shí)別的時(shí)候,我們用到的技術(shù)包括:監(jiān)督學(xué)習(xí)GBM模型,會(huì)通過(guò)軟件的特征,硬件的特征,行為的特征等等,去把這種特征做出來(lái),然后第一個(gè)在識(shí)別虛擬機(jī)的時(shí)候用GBM模型;

第二個(gè)是采用異常點(diǎn)檢測(cè)、設(shè)備相似性來(lái)識(shí)別篡改設(shè)備,設(shè)備相似性檢測(cè),可能某個(gè)IP很弱但是我把更多的IP行為組合上去,讓倆個(gè)設(shè)備足夠相似,就是重碼率非常低的時(shí)候,如果識(shí)別出來(lái)他們倆個(gè)一臺(tái)設(shè)備,來(lái)個(gè)設(shè)備的硬件信息又不同,那么可以判斷出來(lái),他其實(shí)是經(jīng)過(guò)篡改的,第三個(gè)設(shè)備農(nóng)場(chǎng),就想剛才有張圖,一個(gè)機(jī)架上好多手機(jī)在排著,要么是人在操作,要么是用群控軟件來(lái)操作,說(shuō)一個(gè)簡(jiǎn)單的策略,我們看同時(shí)掃描到的wifi熱點(diǎn)上的設(shè)備是否有集體行為;

最后就是關(guān)聯(lián)分析和結(jié)對(duì)分析,剛剛有說(shuō)到,這群搞欺詐的人天天和我們對(duì)抗,不斷的刻意的在改變自己的模式,所以這就會(huì)出現(xiàn)一個(gè)問(wèn)題:他的很多特征在統(tǒng)計(jì)上分布其實(shí)都不夠穩(wěn)定,他直接影響了我們很多機(jī)器學(xué)習(xí)模型的性能。

但是做壞事的人,他總是要重復(fù)使用一些資源的,什么是資源,設(shè)備是資源,IP是資源,手機(jī)號(hào)是資源,甚至一個(gè)公司一個(gè)平臺(tái)上的賬號(hào)也是資源,一個(gè)賬號(hào)是有生命周期的,一個(gè)賬號(hào)被注冊(cè)出來(lái),首先直接參與的就是搶羊毛,或者答題這樣直接賺錢的事情,他直接參與這種能夠直接獲利的行為,當(dāng)直接獲利的行為,已經(jīng)被封得差不多,這個(gè)賬號(hào)會(huì)流轉(zhuǎn)到下一部分人的手上,再做其他行為,這個(gè)賬號(hào)生命周期的最后一個(gè)環(huán)節(jié),就是發(fā)各種各樣的欺詐廣告,把他最后的一點(diǎn)價(jià)值挖掘出來(lái)。

所以做壞事的人員,他要想最大化自己的收益,最小話自己的成本,意味著資源要復(fù)用,設(shè)備要復(fù)用,IP要復(fù)用,賬號(hào)要復(fù)用,手機(jī)號(hào)要復(fù)用,對(duì)于反欺詐有的時(shí)候有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)模型不太好用,但是圖算法會(huì)非常的好用,他要復(fù)用資源,這些資源之間都會(huì)存在關(guān)聯(lián),假如說(shuō)一個(gè)wifi上連接10個(gè)設(shè)備,你都不用看這些設(shè)備是真的使用的,還是一個(gè)設(shè)備篡改出來(lái)的10個(gè),前7個(gè)設(shè)備都在發(fā)廣告,剩下3個(gè)設(shè)備還不知道是有問(wèn)題的嗎,對(duì)吧?

這是一個(gè)簡(jiǎn)單的應(yīng)用,所以在圖挖掘,PageRank風(fēng)險(xiǎn)傳播算法在用,召回的最大團(tuán)挖掘我們也在用,在用的時(shí)候不用真的挖最大團(tuán),只需要挖3、4個(gè)點(diǎn)構(gòu)成的一個(gè)團(tuán),就足夠了,把團(tuán)挖出來(lái)之后,剩下的事情交給PageRank風(fēng)險(xiǎn)傳播算法,所以關(guān)聯(lián)分析他是基于圖的挖掘算法,他是一種類似有監(jiān)督的方法,尤其是灰色產(chǎn)業(yè)在使用關(guān)鍵資源上,以這樣的節(jié)點(diǎn)為關(guān)鍵點(diǎn)來(lái)算會(huì)非常有效;

第二個(gè)是結(jié)對(duì)分析,他也不是互聯(lián)網(wǎng)首創(chuàng)的,之前在做交易反欺詐的時(shí)候,結(jié)對(duì)分析就是一個(gè)非常重要的手法,就是通過(guò)一組人,如果他們的行為很像,如果有一天某個(gè)賬號(hào)突然行為異常,你就會(huì)知道他可能被盜號(hào)了。

--

03

反欺詐體系

其實(shí)整個(gè)反欺詐里面,他的倆個(gè)核心就是內(nèi)容和行為,那么孤立看這倆個(gè)問(wèn)題是都解決不好的,永遠(yuǎn)不要寄希望于一個(gè)特別厲害的模型,或者特別厲害的點(diǎn),業(yè)務(wù)方法,把所有的問(wèn)題都能解決,就想剛剛說(shuō)的虛擬機(jī)拉,或者是篡改,他都能解準(zhǔn)確率,召回率,重碼率等到90%其實(shí)就差不多了,在往上提就要花費(fèi)非常非常大的代價(jià),那怎么辦呢,很簡(jiǎn)單,就是我不靠某一個(gè)點(diǎn),不靠一個(gè)模型,不靠一個(gè)技術(shù)去反欺詐,我要的是一個(gè)體系。

體系是什么,首先你要有一個(gè)布控體系,一個(gè)人的行為總要啟動(dòng)、注冊(cè)、登錄,業(yè)務(wù)行為等,通過(guò)這些行為來(lái)完成不良的事情,我并不需要在某一個(gè)環(huán)節(jié)干掉所有壞人,我只能說(shuō)在啟動(dòng)的時(shí)候看幾個(gè)點(diǎn),比如虛擬機(jī)在60%怎么辦,我會(huì)把他分打的很低,在注冊(cè)環(huán)節(jié)放過(guò)他,然后看他后面的行為,很多情況是注冊(cè)的和實(shí)施行為的人根本不是一伙人,如果一個(gè)正常的用戶發(fā)廣告打分超過(guò)1.95我才攔截,而如果是一個(gè)60%虛擬機(jī)的用戶可能打分超過(guò)1.5我就會(huì)攔截,也就是說(shuō)通過(guò)層層攔截,能準(zhǔn)確攔截的攔截,不能準(zhǔn)確攔截的通過(guò)打分,標(biāo)簽,或者風(fēng)險(xiǎn)屬性給他打上,再由后面去處理,這就是我們的布控體系。

第二個(gè)就是數(shù)據(jù)體系,有倆個(gè)核心問(wèn)題,第一個(gè)就是在多個(gè)行為之間,把風(fēng)險(xiǎn)特征共享,第二個(gè)就是圖挖掘,最核心的四個(gè)事情,包括賬號(hào)(他是一個(gè)公司內(nèi)部的打分,不會(huì)跨公司不會(huì)打通)還有設(shè)備、IP、手機(jī)卡,這四個(gè)事情怎么弄,是在用HBase,存法也比較簡(jiǎn)單,首先我有四個(gè)實(shí)體,每個(gè)實(shí)體都對(duì)應(yīng)一張屬性表,第二個(gè)實(shí)體之間關(guān)聯(lián)的關(guān)聯(lián)表,通過(guò)這個(gè)來(lái)構(gòu)建一個(gè)知識(shí)圖譜,也可以用PageRank這樣的人工風(fēng)險(xiǎn)傳播限制,效果也是很好的。

第三個(gè)是策略體系,這個(gè)是我們實(shí)際的引擎的架構(gòu),我們叫做BE和AE,BE是基礎(chǔ)引擎,每一個(gè)基礎(chǔ)引擎,有的可能是簡(jiǎn)單的模型,有的可能是深度學(xué)習(xí)模型,每一個(gè)BE都從一個(gè)方面去判斷當(dāng)前事件在這個(gè)方面的風(fēng)險(xiǎn),BE的輸入是原始風(fēng)險(xiǎn),BE的輸出是他在這個(gè)方面的評(píng)分和高級(jí)特征,基礎(chǔ)引擎里有倆個(gè)比較特殊,一個(gè)是歷史畫像,一個(gè)是實(shí)時(shí)統(tǒng)計(jì)畫像,在上層利用的時(shí)候可以將二者整合起來(lái),可以對(duì)一些出現(xiàn)的實(shí)時(shí)問(wèn)題做這樣的及時(shí)響應(yīng),這是基礎(chǔ)引擎,他是不針對(duì)業(yè)務(wù)場(chǎng)景的;到高級(jí)引擎,就是針對(duì)各種業(yè)務(wù)場(chǎng)景做,這一層比較簡(jiǎn)單,他是一些簡(jiǎn)單的樹模型,和人為的規(guī)則,這就是我們的策略體系。

整個(gè)的反欺詐體系分三大塊,第一塊是布控體系你要在哪些業(yè)務(wù)的關(guān)鍵點(diǎn)去做這種欺詐的檢測(cè),這個(gè)要想清楚,他不是每一個(gè)點(diǎn)都需要檢測(cè);第二個(gè)就是我們的數(shù)據(jù)體系,你的數(shù)據(jù)應(yīng)該是一張圖,數(shù)據(jù)永遠(yuǎn)都不是孤立的,數(shù)據(jù)是一張圖,而且?guī)r(shí)間的;第三個(gè)就是策略體系,在底層從某一個(gè)方面來(lái)控制風(fēng)險(xiǎn),然后在上層從全局來(lái)控制風(fēng)險(xiǎn),來(lái)做出最終的判斷,在高級(jí)的那一層一定要加上規(guī)則系統(tǒng),當(dāng)模型失效的時(shí)候,或者冷啟動(dòng)的時(shí)候規(guī)則系統(tǒng)都是很有效的。統(tǒng)計(jì)系統(tǒng)為主,規(guī)則系統(tǒng)為輔。

今天的分享就到這里,謝謝大家。

關(guān)于我們

DataFun:專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過(guò)100 線下和100 線上沙龍、論壇及峰會(huì),已邀請(qǐng)超過(guò)2000位專家和學(xué)者參與分享。其公眾號(hào) DataFunTalk 累計(jì)生產(chǎn)原創(chuàng)文章800 ,百萬(wàn) 閱讀,14萬(wàn) 精準(zhǔn)粉絲。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

CopyRight ? 外貿(mào)領(lǐng)航 2023 All Rights Reserved.