- 今日推薦
- 特別關注
短視頻黑科技「短視頻上市公司有哪些」
機器之心原創(chuàng)
作者:徐丹
從音視頻的生產、傳輸?shù)綄热荨⒂脩舻睦斫馀c個性化推薦,再到技術基礎設施建設,快手的布局無愧于「科技公司」的稱號
11 月 6 日,國民短視頻社區(qū)快手公布了招股書。
令人驚訝的一個數(shù)字是,2020 年上半年快手研發(fā)投入高達 23 億,占同期總收入比例高達 8.9%。
我們一般不會將短視頻歸入高科技行業(yè)之列,但是仔細想想,短視頻中的科技應用場景其實非常多。比如視頻拍攝特效、千人千面的推薦算法、高速低延時的網絡基礎設施等。
而快手幾乎是從成立初始就開始這些技術布局,從生產與消費的體驗,到對音視頻內容的理解以及針對用戶的個性化推送,再到技術的基礎設施建設,布局之深厚超乎想象。
現(xiàn)在,撥開「短視頻的第一股」的外表,是時候來重新評估快手這家「技術公司」了。
一、內容生產:自研深度學習推理引擎,AI「飛入尋常百姓家」
用快手拍攝短視頻,一個非常大的樂趣是能實現(xiàn)各種各樣奇妙的 AI 特效。
基于強大的圖像 AI 技術,快手在移動端實現(xiàn)了結合自動人像識別、分割、背景生成的實時隱身特效,用戶在手機端就可以創(chuàng)作各種有趣的作品。
比如,快手最新上線的「變身童話公主」系列的魔法表情。
再比如,從天而降的「隱身魔法」是結合單圖圖像修復和幀間圖像對齊的視頻修復算法,在短視頻行業(yè)中的首次應用。
基于手機上的攝像頭和傳感器,快手的移動端混合現(xiàn)實技術幾乎可以讓每一部手機都變成可以實時感知空間信息的設備,實現(xiàn)虛擬元素和真實環(huán)境的自然交互和呈現(xiàn)。
該技術可讓快手用戶不需要復雜的設備,在手機上就能實現(xiàn)基于空間的創(chuàng)意和沉浸式交互體驗。
基于深度學習 GAN 技術,快手 2019 年在國內首發(fā)了「娃娃臉」特效,使用該表情就能讓臉一鍵回到幼兒時期。在此基礎上還有「變性別」「變手繪」以及即將出現(xiàn)的「變童話」等各種應用。
以上都是快手在短視頻行的業(yè)首發(fā)應用,具有技術先進性。
為保持應用的創(chuàng)新性,快手 2018 年就成立了 AI 實驗室 Y-tech,招募了許多技術大牛專門負責前沿算法研究,且和魔法表情部門的特效團隊合作,加入了產品經理,讓技術研究和產品落地無縫對接。
在落地實踐上,為克服技術在手機端實時處理的障礙,Y-tech 還自研了一套算法壓縮模型,能在有限的計算以及內存資源條件下,依然把模型的計算量降到最小,且不影響算法效果。
并且,為讓特效在所有的手機上都能運行,Y-tech 同時也自主研發(fā)了一款深度學習推理引擎 YCNN。
YCNN 能支持各種型號的 CPU、GPU 和 NPU 等底層硬件,且能根據不同的手機算力提供大小不同的特定模型,通過模型下發(fā)的方式將設備上的最好算力與相應的模型相匹配。
YCNN 整體架構。
在推理引擎優(yōu)化方面,工程師也會針對不同設備端有針對性地進行算子優(yōu)化,以最大化利用設備性能。
此外,YCNN 引擎還具有完善的 AI 工具鏈,支持 PyTorch,TF/TFlite 模型直接轉換為 YCNN 模型,并支持訓練時模型量化與基于硬件的模型結構搜索。綜合性能比業(yè)界引擎有 10% 左右的優(yōu)勢。
二、音視頻傳輸:自研傳輸協(xié)議 KTP,與直播卡頓較勁
以「擁抱每一種生活」為 slogan 的快手,用戶分布在全球各地。打開 App,經常會發(fā)現(xiàn)「老鐵們」在山溝、田間地頭甚至荒野里開直播,但很少出現(xiàn)網絡卡頓的情況。
這里面就涉及到快手以「私有傳輸協(xié)議 KTP 和流式多碼率標準 LAS」為代表的核心音視頻傳輸技術。
這種技術不僅能保證弱網下作品發(fā)布的成功率、直播推流的穩(wěn)定性與平滑性、視頻會議等 RTC 應用的低延遲與流暢性,還能支持端到端高清 1080P 視頻的拍攝、制作、上傳和播放,并能依據不同用戶的網絡狀態(tài)與設備性能,動態(tài)選擇最佳的清晰度,在觀看體驗的流暢性、清晰度、低延遲之間取得平衡。
具體解釋,媒體內容從生產到被看見必然要經歷網絡分發(fā)的過程。手機將音視頻內容經過采集、編碼、處理后,傳輸?shù)矫襟w服務器,媒體服務器與 CDN 網絡互聯(lián),進而由 CND 分發(fā)給快手的用戶進行消費。
整個網絡傳輸過程分為上行(媒體內容從主播 / 創(chuàng)作者到媒體服務器)和下行(媒體內容從 CDN 到觀眾),針對上下行,快手分別自研了傳輸協(xié)議 KTP 與多碼率標準 LAS 來優(yōu)化端到端的用戶體驗。
快手傳輸協(xié)議 KTP
快手的業(yè)務復雜,有作品發(fā)布、直播推流、PK / 連麥、視頻會議、多人互動等等,不同的業(yè)務對傳輸性能的需求各不一樣。
例如作品發(fā)布要求高吞吐、高可靠、低耗時,直播推流則對低延遲、高平穩(wěn)性有需求。目前以后的協(xié)議與算法,都只關注到某一點,難以滿足快手的需求。為此,快手設計了私有傳輸協(xié)議 KTP,其架構如下圖所示:
KTP 基于 UDP,從而具有非常強的靈活性,快手的工程師和算法專家們可以在其之上設計各種各樣的傳輸算法。
KTP 分為服務端和客戶端,每端又分為傳輸控制層與業(yè)務感知層,在傳輸控制層,包含大量的傳輸算法,可適應各種網絡狀態(tài)與需求,在傳輸控制層之上是業(yè)務感知層,該層是業(yè)務與網絡的橋梁,通過感知業(yè)務的特性與網絡的的結合,實現(xiàn)跨層的信源信道聯(lián)合優(yōu)化。
目前,KTP 已全面用于快手的各項業(yè)務,并取得非常顯著的收益,其性能也處于業(yè)界領先水平。例如,與 QUICSRT 等相比,KTP 能顯著降低作品發(fā)布耗時,降低直播推流卡頓,提升清晰度。與業(yè)界常見的 RTC 產品相比,KTP 能獲得更多的延遲,更強的抗弱網能力。
KTP 采用可插拔的設計方式,所有的算法和功能模塊相互解耦,從而極大了提升可 KTP 的靈活性與擴展性。同時結合快手強大的 A/B 測試系統(tǒng),任何算法和改動,都能快速的在線上得到最真實的反饋,從而使得 KTP 保持了領先性與實用性。
LAS:Live Adaptive Streaming
復雜的網絡環(huán)境導致單一清晰度難以滿足不同用戶的需求。為了提升所有用戶的體驗,快手研發(fā)了多碼率自適應策略,讓不同的用戶,在各自當前的網絡條件下,獲得最佳的體驗。
針對直播,快手自研了基于流式的直播多碼率標準 LAS,并正式對外開源。
目前,各大云廠商均支持 LAS,在云端保障 LAS 服務,咋客戶端,快手也開源 Web 端解決方案,并與 B 站共建,聯(lián)合開源了移動端解決方案。
與大家熟知的多碼率標準 HLS 相比,如下圖所示,LAS 能獲得更低延遲、更高清晰度、更流暢的直播體驗。
LAS 的優(yōu)勢。
除了傳輸協(xié)議,快手在媒體消費體驗上的優(yōu)化與研究也可圈可點:
例如快手先后上線了 60 幀、HDR 等一系列提升視頻畫質的技術,而且快手現(xiàn)在支持 VR 視頻觀看,只要下載快手 APP,相當于擁有了一部 VR 終端
在編解碼領域,位于圣地亞哥的快手音視頻標準實驗室提交的多個提案已經獲得了全球聯(lián)合倡議組織 JVET(ITU-T VCEG 及 ISO/IEC MPEG 聯(lián)合視訊探索小組)采納,為其主要貢獻者之一。
在應用方面,快手視頻解碼標準(KVC)已經于 2020 年 3 月開始大規(guī)模部署上線。在主觀質量相同的情況下,KVC 可大幅縮減媒體文件的大小,并提高視頻播放的流暢度。
三、內容理解:多模態(tài)技術為更好的內容保駕護航
當然,作為國內數(shù)一數(shù)二的短視頻平臺,僅能讓用戶看到好看、清晰的視頻是遠遠不夠的。
隨著視頻和用戶數(shù)量的增多,平臺要能保證視頻的原創(chuàng)性和安全性,還要能根據用戶個性化需求推薦不同的視頻。這都涉及到平臺對音視頻內容和用戶的理解,所以,深度學習技術在快手中出現(xiàn)了。
2015 年是人工智能爆發(fā)的一年,也正是這一年快手成立了第一支深度學習團隊。2016 年深度學習部門開始涉獵語音、文字、音樂等多種媒體形式,所以名稱改為「多媒體理解組」(Multimedia understanding,簡稱 MMU)。
由于快手是較早對視頻內容分析產生強烈剛需的公司,所以 MMU 團隊基本上是從零起步,從「定義一個合理的標簽體系」開始理解用戶產出的錯綜復雜的音視頻內容。兩大應用方向包括人機交互與信息分發(fā)。
從具體場景說,首先多模態(tài)技術會幫助用戶實現(xiàn)更好的視頻創(chuàng)作。
在這方面,快手目前是中國短視頻行業(yè)首家成功大規(guī)模應用端到端自動語音識別系統(tǒng)的公司。
一般的語音合成應用都是基于參數(shù)語音合成算法,合成的語音比較僵硬。MMU 團隊則是采用并改進完全端到端的神經網絡模型,可以讓合成語音效果更自然,且神經網絡結構能利用硬件并行計算能力,支持實時合成語音。
為最大限度保留配音角色說話韻律風格,團隊還對算法進行一系列調試,比如在生成算法中加入風格控制回歸編碼網絡以體現(xiàn)韻律性;用基于深度神經網絡的聲碼器以還原聲音特點等。
技術支持下,快手有很多有趣的「聲音」功能。典型應用是今年快影上線的智能配音功能,用戶只要輸入文字,軟件就能自動將之轉化為高質量的視頻配音,還有多位「發(fā)音人」和方言可供選擇。
還有去年上線快手直播間的語音助理「小快」,可以識別語音命令來放音樂、講笑話,活躍直播間氣氛。
另外,MMU 團隊還開發(fā)了「根據視頻內容自動生成音樂」功能,能讓視頻畫面與音樂節(jié)奏更匹配,為此,團隊還特地招募了懂音樂的人和工程師一起集成創(chuàng)新。
創(chuàng)作之外,多模態(tài)技術也能精準的理解視頻內容,幫助創(chuàng)造更好的分享機制。
在這里面 MMU 團隊做了兩個比較有意思的事:第一是強調音頻和視覺的多模態(tài)綜合的建模,而不僅僅是單獨的視覺或者音頻;
第二快手擁有非常多的用戶數(shù)據,這是不在傳統(tǒng)多媒體內容研究范疇里的,但快手卻可以很好地利用這些數(shù)據做內容理解。快手會融合行為數(shù)據和內容數(shù)據進行綜合建模,在同樣大小的人工標注量前提下,快手利用海量的用戶行為數(shù)據能夠獲得比純內容模型更好的性能。
內容行為數(shù)據融合。
如今,MMU 團隊每天可實時分析逾 1500 萬條視頻及逾百萬小時直播內容,已經開發(fā)出人工智能驅動的內容算法系統(tǒng),可對平臺海量數(shù)據(文本、圖片、音頻及視頻)進行實時多維分析及篩選,還可以實時過濾不當和非法內容以及可能侵犯第三方知識產權的內容。
四、個性化推薦:強化學習擺脫推薦內容同質化
對于所有的短視頻平臺來說,「個性化推薦」都是最影響用戶感受的環(huán)節(jié)。
所以,除了要理解內容外,平臺還要能將內容推給最合適的客戶。在這方面快手做的也不錯。
從界面設計看,快手的推薦引擎是全球極少數(shù)的雙列帶縮略圖以及上下滑個性化推送界面設計的大型推薦引擎之一。
縮略圖可讓用戶可根據喜好快速挑選想要瀏覽的短視頻及直播,上下滑個性化推送則支持上滑屏幕時自動播放下一個視頻,瀏覽更順暢。
另外,快手也是短視頻行業(yè)首批極少數(shù)將深度強化學習算法大規(guī)模應用于視頻推薦的公司之一,其推薦引擎基于自研圖神經網絡(KGNN)建立。
個性化推薦一般分為兩個步驟,先是「召回」,從千萬量級的視頻庫中基于簡單的模型竄出數(shù)百相關候選視頻,再「排序」,用復雜模型最終挑選出若干視頻(一般數(shù)量為十)返回給用戶。
在排序的過程中,傳統(tǒng)推薦排序算法通常會采用 point-wise 排序框架,基于經驗公式或者排序模型,「獨立」地預估每個候選視頻的排序分數(shù),從高到低截取 top N 視頻返回。
但獨立打分的方法忽略了相鄰視頻間的影響,傾向于將同類視頻排到前面,造成推薦內容同質化,長此以往會使用戶對內容厭倦。
所以,快手技術團隊提出了基于強化學習的序列化排序框架,將輸出 N 個視頻序列的任務建模為連續(xù)進行 N 次決策的過程。強化學習排序模型端到端的完成整個推薦排序過程,從數(shù)百視頻候選集中挑選出由數(shù)十個視頻組成的有序列表,返回展示給用戶。
傳統(tǒng)排序算法 VS 強化學習算法。
在強化學習排序過程中,每次挑選的目標都是最大化視頻序列的整體獎勵,保證推薦內容的多樣性。
另外,強化學習排序算法還可以保證更好的推薦精準性與實施性,用戶每次反饋(點擊、點贊、轉發(fā))后,系統(tǒng)都會通過強化學習算法完成排序模型的在線更新。
五、快手的科技基礎設施
身為一家科技公司,快手能實現(xiàn)以上技術最離不開的就是「基礎設施」。
首先是人才,快手在全球各地招募了很多非常優(yōu)秀的技術人才。根據招股書,截至 2020 年 6 月 30 日,快手擁有逾 5000 名研發(fā)人員,超過 2300 名研發(fā)人員擁有碩士或以上學位。
2017 年、2018 年、2019 年及截至 2020 年 6 月 30 日,快手研發(fā)開支分別為 476.6 百萬元、18 億元、29 億元及 23 億元,分別占同期經營開支的 23.1%、26.8%、21.5% 及 13.6%。
并且,快手在全球各地都設有研發(fā)中心。人工智能研究中心 Y-tech 專門致力于計算機視覺和深度學習等前沿領域研究,完善快手 AR、濾鏡等技術驅動的特效功能。其研究中心位于北京總部,在杭州和美國帕洛阿爾托均設有辦公室。
為了拓展海外布局,快手也在美國設立了研發(fā)中心。總部在硅谷,這里集成了快手多個重要團隊,包括 Y-Tech 、圖形 AI、多媒體算法和異構計算實驗室。
位于斯坦福大學附近的快手研發(fā)中心。
西雅圖實驗室旨在吸引美國優(yōu)秀人才,建立技術壁壘,承擔項目包括商業(yè)化廣告推薦、游戲 AI 及策略優(yōu)化、手機端 AI 模型效率優(yōu)化。
圣地亞哥視頻編碼標準實驗室則主要致力于探索新一代視頻壓縮技術,研究方向包括視頻壓縮算法、視頻處理、視頻內容分析、機器學習及質量評測等。
并且,快手也已經和清華大學聯(lián)合成立了「清華大學 - 快手未來媒體數(shù)據聯(lián)合研究院」,用產學研結合的方式培養(yǎng)學生用 AI 解決產品上的問題。
在網絡基礎設施方面,快手目前擁有超過 24 萬臺服務器,分布在全國 22 個網絡數(shù)據中心,數(shù)據總量是 EB 級別。
此外,快手還計劃在全國布局超大規(guī)模數(shù)據中心,6 月已經和烏蘭察布數(shù)據中心項目舉行簽約儀式,項目投資達百億元,預計明年投入使用。
數(shù)據中心外,為提高計算效率,快手還針對算法優(yōu)化,自研基于 CPU/GPU 異構的計算體系,進一步提升算法的運行效率。
六、堅持用戶導向,追求技術的「極致」
如果總結快手技術團隊的特征,可以用兩個詞來形容,「用戶導向」和「追求極致」。
技術人員想問題通常會從技術角度出發(fā),但快手會有意識的培養(yǎng)工程師的反向思維能力,考慮用戶的需求。
最簡單的方式就是研發(fā)人員會成為產品的深度用戶,自己從用戶角度推敲和優(yōu)化,跟產品經理一起深入研討如何改進得更好。
比如,在主播與粉絲的音視頻連線場景中,很多直播團隊在 2016 年就上線了連麥功能。而快手剛上線直播時,產品團隊從用戶角度做了評估:直接上線視頻連麥可能會給用戶帶來社交壓力,如何最小化用戶開通連麥的壓力?
最容易接受的形式是語音連麥,所以快手最先上線的是技術上簡單一些的語音連麥,實時證明用戶結束度很高,等到反饋「露臉」需求時,快手才在 2017 年上線視頻連麥。
追求極致則是快手技術團隊一直以來的原則。2019 年快手 CEO 宿華就在年會上強調過,「不追求極致,我們就贏不了。」
所以,在每一個看似微小的功能背后,快手都會投入非常大的資源,用技術打造極致的用戶體驗。
正如快手音視頻技術負責人于冰曾對媒體說的,「我們給了最優(yōu)秀的技術人員一個很好的機會——把特別細的細節(jié)做好,不像有的產品只做到 80 分就夠了。」
相關文章
- 孩子多讀什么書「什么書讓孩子喜歡閱讀」
- 跨境電商到底是什么簡單給大家介紹一下「個人如何做跨境電商」
- bim軟件revit入門教學「revit自學需要多久」
- 維秘沒了嗎「維秘內衣品牌怎么樣」
- 為什么不喜歡團建「反感團建」
- 龍崗跨境電商運營中心啟用了嗎「深圳龍崗跨境電商運營中心」
- 花都孵化基地「花都國際先進裝備制造產業(yè)園」
- 清溪物流保稅物流中心「2019手機出貨全球排行榜」
- 魏縣晨陽口腔「魏縣核酸檢測」
- 硅谷AI-EGO人工智能無人車「深圳市遠方創(chuàng)新數(shù)據咨詢有限公司」
- 中國的錢不能帶到國外「在機場掉了錢包怎么辦」
- 優(yōu)秀品牌的logo設計案例「我的產品絕對讓你」
- 快遞行業(yè)宏觀經濟分析「快遞行業(yè)數(shù)據分析」
- 襄陽保稅物流中心運行一年監(jiān)管貨值突破2億元「襄陽海關」
- 太原市首屆跨境電商創(chuàng)新實踐技能大賽開賽項目「全國跨境電子商務技能大賽」
- 換季的詞語「換季了該買衣服的說說」
- 亞馬遜fba商品貼標怎么貼「亞馬遜fba發(fā)貨的標簽怎么弄」
- 出國工作社保怎么辦理「出國人員可以補繳社保嗎」