導言
2013年開年,如果讓視頻行業(yè)業(yè)內(nèi)人士提名當前視頻行業(yè)內(nèi)最熱的劇集,《紙牌屋 (House Of Cards)》一定會榜上有名。該劇一經(jīng)發(fā)布,立刻在全球引起熱烈討論,視頻行業(yè)關注的重點是:
* 制片方是一匹黑馬,既不是電視臺,也不是傳統(tǒng)的電影公司,而是Netflix - 北美最大的付費視頻訂閱網(wǎng)站;
* Netflix宣稱,《紙牌屋》是其大數(shù)據(jù)分析的第一次戰(zhàn)略應用;
* 整部劇集是Netflix一次性在網(wǎng)站發(fā)布,供訂閱者觀看,完全顛覆了傳統(tǒng)的劇集發(fā)布(每周一集)的模式。Netflix之所以有底氣這樣做,是因為其基于3100萬訂閱用戶(北美)的收視行為,通過大數(shù)據(jù)分析,發(fā)現(xiàn)了如下規(guī)律:
* 熱播三要素:凱文.史派西;大衛(wèi).芬奇和BBC出品三者結合,就可以吸引大量用戶訂購;
* 收視行為模式變更:越來越多的人不再像30年前那樣,在固定晚上的固定時刻守在電視機前,等著收看電視劇的最新劇集,而是“攢”起來,直到整季劇情全部播放完畢之后,才選一個自己方便的時間段和地點,在方便的設備,多數(shù)是網(wǎng)絡設備,如電腦、iPad上一次性觀看。
* 這應該是歷史上大數(shù)據(jù)技術在視頻行業(yè)里首次顛覆性的應用。在Netflix之后,Amazon也不甘人后,開始了通過利用大數(shù)據(jù)技術,制作自制劇的過程。
從國內(nèi)視頻行業(yè)來看,2013年最為火爆的關鍵詞就是:大數(shù)據(jù),OTT,多屏,也有人聲稱2013年是“大數(shù)據(jù)元年”。似乎一夜之間,發(fā)言時不提到“大數(shù)據(jù)”就落伍了。
那么大數(shù)據(jù)到底是什么,它能夠給視頻行業(yè)帶來哪些變化,筆者將在下文嘗試對此進行初步的分析和描述。
大數(shù)據(jù)簡介
伴隨著云計算的持續(xù)高熱,大數(shù)據(jù)也成為ICT行業(yè)的必備詞匯。它究竟為何方神圣,具備哪些特點,下文將嘗試闡述。
大數(shù)據(jù)定義
對于“大數(shù)據(jù)”(Big Data),業(yè)內(nèi)并沒有統(tǒng)一的定義,更多代表了一種新的思維方式,商業(yè)機會,未來趨勢,其核心是“數(shù)據(jù)化”。
研究機構Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。” “大數(shù)據(jù)”在物理學、生物學、環(huán)境生態(tài)學等領域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關注。
而最近最為經(jīng)典的著作《大數(shù)據(jù)時代》(維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫)中,提到了進入大數(shù)據(jù)時代最大的思維轉變是,放棄對因果關系的渴求,而取而代之關注相關關系。也就是說更多關注知道“是什么”,而不僅僅知道“為什么”。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。
大數(shù)據(jù)的3個“V”,或者說特點有三個層面,業(yè)界將其歸納為3個“V” - Volume,Variety,Velocity:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。第二,數(shù)據(jù)類型繁多。互聯(lián)網(wǎng)常提到的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,即吸入、處理和產(chǎn)生價值的快速度,最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質(zhì)的不同。這三者缺一不可,綜合在一起才能稱之為“大數(shù)據(jù)”。
對于其他一些文章中提到的第四個V(Value或Veracity),筆者并未在本文中討論。
大數(shù)據(jù)處理
為了應對大數(shù)據(jù)的特性,在數(shù)據(jù)的處理方式中,必然會具備不同的手段和特征,同時這些特征會與大數(shù)據(jù)的特性相對應:
數(shù)據(jù)存儲(Volume and Variety)
所謂數(shù)據(jù)存儲,并不是指要關注底層存儲細節(jié),只需要數(shù)據(jù)存儲和讀取方便快捷即可。為了更好的處理海量數(shù)據(jù)的存儲,首先要了解多樣性中的一個分類:結構化和非結構化的數(shù)據(jù)。事實上信息里的“結構”是永遠存在的,只不過結構尚未被發(fā)現(xiàn),或結構變化無定(半結構化或多結構化),或者結構存在但機器卻處理不了。就像最典型的非結構化數(shù)據(jù)—文本,它有語言學意義上的結構(語法和語義),又有敘事意義上的結構(三段式、先破后立等),還具有結構化的元數(shù)據(jù)(作者、標題、發(fā)布時間等),但文本一直是非結構化數(shù)據(jù)的典型。
對于非結構化數(shù)據(jù),文件系統(tǒng)是主流的存儲選擇,但是在存取、索引以及元數(shù)據(jù)管理上不是最優(yōu)。而結構化數(shù)據(jù)主要依靠關系型數(shù)據(jù)庫,主要問題是結構變化時太折騰,當數(shù)據(jù)在TB級是也太慢。NoSQL數(shù)據(jù)庫應時而生,一是能支持靈活的結構(schema)和非結構化數(shù)據(jù),二是針對大數(shù)據(jù)體量可擴展性更好。同時,文件系統(tǒng)也得到了發(fā)展,與對象存儲相映生輝,不僅在效率上提升(如Facebook Haystack對小圖片文件),也能更好地支持管理和分析(如支持SQL-like語言來操作)。
數(shù)據(jù)處理(Velocity)
大數(shù)據(jù)的處理,應用傳統(tǒng)的數(shù)據(jù)處理方式已然捉襟見肘,需要新的技術以有效的處理海量的數(shù)據(jù),目前業(yè)內(nèi)最常用的分布式并行處理框架 – Hadoop就是其中的代表。數(shù)據(jù)處理又可以分為兩個階段:
數(shù)據(jù)準備,數(shù)據(jù)處理前會有大量的時間做數(shù)據(jù)準備(到達80%),涉及到抽取、清洗、轉換和集成
數(shù)據(jù)計算,對于完成準備的數(shù)據(jù),數(shù)據(jù)計算可以通過“分而治之”的手段描述出相關數(shù)據(jù)的特征。事實上Hadoop的設計宗旨就是基于此。
在云計算和大數(shù)據(jù)大行其道的今天,Hadoop及其相關技術起到了非常重要的作用,是這個時代不容忽視的一個技術平臺。事實上,由于其開源、低成本和和前所未有的擴展性,Hadoop正成為新一代的數(shù)據(jù)處理平臺。
Hadoop是基于Java語言構建的一套分布式數(shù)據(jù)處理框架, 框架中最核心的設計就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的,簡單的一句話解釋MapReduce就是“任務的分解與結果的匯總”。HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的縮寫,為分布式計算存儲提供了底層支持。
MapReduce從它名字上來看就大致可以看出個緣由,兩個動詞Map和Reduce,“Map(展開)”就是將一個任務分解成為多個任務,“Reduce”就是將分解后多任務處理的結果匯總起來,得出最后的分析結果。
大數(shù)據(jù)價值
通過大數(shù)據(jù)分析掘金,發(fā)現(xiàn)價值,這是大數(shù)據(jù)應用的最重要目標:尋找相關性,通過對歷史的分析,輔助對未來的預測。
相關性不是因果,相關搞成了因果,差不多和“迷信”就沒有區(qū)別了。商業(yè)應用上,其實不太需要拼命挖掘因果。相關性是因果的前提,但是不等于因果。
大數(shù)據(jù)尋求的是海量數(shù)據(jù),即全樣本。全樣本和抽樣顯然是不同的。過去的研究,由于操作性的關系,很難做到全樣本,需要去抽樣。大數(shù)據(jù)首先不是抽樣,它獲得的數(shù)據(jù)是全體樣本數(shù)據(jù),其次它不是在讓用戶回答問題,而是實打實地去獲取用戶的“行為”。最重要的一點,大數(shù)據(jù)分析和抽樣分析的核心區(qū)別在于:前者是動態(tài)的,后者是靜態(tài)的。一個隨機抽樣所形成的結論,其實是靜態(tài)的,它只能說明在做那次調(diào)研時的一些相關性。當有新的用戶(樣本)加入時,很難再說明過去的相關性是否能夠成立 — 除非你能找到真正的排除了各種隱形變量后的因果關系。但大數(shù)據(jù)的分析卻是動態(tài)的,每秒都有可能產(chǎn)生一個新的結論。
大數(shù)據(jù)+視頻 = 模式創(chuàng)新
筆者認為:大數(shù)據(jù)時代,視頻行業(yè)的業(yè)務型態(tài)不會有大的變化,整個產(chǎn)業(yè)鏈的合作模式將會出現(xiàn)新的變化,產(chǎn)業(yè)鏈中的上下游界限將會變得模糊,重新洗牌的機會出現(xiàn)。
視頻行業(yè)產(chǎn)業(yè)鏈

圖 1 視頻行業(yè)產(chǎn)業(yè)鏈構成
目前國內(nèi),整個視頻產(chǎn)業(yè)鏈,可以大致認為由下列角色構成:
內(nèi)容制作:視頻內(nèi)容的生產(chǎn)者,例如工作室,傳媒公司、各大電視臺等等,以及互聯(lián)網(wǎng)UGC,和最近兩年興起的視頻網(wǎng)站自制內(nèi)容;
內(nèi)容集成:視頻內(nèi)容的集成和銷售者,例如各大電視臺、視頻網(wǎng)站等等;
內(nèi)容分發(fā):視頻內(nèi)容的傳播者,例如各大網(wǎng)絡運營商(包括有線運營商),通過有線,IPTV,OTT等方式傳播;
用戶:視頻內(nèi)容的消費者,通過多屏和在線,實現(xiàn)“隨時、隨地、隨心”的“互動”和“個性化”視頻體驗,而不再是傳統(tǒng)的“觀看”
廣告主:傳統(tǒng)電視臺的“金主”,在新的環(huán)境下,廣告投放策略在逐漸由粗放的大面積覆蓋轉向更“精確”和“定向”營銷
第三方機構:典型機構如Nielsen,多年專業(yè)收視率統(tǒng)計機構(抽樣調(diào)查方式),最近開始引入twitter的社交網(wǎng)絡信息綜合評價視頻熱度
內(nèi)容監(jiān)管:內(nèi)容消費的監(jiān)督者,確保內(nèi)容合法、有效等,例如國家新聞廣播電影電視總局。
大數(shù)據(jù)給視頻行業(yè)帶來的影響
首先,在視頻行業(yè)可能包含大數(shù)據(jù)的領域包括:
用戶行為和反饋:目前全國有1.5億有線數(shù)字電視用戶,2000萬IPTV用戶,4億多網(wǎng)絡視頻用戶,數(shù)億智能終端。如果將其收視行為和反饋都采集下來并進行分析,其體量必然十分巨大,理所當然是大數(shù)據(jù)的范疇,非常適合用于提供個性化服務,如相關推薦,定向廣告;同時結合社交網(wǎng)絡中的海量信息分析和引導,還可以用于內(nèi)容制作和推廣,票房預測,收視率統(tǒng)計和預測
內(nèi)容分析和監(jiān)管:國內(nèi)目前每年有上萬集電視劇投放,近十萬小時電視節(jié)目上線和上千部電影進入市場。對上述內(nèi)容的健康監(jiān)管也是需要重點考慮大數(shù)據(jù)的應用。尤其是從“數(shù)字化”到“數(shù)據(jù)化”的轉變,通過圖像和語音識別,使得關注點不再僅僅是視頻內(nèi)容本身,而是其中蘊含的“信息”,從而挖掘其中“數(shù)據(jù)”帶來的“價值”;另外,傳統(tǒng)針對“內(nèi)容”的監(jiān)管是建立在單向傳播的基礎上,而結合用戶行為,社交網(wǎng)絡,甚至位置信息的新一代“輿情監(jiān)控和引導”才是符合現(xiàn)在需求的。
網(wǎng)絡優(yōu)化:視頻在網(wǎng)絡中傳播,尤其是隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,經(jīng)常會發(fā)生擁塞或者對網(wǎng)絡傳輸能力帶來巨大的沖擊。基于歷史數(shù)據(jù),預先規(guī)劃網(wǎng)絡路由也是大數(shù)據(jù)和SDN相結合的應用型態(tài)。
大數(shù)據(jù)對視頻行業(yè)的可能影響包括:
內(nèi)容:上下游角色的融合
伴隨著大數(shù)據(jù)分析能力的普及,產(chǎn)業(yè)鏈中的不同角色的融合變成了趨勢,自制劇被視為提高收視、降低版權費用的必由之路。目前看來,筆者認為有兩種趨勢:
類似于Netflix的OTT視頻網(wǎng)站,他們掌握了大量的用戶數(shù)據(jù),以此為基礎,自己投資生產(chǎn)內(nèi)容;
內(nèi)容生產(chǎn)的眾籌,視頻行業(yè)的參與者,通過對未來趨勢的預測,打通潛在訂閱者和創(chuàng)作者(編劇/導演/演員)的通道,實現(xiàn)內(nèi)容制作的成本/收益/風險在參與者中共同分擔。
監(jiān)管:全媒體內(nèi)容監(jiān)管
內(nèi)容監(jiān)管一向是我國文化產(chǎn)業(yè)的基本政策,針對海量內(nèi)容,實現(xiàn)全媒體的內(nèi)容監(jiān)控一直是個難題。隨著大數(shù)據(jù)技術的應用,視頻內(nèi)容的采集和分析成為可能,模式識別/機器學習等大數(shù)據(jù)技術的延伸能夠有效的降低內(nèi)容監(jiān)管的人力要求和可靠程度;
網(wǎng)絡:智能優(yōu)化的網(wǎng)絡傳輸
伴隨著SDN在網(wǎng)絡中的開始普及,利用大數(shù)據(jù)分析網(wǎng)絡的歷史利用數(shù)據(jù),可以有效的預測網(wǎng)絡中擁塞節(jié)點和時間點的出現(xiàn)和概率,提升用戶體驗。可以認為未來的視頻分發(fā)者的網(wǎng)絡越智能,他/她才會更受產(chǎn)業(yè)上游的青睞。
廣告主:效果是核心,營銷是重點
廣告業(yè)一直有一種說法:“我們知道至少浪費了一半的預算,但不知道是哪一半”,這是典型在單向傳播時代的情況。而在現(xiàn)在,通過用戶行為分析,已經(jīng)可以做到“定向廣告”;更為重要的是,更多的廣告目的不是“品牌宣傳”,而是“營銷”,這時基于用戶行為分析的“精確營銷”能夠幫助提高購買行為轉化率,更受到廣告主的歡迎
第三方機構:不能再僅僅依靠采樣數(shù)據(jù)
一直以來,尼爾森是電視節(jié)目收視率的權威機構——它能統(tǒng)計美國2.5萬戶家庭的收視行為。雖然近年來尼爾森的影響力日漸式微,但是它仍然是一個權威的信息渠道:它能統(tǒng)計出通過傳統(tǒng)電視機播放的節(jié)目的收視率。但是在這個OTT和多屏的時代,人們通過更多電視之外的終端,收看非直播類內(nèi)容,同時在社交網(wǎng)絡(如twitter)上分享著看法。這些信息對于內(nèi)容的傳播效果評估非常重要,同時對于廣告主也非常重要。最終,nielson宣布和twitter展開合作,以便更全面的開展收視調(diào)查。
大數(shù)據(jù)在視頻行業(yè)的應用
大數(shù)據(jù)在視頻行業(yè)還在初期應用階段,目前還集中在互聯(lián)網(wǎng)視頻領域
推薦引擎
目前相對最成熟的應用,netflix據(jù)稱75%的觀看來自推薦,其個性化和推薦算法也曾獲得大獎,而國內(nèi)視頻網(wǎng)站也都會有相關推薦。雖然算法各異,目的只有一個,通過推薦與用戶相關的內(nèi)容,提高用戶觀看時長和黏度。
收視情況分析
Nielson與twitter合作的收視調(diào)查,優(yōu)酷土豆的“優(yōu)酷指數(shù)”逐步演進為“中國網(wǎng)絡視頻指數(shù)”,“數(shù)據(jù)邦”基于微博粉絲行為的收視熱點分析,這些都是比較好的應用嘗試
內(nèi)容制作
本文開頭提到《紙牌屋》的故事現(xiàn)在廣為人知,“大數(shù)據(jù)”確實起到重要的作用,但在一定時期內(nèi),“人”仍然應該是主要因素。同樣,已經(jīng)出現(xiàn)通過“大數(shù)據(jù)”預測票房,而減少前期制作風險的案例,也還在非常早期應用
定向廣告
“定向廣告”和“精確營銷”已經(jīng)提了很多年,但在視頻領域還在初期階段,筆者目前還沒見到成熟應用。
音視頻內(nèi)容分析
通過音頻和視頻識別技術,將內(nèi)容的“數(shù)字化”轉為“數(shù)據(jù)化”,可檢索,可分析,便于后續(xù)價值挖掘。目前還只是在專業(yè)領域應用,如廣告插播偵測,內(nèi)容監(jiān)看
目前,“大數(shù)據(jù)”在各個行業(yè),尤其是互聯(lián)網(wǎng)行業(yè),開始發(fā)揮出重要的作用,經(jīng)典例子如google預測流感,機票價格預測,DNA排序等等。“大數(shù)據(jù)”自身也在不斷發(fā)展,也許若干年后,我們會認為現(xiàn)在的“大”是如此的“小”,就像現(xiàn)在我們回首20多年前PC硬件配置一樣。“大數(shù)據(jù)”的核心是一種尊重“數(shù)據(jù)”的思維,最重要的價值是是對于未來的預測!
在視頻行業(yè),大數(shù)據(jù)才剛剛開始嶄露頭角,作用和應用還需要進一步的發(fā)掘, 會隨著互聯(lián)網(wǎng)與視頻這個傳統(tǒng)行業(yè)的結合而發(fā)揮重要作用!與此同時,筆者認為,我們相信大數(shù)據(jù)的價值,但不要迷信,盲目跟風,套用“大數(shù)據(jù)”概念;而是應該從積累數(shù)據(jù),整理數(shù)據(jù),分析數(shù)據(jù)開始,逐步根據(jù)視頻行業(yè)的特點和需求挖掘出真正的“金礦”!
本節(jié)的最后,借用《大數(shù)據(jù)時代》的話:“大數(shù)據(jù)提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,一邊等待更好的方法和答案出現(xiàn)。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本!”
愛立信的價值
愛立信 - 視頻領域領導者
愛立信公司成立于1896年,是目前全球最大的通信設備和應用服務供應商,總部位于瑞典的斯德哥爾摩。愛立信公司提供通信網(wǎng)絡、電信服務和多媒體解決方案,幫助世界各地的人們更加便捷地溝通。愛立信提供的網(wǎng)絡承載著全球40%以上的移動業(yè)務;愛立信為運營商提供支持的網(wǎng)絡正在為超過25億用戶提供服務。
愛立信的電視解決方案事業(yè)部業(yè)務遍及全球,在英國、美國、中國等地設有研發(fā)機構。通過不斷的技術研發(fā),業(yè)務拓展,和一些重要的并購,如Tandberg Television(視頻壓縮,互動電視后臺),Hyc TV(視頻產(chǎn)業(yè)咨詢),Technicolor(廣播管理服務),微軟Mediaroom(全球IPTV市場份額第一),Redbee(媒體服務提供),愛立信已經(jīng)成為電視和媒體(TV&Media)領域領導者,能夠為業(yè)內(nèi)提供完整的端到端整體解決方案和服務。

愛立信 – 端到端解決方案

愛立信的端到端解決方案主要包含如下組件:
視頻壓縮:業(yè)內(nèi)最領先的視頻壓縮產(chǎn)品
內(nèi)容管理:以CMS為核心的方案,工作流調(diào)度,面向新媒體需求
多屏業(yè)務管理平臺:面向多屏時代需求,統(tǒng)一的后臺管理和多屏門戶方案
媒體分發(fā)網(wǎng)絡(MDN):滿足OTT需求,統(tǒng)一面向移動和固定網(wǎng)絡的方案
愛立信 – 客戶參考案例
愛立信在全球有超過2000多個視頻行業(yè)客戶案例,在國內(nèi)與CCTV,中國電信,各地有線網(wǎng)絡均已有多年合作。

[1] [2] 下一頁