沒有好的數據,AI就沒有未來,已經成為行業共識。人工智能行業與數據標注行業實際上是一個水漲船高的關系,人工智能行業越發達,數據標注行業的商業機會越大,這個道理是如此明顯,未來AI數據行業不可估量。
12月8日,由國家發改委國際合作中心、中關村(8.49 +1.56%,診股)管委會和大興區政府指導的2019T-EDGE全球創新大會在北京召開。在當天最重磅的“2019EDGE Awards全球創新評選”上,共有九家企業獲得“2019年度科技企業”獎,其中大部分是像華為、順豐、戴森等這樣在C端具有知名度的行業巨頭公司,然而其中卻有一家深耕企業服務的公司—Testin云測,值得我們好好聊一聊。

在科技行業內,Testin云測早已是大家的“老熟人”。2011年創立之時,Testin云測正趕上手機行業從功能機向智能手機轉型的關鍵時期,APP開發是行業最大風口,Testin云測應時而生,開創了測試行業向云測試行業的轉變,由此積累起大量客戶、建立了行業品牌地位,成為垂直領域的獨角獸。
然而這次Testin云測獲獎,卻應該不是因為它的測試業務,而是近兩年異軍突起的AI數據標注業務。
事實上,EDGE Awards此項年度科技企業獎頒獎標準是“2019年不斷創新并突破自己,在科技領域擁有核心競爭能力,為社會做出杰出貢獻的企業”,像華為獲獎,是因為它對外發布了自研操作系統鴻蒙OS,獵豹移動是因為其在智能服務機器人(14.11 +1.95%,診股)方向布局。而Testin云測也是如此,當年App興起時,Tesitn云測以云測試搶占風口,獲得了成功,現在人工智能時代大潮襲來,Testin云測又以人工智能三要素之一的數據為抓手,成立AI數據標注業務品牌——云測數據,再次成為行業Top1。

眾所周知,人工智能三要素是數據、算力和算法,其中數據居于首位,歷經多個發展階段后,數據正在人工智能進化中發揮著越來越重要的作用,目前人工智能算法的訓練主要依靠大量數據來完成,而未來定制化、場景化的數據也將成為為人工智能商業化落地的關鍵,然而隨著AI企業對獲得特定場景數據的需求越來越大,單靠自身收集既不效率也不積極,這就使得專業的AI數據服務提供商云測數據應運而生。
從這個角度而言,如果說數據對于算法就像汽油之于發動機,那么Testin云測這樣的企業就扮演了一個AI領域“兩桶油”的角色,為中國人工智能產業提供高質數據燃料。
就像中石化和中石油一樣,它們不但負責原油的開采,更負責油品的冶煉,云測數據通過自建數據場景實驗室和數據標注基地為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領域提供定制化的數據標注、數據采集服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理,成功幫助AI企業或AI部門構建數據核心壁壘,為中國的AI產業持續提供動力,這才應該是Testin云測獲得“2019年度科技企業”的最重要原因。
沒有好的數據,AI就沒有未來
在云測數據做大之前,數據標注一直被行業里視為一個隱藏在人工智能領域里的勞動密集型產業。

何謂數據標注?簡單說就是對各種類型的數據包括文本、圖片、語音、視頻等完成分類、標框、注釋、標記并打上說明其某種屬性的標簽。人工智能需要海量數據(16.08 +1.26%,診股),但海量數據并不等同于可以供機器學習的訓練數據,符合質量的訓練數據需要經過數據標注。
數據標注成為一種產業始于2005年,當時以亞馬遜的Mturk為代表的一種新的數據采集服務——眾包模式開始出現,其被大量的硅谷公司采用于訓練AI算法,這種眾包模式后來也流傳到國內。
數據標注的眾包模式從一開始就是一個勞動密集型產業,因為它基本上是靠人工來實現,也就是由數據標注員完成,其技術門檻實際上很低,這使得中國河北、河南、山東、山西等地區出現了很多數據標注小作坊,數據標注產業甚至為這些地區的小城鎮和農村提供了大量就業機會。
大量勞動密集型的數據標注工廠在AI產業爆發初期,為中國人工智能企業的崛起做出了巨大的貢獻。然而,就像兒童成長不同階段需要不同的營養攝入一樣,隨著人工智能產業的發展與進化,AI企業在落地過程中發現,所需要的數據維度和復雜度正變得越來越高,數據服務的眾包模式以及通用數據集已經難以滿足AI企業的數據需求。這個時候,定制化的數據服務模式就出現了。
就像云測數據總經理所說:如果以前的數據標注是為AI企業提供飼料,那么現在云測數據的業務目標是要充當嬰兒的奶粉,運動員的優質蛋白,以幫助AI企業加速產業化進程。
于是,云測數據開始在華東、華北、華南等地建設數據交付中心和數據采集基地,致力于為 AI 企業提供全流程一體化的高精、高質數據服務解決方案,至今,已經為國內外數百家企業提供了AI數據服務。
需要值得一提的是,云測數據進軍數據標注領域并非一拍腦袋的決策,而是有幾大原因在背后推動。

首先,數據標注服務也是從屬于數據服務這一大市場之下,而云測數據具有這方面的資源稟賦優勢,或者說叫基因。過去九年間,作為市場上重要的獨立第三方的企業服務平臺, Testin云測已經在行業積累了廣泛的品牌影響力、技術實力及流程化管理能力,旗下AI數據服務品牌云測數據并不是裸身登場,而是挾勢而來。
其次是這個市場足夠大。數據標注服務既屬于數據服務市場,又屬于人工智能市場。根據預估,明年中國人工智能核心產業規模將超過1500億元,帶動相關產業規模超過1萬億元,如果放諸全世界則更大。
按照相關人士的估算,一個500萬的AI項目會有10%的資金用于數據的采集和標記。由此可以推算出,到了2020年,數據標注行業的市場規模將能夠達到150億。
最后,就是現有數據標注行業的良莠不齊,為云測數據這樣的參與者提供了通過差異化競爭勝出的機會。
前文已經講到,隨著AI技術的發展,AI技術公司對數據的要求也越來越高。這種高要求體現在兩個方面,一是對數據質量本身要求越來越高,這包括數據的精準性、獨立性和安全性。因為算法的精度與數據的質量有著直接關系,數據的數量和質量會成為產品落地的瓶頸。
二是對數據的定制化和場景化要求也越來越高。中國現在有上千家AI公司,它們都是生存在不同的商業場景之下,且人工智能正在積極擁抱各行各業,相對應的算法模型就需要更多還原真實場景的數據需求,小數據的搜集和標注已經成為人工智能產業化落地的桎梏。
當現有數據標注服務的眾包模式以及通用數據集難以滿足所有數據的需求時,云測數據在數據標注領域的差異化競爭機會就來了。
簡而言之, “沒有好的數據,AI就沒有未來”,云測數據在數據標注領域的商業機會,歸根到底還是因為AI企業對“好的數據”需求越來越強烈,它們需要有一家提供“好數據”的龍頭企業出現。
高質、精準、安全:為數據正身
在對市場機會考慮清楚之后,Testin云測正式推出了其AI數據服務品牌——云測數據。
幾年時間,云測數據已經成長為市場頭部品牌,直到這次2019年底為Testin云測在EDGE Awards全球創新評選上拿下“2019年度科技企業”。
云測數據是怎么做到的?所謂大道至簡,其實說來并不復雜,核心就是針對人工智能產業落地呼喚“更好數據”的最新需求變化有的放矢,重建和升級了原有的數據標注產業模式。
首先,通過在人員、軟硬件設施等方面的大投入提高了行業的進入門檻。為了產出更高質量的數據,云測數據在華東、華北、華南等地都建設了數據交付中心和數據采集基地,并實現了一整套標準化作業流轉。在數據采集基地,其標注和質檢人員、項目經理每天面對面溝通,確保每個人能夠理解,并掌握標注有關技術,技能和經驗能夠得到持續的提升。
目前,云測數據已經擁有近千人的數據標注團隊,在規模以及質量上都處在行業前列。正式上崗前,他們都要經過行業知識、平臺工具使用、基地規范制度等內容的團隊培訓流程。
其次,重建了數據標注行業的安全生產流程,也就是要保證絕對的數據安全。這里數據安全的意思不單是指數據不被污染,更是指不被泄露,不侵犯用戶隱私。因為對AI企業來說,數據就是其核心壁壘的一部分,AI企業將數據標注服務交給誰,就意味著誰的高度信任。這就使得數據安全成為一種內在競爭優勢。

誰更安全誰就更容易爭得客戶。云測數據基于此除了所有數據采集的用戶都簽訂數據授權協議,保證AI企業用于訓練的數據合法合規之外,云測數據內部還設定了數據隔離、質量保障等一系列保護數據安全的流程,以在確保企業數據安全的情況下,持續為數據采集和數據標注構建和優化自己的方案。
第三,主打場景定制化AI數據服務,實現廣泛業務領域覆蓋。針對AI企業對場景化數據的巨大需求,從創立開始,云測數據就把為客戶提供定制化場景數據采集和標注服務作為業務重點,到今天為止,云測數據已經覆蓋了智能駕駛、智慧城市、智能家居、智慧金融、零售等幾乎所有AI市場的重要領域。通過場景實驗室的建立,實現場景定制化AI數據服務以幫助企業完善產品發布之前需要的訓練數據。
就像Testin云測CMO張鵬飛強調的那樣“從整體看來,AI數據行業關于安全、隱私等方面并沒有統一的標準和強調重視。但從我們長遠角度出發,一直在隱私和安全防護角度下大力氣服務行業、樹立數據質量標桿,只有以這種負責的態度來服務客戶,我們的行業才能‘良幣驅除劣幣’,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程”。
不可阻擋的大勢所趨
事實上,所有的這一切,只為了一個目的:向AI企業提供更高質、更精準、更安全的數據。
對于習慣成長于數據采集粗放式經營時期的企業來說,云測數據就像一個特立獨行者,因為它的出現推高了行業整體質量水平線,壓縮了水平線之下企業的生存空間。
但這卻是不可阻擋的大勢所趨,這樣的行業顛覆,不是云測數據來做,也必定會有其他企業來做,因為客戶需求就擺在那里。
回顧數據服務行業的發展歷程,會發現實際上經過了三個階段,最初是實驗室階段或步行階段,這一階段AI企業對數據的要求還比較初級,甚至很多數據幾乎連標注都不用就可以被拿來用;第二個階段是所謂勞動密集型階段或馬車階段,眾包成為主要模式;今天則已經進入第三個階段,也就是數據服務的場景化和精細化時代,人工智能從馬車速度前行,到起飛前夜,從吃飼料到要喝航空汽油,這就使得云測數據這樣的高端數據供應商成為市場剛需。
沒有好的數據,AI就沒有未來,已經成為行業共識。人工智能行業與數據標注行業實際上是一個水漲船高的關系,人工智能行業越發達,數據標注行業的商業機會越大,這個道理是如此明顯,未來AI數據行業不可估量。
但這對云測數據來說也并不是壞事,因為這個市場太大了,云測數據可以成為頭部玩家,更重要的是,因為數據這一關鍵詞,使得數據標注行業不只面對市場和商業化,同時意味著社會價值,還承擔著社會責任,只有更多企業一起用力,才能更快的凈化行業亂象,建立起行業規范,整個行業才能做大做強。