近年來,數(shù)據(jù)標(biāo)注行業(yè)經(jīng)歷了巨大的變革和挑戰(zhàn)。娛樂資本論·視智未來采訪了數(shù)據(jù)標(biāo)注公司飛火大數(shù)據(jù)的CEO丁一峻,他分享了自己的創(chuàng)業(yè)歷程、公司現(xiàn)狀和對行業(yè)的洞察等。
從中我們可以感受到這個(gè)行業(yè)在繁華背后所面臨的困境、競爭以及未來的方向。從做阿里的數(shù)據(jù)外包到轉(zhuǎn)型做百度的業(yè)務(wù),再到如今的數(shù)據(jù)采集車項(xiàng)目,丁一峻帶我們走進(jìn)數(shù)據(jù)標(biāo)注行業(yè)的內(nèi)部世界,一探行業(yè)的現(xiàn)狀與前景。
飛火大數(shù)據(jù)公司成立于2019年,專注于AI感知數(shù)據(jù)采集和標(biāo)注業(yè)務(wù),主要做自動駕駛汽車、數(shù)據(jù)采集等業(yè)務(wù)。
(相關(guān)資料圖)
---以下為采訪實(shí)錄---?
關(guān)于公司:
視智未來:你最開始做數(shù)據(jù)標(biāo)注公司的原因是?
飛火大數(shù)據(jù)CEO丁一峻(下同):
2018年我做阿里的數(shù)據(jù)外包業(yè)務(wù),覺得利潤可觀,開始創(chuàng)業(yè)。早年百度開發(fā)過面向C端的標(biāo)注平臺,后來發(fā)現(xiàn)與其組建部門管理C端不如直接外包和團(tuán)隊(duì)合作,性價(jià)比更高,2019年我開始做百度的業(yè)務(wù)。
2019年做百度某數(shù)據(jù)標(biāo)注業(yè)務(wù)項(xiàng)目截圖
視智未來:您公司現(xiàn)在多少人?
高峰時(shí)有兩三百人,現(xiàn)在公司只有40多位員工,老客戶的需求還在,能維持正常運(yùn)營,但這種單子很雞肋,一個(gè)月幾百幾千跟辦公室采購差不多,利潤太低,項(xiàng)目體量也不穩(wěn)定。數(shù)據(jù)行業(yè)缺乏像蘋果、特斯拉一樣需求穩(wěn)定的工廠。不然我也不想裁人,有活還需要找外包,之前想過和學(xué)校還有監(jiān)獄合作,但學(xué)校要考慮領(lǐng)導(dǎo)、輔導(dǎo)員各種利益分配,監(jiān)獄對網(wǎng)絡(luò)要求高,不如找全職。
視智未來:你們現(xiàn)在數(shù)據(jù)標(biāo)注員的工資基本是?
基礎(chǔ)的標(biāo)注員往往都是屬于地方上的最低工資標(biāo)準(zhǔn),三線城市兩三千左右,質(zhì)檢員和項(xiàng)目經(jīng)理,能到七千左右。
視智未來:現(xiàn)在和2020年相比衰落了嗎?
對我們來講還好,也在開發(fā)培訓(xùn)工具,很多業(yè)務(wù)會外包,員工經(jīng)驗(yàn)多了會轉(zhuǎn)型做項(xiàng)目經(jīng)理。
為了提高效率,我們開發(fā)了工具,之前2D拉框要8分一個(gè),現(xiàn)在降到了5、6分,操作更便捷。質(zhì)量上,如果客戶不想要目標(biāo)物低于某像素值的,工具直接調(diào)數(shù)值,標(biāo)注員就不用標(biāo)了。
但是這種工具標(biāo)注公司基本只能自用,同行有能力買的,自己有開發(fā)的實(shí)力。沒開發(fā)實(shí)力的,出不起這個(gè)錢。工具都是基于labelme的底層邏輯。早幾年能打個(gè)信息差,賣平臺賺點(diǎn)錢,現(xiàn)在不行了,大家都知道套路,直接上源碼加個(gè)UI就成產(chǎn)品了。
現(xiàn)在甲方公司更愿意買。因?yàn)榧追焦緵]有工具的話,數(shù)據(jù)外包的安全性流程會比較亂,被拷貝、轉(zhuǎn)走也不好管理。
視智未來:你們之前是做自動駕駛嗎?
前兩年做自動駕駛的公司好融資,這類訂單多,今年AIGC 文本更火,這塊訂單多了。我們除了小語種沒別的特色,跟著市場走。
視智未來:GPT 爆火之后,對你們公司的影響大嗎?
文本類的零碎訂單增多,很多公司會用大模型提煉數(shù)據(jù),或者直接AI標(biāo)注,甲方外包數(shù)據(jù)減少預(yù)算卡在了兩三萬。這樣的訂單增多,對我們小公司來講意義不大,單價(jià)低,又需要投入太多的精力,跟收益不成正比。
視智未來:你們做的事,還挺用 AI來替代自己工作的。
對,我們做的就是一個(gè)自我淘汰的行業(yè)。這個(gè)行業(yè)最終可能會只剩質(zhì)檢員。
視智未來:你們的客戶訂單是私有的數(shù)據(jù)嗎?還是公網(wǎng)數(shù)據(jù)?
之前我們做一家證券公司的數(shù)據(jù)標(biāo)注,剛好有一位標(biāo)注員,是這家證券公司的用戶,他發(fā)現(xiàn)用了他的數(shù)據(jù),提出了抗議。后來私下花錢和解了。誰采集數(shù)據(jù),出了問題誰負(fù)責(zé),所以一般我們也不會過問數(shù)據(jù)來源情況。
現(xiàn)在我們拓展業(yè)務(wù),做了數(shù)據(jù)采集車,才關(guān)注到數(shù)據(jù)知識產(chǎn)權(quán)、數(shù)據(jù)安全這些事。
視智未來:你們一般采集哪類信息?
早年種類多樣,比如人臉聲音,現(xiàn)在都屬于敏感信息了?,F(xiàn)在就和合作單位做路采。
視智未來:人臉采集一般應(yīng)用在哪里?? ? ?
銀行APP、高鐵閘機(jī),主播專用相機(jī)的人臉自動修復(fù)功能等。
關(guān)于行業(yè):
視智未來:你覺得數(shù)據(jù)行業(yè)以后會怎么發(fā)展?
分兩塊,一個(gè)是行業(yè)本身的科技發(fā)展,一些簡單的數(shù)據(jù)處理會被機(jī)器所替代。數(shù)據(jù)公司做小眾的、有特色的領(lǐng)域。另一塊是看政策,比如數(shù)據(jù)像期貨一樣進(jìn)行交易,會誕生很多數(shù)據(jù)生產(chǎn)商,而不是靠接訂單生存。這時(shí)候大家比的才不是資源,而是技術(shù)。
視智未來:目前數(shù)據(jù)行業(yè)接單主要看的是什么?
現(xiàn)在價(jià)格內(nèi)卷的太厲害,主要看關(guān)系還有團(tuán)隊(duì)管理。
視智未來:你怎么看待國內(nèi)的AIGC數(shù)據(jù)合成情況呢??
AIGC合成數(shù)據(jù)需要看政策,現(xiàn)在是灰色地帶,好不好獲取,就看膽子大不大了。誰也不知道未來會不會出爆款,有比擬真實(shí)數(shù)據(jù)的內(nèi)容出現(xiàn)。
視智未來:你覺得數(shù)據(jù)標(biāo)注行業(yè)像富士康工廠嗎?
數(shù)據(jù)標(biāo)注本質(zhì)是高級搬磚,我們不如工廠,AI的產(chǎn)品線不像工廠那么完善,缺乏法律和社會面的支持,比如版權(quán)、數(shù)據(jù)安全。
視智未來:你了解到國內(nèi)哪個(gè)城市在數(shù)據(jù)標(biāo)注上走的靠前嗎?
深圳和上海比較靠前,貴陽在打造數(shù)據(jù)存儲之地,應(yīng)該是因?yàn)橘F陽那邊山多電費(fèi)相對便宜些。
視智未來:你們接下來的業(yè)務(wù)方向是?
公司搬到了工業(yè)配套更完善的蘇州,在做數(shù)據(jù)采集車、數(shù)據(jù)回灌的生意。
關(guān)鍵詞: