我猜,你还不知道数据标注公司在做什么吧?
?
文章發(fā)布于公號(hào)【數(shù)智物語(yǔ)】?(ID:decision_engine),關(guān)注公號(hào)不錯(cuò)過(guò)每一篇干貨。
?
?
?
來(lái)源:覺(jué)醒向量
?
?
大多數(shù)AI實(shí)驗(yàn)室、初創(chuàng)型AI公司在發(fā)展初期如果雇傭大量的人力進(jìn)行數(shù)據(jù)標(biāo)注,就不得不面臨下面兩種處境:
首先對(duì)公司的管理方面就是巨大的挑戰(zhàn),在研發(fā)產(chǎn)品的同時(shí)還得把大量精力放在如何管理大量標(biāo)注人員身上。
其次大量全職的標(biāo)注人員的薪酬對(duì)于初創(chuàng)型公司和研究實(shí)驗(yàn)室也是一個(gè)不小的挑戰(zhàn).....?
?
01
基礎(chǔ)架構(gòu)
?
數(shù)據(jù)標(biāo)注行業(yè),一個(gè)因?yàn)槿斯ぶ悄茚绕鸲屡d的行業(yè)。
大多數(shù)AI實(shí)驗(yàn)室、初創(chuàng)型AI公司在發(fā)展初期如果雇傭大量的人力進(jìn)行數(shù)據(jù)標(biāo)注,就不得不面臨下面兩種處境:
首先對(duì)公司的管理方面就是巨大的挑戰(zhàn),在研發(fā)產(chǎn)品的同時(shí)還得把大量精力放在如何管理大量標(biāo)注人員身上。
其次大量全職的標(biāo)注人員的薪酬對(duì)于初創(chuàng)型公司和研究實(shí)驗(yàn)室也是一個(gè)不小的挑戰(zhàn)。
為了更好的協(xié)調(diào)AI公司、AI實(shí)驗(yàn)室與群體標(biāo)注人員的供需關(guān)系,本文中所指的標(biāo)注公司就是在這樣的大背景下,應(yīng)需而生。
那么問(wèn)題來(lái)了,如何運(yùn)營(yíng)一家標(biāo)注公司呢?
本文先從最基礎(chǔ)的標(biāo)注公司架構(gòu)開(kāi)始介紹,不同階段的標(biāo)注公司的運(yùn)營(yíng)是有差別的。
?
最基礎(chǔ)的標(biāo)注公司應(yīng)該具備以下4點(diǎn):
?
· 標(biāo)注員
這也是組成標(biāo)注公司最重要的一點(diǎn),有一批優(yōu)秀的標(biāo)注員一定可以讓你的公司事半功倍。
那么怎么樣的標(biāo)注員才能算是優(yōu)秀呢?這里有幾個(gè)衡量標(biāo)準(zhǔn):首先數(shù)據(jù)標(biāo)注的終端是AI、是人工智能。
數(shù)據(jù)標(biāo)注的最終數(shù)據(jù)是為計(jì)算機(jī)服務(wù)的,所以越精細(xì)的標(biāo)注對(duì)計(jì)算機(jī)的訓(xùn)練越高效,這就要求我們的標(biāo)注員一定要是一個(gè)細(xì)心認(rèn)真的人。
越細(xì)心、越認(rèn)真,標(biāo)注數(shù)據(jù)的精細(xì)度就越有保證。
其次,因?yàn)樾枰獦?biāo)注的數(shù)據(jù)的場(chǎng)景是千變?nèi)f化的,會(huì)有各種各樣復(fù)雜的場(chǎng)景出現(xiàn),這就要求我們的標(biāo)注員要有較強(qiáng)的觀察能力。
觀察能力越強(qiáng)的人,標(biāo)注出的物體輪廓也就離物品的真實(shí)輪廓越相近,越準(zhǔn)確。
最后,因?yàn)閿?shù)據(jù)標(biāo)注在單一的場(chǎng)景中需要重復(fù)一個(gè)或者幾個(gè)動(dòng)作,除去判斷,這種重復(fù)的勞動(dòng)是相對(duì)比較枯燥的,這就要求我們的標(biāo)注員需要有耐心能夠坐得住。
越有耐心,能坐得住,標(biāo)注數(shù)據(jù)的穩(wěn)定性就越有保證。
?
· 審核員
審核員一般都是從優(yōu)秀的標(biāo)注員中挑選出來(lái)的。
因?yàn)閿?shù)據(jù)標(biāo)注是一個(gè)類(lèi)似于熟能生巧的行業(yè),一個(gè)標(biāo)注員接觸過(guò)的標(biāo)注對(duì)象越多,場(chǎng)景越復(fù)雜,那么他也就越有可能更快、更準(zhǔn)確的判斷出復(fù)雜場(chǎng)景中的被標(biāo)注元素,這些都是靠時(shí)間和經(jīng)驗(yàn)堆積出來(lái)的。
自身是一個(gè)優(yōu)秀的標(biāo)注員,這種標(biāo)注員在審核時(shí)會(huì)同樣把自身對(duì)標(biāo)注的要求傳達(dá)給其他標(biāo)注員,這對(duì)于提升標(biāo)注數(shù)據(jù)的整體質(zhì)量是有很好的幫助帶動(dòng)作用。
?
· 項(xiàng)目經(jīng)理
項(xiàng)目經(jīng)理主要就是對(duì)于項(xiàng)目組的各個(gè)成員(包括標(biāo)注員和審核員)的管理,項(xiàng)目經(jīng)理最好是能夠有一定的AI基礎(chǔ)。
有AI基礎(chǔ)的項(xiàng)目經(jīng)理,在和上游需求公司對(duì)接的時(shí)候能夠供輕松的進(jìn)入項(xiàng)目本身,能夠更快更準(zhǔn)確的了解上游公司標(biāo)注的具體需求,減少溝通時(shí)間的同時(shí),避免因?yàn)闇贤ㄒ?guī)則上的誤差導(dǎo)致下游標(biāo)注員重復(fù)返工的情況。
?
· 運(yùn)營(yíng)總監(jiān)
運(yùn)營(yíng)總監(jiān)嚴(yán)格意義上也就是公司的創(chuàng)始人了,運(yùn)營(yíng)總監(jiān)基本上就是奔波于各類(lèi) AI 企業(yè),各種 AI 實(shí)驗(yàn)室,說(shuō)簡(jiǎn)單一些就是尋找需求方。至于可能大家比較關(guān)心的怎么找,本文后續(xù)會(huì)有更多詳細(xì)介紹。
人工智能或者說(shuō)AI會(huì)成為未來(lái)的趨勢(shì),已經(jīng)是大勢(shì)所趨,不論國(guó)外還是國(guó)內(nèi)的互聯(lián)網(wǎng)科技巨頭都在布局 AI 產(chǎn)業(yè),從谷歌、亞馬遜、Facebook 到阿里巴巴、騰訊、百度、京東都在積極的布局自己的 AI 體系。
與此同時(shí),我們國(guó)家的決策層提出:人工智能是引領(lǐng)這一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),具有溢出帶動(dòng)性很強(qiáng)的“頭雁”效應(yīng)。
?
02
市場(chǎng)結(jié)構(gòu)
?
由于上游客戶的需求可能千變?nèi)f化,同時(shí)客戶的需求很大概率都是階段性的,這就要求眾包公司合作的大眾志愿者首先自身得是穩(wěn)定的。
但是由于大眾志愿者就是利用閑散時(shí)間進(jìn)行工作的這種特性,長(zhǎng)期穩(wěn)定的大眾志愿者幾乎不太可能,這就要求數(shù)據(jù)標(biāo)注眾包公司必須擁有龐大的大眾志愿者團(tuán)隊(duì),形成一個(gè)體系。
才能保證在發(fā)放任務(wù)的時(shí)候總是有充足的大眾志愿者進(jìn)行合作.....
?
?
隨著 AI 浪潮的斬頭露角,數(shù)據(jù)標(biāo)注行業(yè)也猶如雨后春筍般蓬勃的發(fā)展起來(lái)。
本文就目前國(guó)內(nèi)數(shù)據(jù)標(biāo)注行業(yè)存在的幾個(gè)階段性結(jié)構(gòu)特征進(jìn)行展開(kāi),讓更多想了解數(shù)據(jù)標(biāo)注的 AI公司、AI 實(shí)驗(yàn)室、準(zhǔn)備加入數(shù)據(jù)標(biāo)注的朋友們,快速熟悉目前數(shù)據(jù)標(biāo)注行業(yè)的現(xiàn)狀和運(yùn)營(yíng)數(shù)據(jù)標(biāo)注公司應(yīng)該注意的若干問(wèn)題。
?
數(shù)據(jù)標(biāo)注市場(chǎng)目前有下面幾種結(jié)構(gòu):
?
· 眾包結(jié)構(gòu)
顧名思義,就是把需要完成的任務(wù)分發(fā)給大眾志愿者(也就是市場(chǎng)上說(shuō)的兼職)。這其中就出現(xiàn)了眾包公司。
眾包公司聯(lián)系到需求數(shù)據(jù)標(biāo)注的客戶,和客戶建立合作關(guān)系后,將客戶需求傳達(dá)給合作的大眾志愿者,從而形成一個(gè)“需求公司——數(shù)據(jù)標(biāo)注眾包公司——多個(gè)大眾志愿者”這樣一個(gè)眾包結(jié)構(gòu) 。
這種眾包結(jié)構(gòu)的優(yōu)點(diǎn)就是可以組織起社會(huì)上的大眾志愿者進(jìn)行數(shù)據(jù)標(biāo)注,而大眾志愿者不用占用太多的公司資源,勞動(dòng)力成本相對(duì)較低。
對(duì)于數(shù)據(jù)標(biāo)注眾包公司費(fèi)用支出的核心——人工來(lái)說(shuō),無(wú)疑是可以極大的減少公司的運(yùn)營(yíng)成本,從而使公司自身在面對(duì)需求數(shù)據(jù)標(biāo)注的客戶時(shí)的報(bào)價(jià)更具有競(jìng)爭(zhēng)力。
當(dāng)然,眾包結(jié)構(gòu)的缺點(diǎn)和優(yōu)點(diǎn)一樣顯而易見(jiàn),甚至可以說(shuō)它的缺點(diǎn)已經(jīng)慢慢的大過(guò)了它的優(yōu)點(diǎn),為什么這么說(shuō)呢?
需要擁有大量的志愿者基數(shù):由于上游客戶的需求可能千變?nèi)f化,同時(shí)客戶的需求很大概率都是階段性的,這就要求眾包公司合作的大眾志愿者首先自身得是穩(wěn)定的。
但是由于大眾志愿者就是利用閑散時(shí)間進(jìn)行工作的這種特性,長(zhǎng)期穩(wěn)定的大眾志愿者幾乎不太可能,這就要求數(shù)據(jù)標(biāo)注眾包公司必須擁有龐大的大眾志愿者團(tuán)隊(duì),形成一個(gè)體系。
才能保證在發(fā)放任務(wù)的時(shí)候總是有充足的大眾志愿者進(jìn)行合作。
溝通成本高昂:而當(dāng)大眾志愿者的數(shù)量能夠滿足任務(wù)要求時(shí),我們又不得不面對(duì)另一個(gè)事實(shí):
數(shù)據(jù)標(biāo)注眾包公司在與需求公司洽談合作時(shí)只能有針對(duì)性的進(jìn)行數(shù)據(jù)標(biāo)注類(lèi)型的選擇。
如果在選擇數(shù)據(jù)標(biāo)注項(xiàng)目上普遍撒網(wǎng),就會(huì)面對(duì)公司自身需要投入巨大的精力去培訓(xùn)那些不斷更迭的大眾志愿者。
而很多時(shí)候公司在大眾志愿者合作方面節(jié)約下來(lái)的成本,其實(shí)已經(jīng)全部轉(zhuǎn)嫁到了公司培訓(xùn)、糾錯(cuò)諸如此類(lèi)的溝通環(huán)節(jié)。
數(shù)據(jù)保密困難:目前國(guó)內(nèi)的AI公司,AI實(shí)驗(yàn)室還沒(méi)有形成井噴之勢(shì)。但就現(xiàn)階段而言依然有眾多AI公司,AI實(shí)驗(yàn)室在進(jìn)行著高度重疊的產(chǎn)品研發(fā)。
對(duì)于有標(biāo)注需求的公司來(lái)說(shuō),如果被標(biāo)注數(shù)據(jù)都是真金白銀獲取來(lái)的,那么倘若在眾包環(huán)節(jié)眾包公司處理不當(dāng),很有可能AI公司辛苦獲取的數(shù)據(jù)就成了其他AI公司的嫁衣。
無(wú)法給予需求公司靈活的服務(wù):因?yàn)榇蟊娭驹刚邠碛辛鲃?dòng)性的特點(diǎn),一旦需求公司改變?cè)袠?biāo)注需求,數(shù)據(jù)標(biāo)注眾包公司是沒(méi)有辦法在較短的時(shí)間進(jìn)行調(diào)整的。
同時(shí),數(shù)據(jù)標(biāo)注眾包公司的客戶群體也相對(duì)單一,由于大眾志愿者的群體特點(diǎn),數(shù)據(jù)標(biāo)注眾包公司只能把更多精力放在需要大批量數(shù)據(jù)標(biāo)注,同時(shí)標(biāo)注規(guī)則相對(duì)簡(jiǎn)單的需求公司。
但是AI的訓(xùn)練是一個(gè)階段性的過(guò)程,基本上都是:小批量找特征訓(xùn)練——較小批量簡(jiǎn)單場(chǎng)景訓(xùn)練——較小批量復(fù)雜場(chǎng)景訓(xùn)練——大批量訓(xùn)練。
在數(shù)據(jù)標(biāo)注眾包公司砍掉處在第一階段的AI公司和AI實(shí)驗(yàn)室的時(shí)候,其實(shí)也就是砍掉了相當(dāng)一部分潛在客戶。
?
· 工廠結(jié)構(gòu)
有了眾包結(jié)構(gòu)里的兼職架構(gòu),下面就著重介紹一下全職架構(gòu),也就是工廠結(jié)構(gòu)。
工廠結(jié)構(gòu)相較于眾包結(jié)構(gòu)形式上要簡(jiǎn)單一些,省去了中間眾包商這個(gè)環(huán)節(jié),進(jìn)而形成了一個(gè)“需求公司——數(shù)據(jù)工廠”這樣的工廠結(jié)構(gòu)。
相較于數(shù)據(jù)眾包公司,數(shù)據(jù)工廠的優(yōu)點(diǎn)就是標(biāo)注人員穩(wěn)定,能做到需求方和數(shù)據(jù)標(biāo)注方即時(shí)溝通,溝通成本大大降低。
同時(shí),由于數(shù)據(jù)是以一對(duì)一的形式進(jìn)行傳遞的,也大大降低了數(shù)據(jù)被泄露的可能性。
雖然工廠結(jié)構(gòu)可以有效的規(guī)避很多眾包結(jié)構(gòu)中存在的種種問(wèn)題,但是依舊有很多問(wèn)題他是沒(méi)辦法解決的,那我們就看看有哪些問(wèn)題工廠結(jié)構(gòu)解決不了呢?
選擇標(biāo)注公司的困難:在市場(chǎng)上可能有成百上千個(gè)工廠結(jié)構(gòu)的數(shù)據(jù)標(biāo)注公司,但是有數(shù)據(jù)標(biāo)注需求的公司應(yīng)該如何選擇呢?
如果沒(méi)有選擇正確的標(biāo)注公司,不僅得不到高質(zhì)量的標(biāo)注數(shù)據(jù),更有可能因?yàn)閿?shù)據(jù)大批量不合格而重復(fù)返工,進(jìn)而耽誤了原本項(xiàng)目的工期。
而在這個(gè)AI公司百家爭(zhēng)鳴的時(shí)代,時(shí)間才是最重要的,誰(shuí)的產(chǎn)品最先出世,也就最有機(jī)會(huì)獲得資本的垂青。
但是有標(biāo)注需求的公司如何在眾生百態(tài)的標(biāo)注市場(chǎng)中選擇一個(gè)質(zhì)量和效率雙重過(guò)硬的公司其實(shí)是一件非常困難的事情。
工廠結(jié)構(gòu)公司兩極分化,因?yàn)楦鞣N各樣的原因,工廠結(jié)構(gòu)的公司兩極化很明顯:較大的可以達(dá)到上千人;而較小的,只有幾個(gè)人。
因?yàn)閮杉?jí)分化的原因,市場(chǎng)現(xiàn)在就會(huì)出現(xiàn)一個(gè)很有意思的現(xiàn)象:
大的公司很少會(huì)去對(duì)接短期且數(shù)據(jù)量較少的項(xiàng)目,因?yàn)槌薪虞^少的數(shù)據(jù)量對(duì)于一個(gè)較大的工廠結(jié)構(gòu)的標(biāo)注公司來(lái)說(shuō)很有可能都不夠公司日常的管理運(yùn)營(yíng)成本;
反之,小的標(biāo)注公司可以承接短期數(shù)據(jù)量較少的項(xiàng)目,但是在大批量數(shù)據(jù)殺到的時(shí)候,又會(huì)顯得捉襟見(jiàn)肘,難以承接。
人工成本風(fēng)險(xiǎn)較高:首先因?yàn)槭侨?#xff0c;不論有沒(méi)有任務(wù),都涉及一個(gè)員工薪酬的發(fā)放。
其次,需求方公司的需求有大概率是呈周期性的,就是有可能這周公司有項(xiàng)目做,下周可能就沒(méi)有了。
這就會(huì)映射出一個(gè)工廠結(jié)構(gòu)的數(shù)據(jù)標(biāo)注公司非常尷尬的處境:合同期限內(nèi)需要完成的大項(xiàng)目可能需要大量人員進(jìn)行參與。
可是一旦合同結(jié)束了,公司卻又沒(méi)有找到后續(xù)能夠進(jìn)行人員分配的項(xiàng)目,這就會(huì)給數(shù)據(jù)標(biāo)注公司的運(yùn)營(yíng)帶來(lái)挑戰(zhàn)。
?
· 眾包+工廠結(jié)構(gòu)
有了眾包和工廠結(jié)構(gòu)的總結(jié),我們不難發(fā)現(xiàn),他們各有各的優(yōu)點(diǎn),也各有各的缺點(diǎn)。這里提出的眾包+工廠結(jié)構(gòu),其實(shí)就是將兩者進(jìn)行了優(yōu)缺點(diǎn)的融合,揚(yáng)長(zhǎng)避短。
?
03
資源特點(diǎn)篇
?
所謂的資源,也就是數(shù)據(jù)標(biāo)注公司要面對(duì)的甲方:AI公司、AI企業(yè)、AI研究所。那么問(wèn)題來(lái)了,人工智能公司、人工智能企業(yè)、人工智能研究所多種多樣,作為一個(gè)數(shù)據(jù)標(biāo)注公司應(yīng)該如何定義自己的服務(wù)方向呢?
首先我們要能夠準(zhǔn)確的了解資源公司的特點(diǎn),這樣才能更好的為其提供符合自身特點(diǎn)的服務(wù)。
目前市場(chǎng)上的AI公司、AI企業(yè)、AI研究所大致分為以下幾種,對(duì)于與數(shù)據(jù)標(biāo)注公司的合作來(lái)說(shuō)他們各有各的優(yōu)勢(shì)和劣勢(shì),這里對(duì)以下突出的幾類(lèi)進(jìn)行分析:
?
1. 初創(chuàng)型 | 這里指的初創(chuàng)型公司一般指未進(jìn)行過(guò)階段融資的初次創(chuàng)業(yè)型公司。
優(yōu)勢(shì):
溝通成本低:初創(chuàng)型公司的核心創(chuàng)始人一般都是公司的核心技術(shù)人員,所以他們對(duì)數(shù)據(jù)標(biāo)注的結(jié)果有清晰的需求認(rèn)知,能夠清楚嚴(yán)謹(jǐn)?shù)谋硎龀鲂枰獦?biāo)注數(shù)據(jù)的規(guī)則,數(shù)據(jù)標(biāo)注公司與此類(lèi)資源公司在溝通上比較簡(jiǎn)單,能夠快速的直入主題,迅速建立供需關(guān)系,省去冗長(zhǎng)的上報(bào)、各級(jí)的批復(fù)等溝通環(huán)節(jié)。
結(jié)算時(shí)間快:這類(lèi)資源公司本身公司架構(gòu)也相對(duì)簡(jiǎn)單,對(duì)于標(biāo)注完成后的結(jié)款時(shí)間相對(duì)也較短。
劣勢(shì):
需求連貫性不強(qiáng):因?yàn)槌鮿?chuàng)型公司很多沒(méi)有穩(wěn)定的甲方,同時(shí)公司在同一時(shí)期對(duì)接的甲方數(shù)量并不是一定的,有可能在某個(gè)月中會(huì)有很多,同樣也可能一個(gè)沒(méi)有。這就導(dǎo)致了在數(shù)據(jù)的需求連貫性上并不是很強(qiáng)。
標(biāo)注需求量不大:在與甲方溝通合作的路上,展示型項(xiàng)目產(chǎn)品并不需要大量數(shù)據(jù)的驗(yàn)證。更多時(shí)候都是以小批量數(shù)據(jù)進(jìn)行產(chǎn)品的小樣展示,因?yàn)槌鮿?chuàng)公司也要考慮項(xiàng)目的成功率和標(biāo)注成本之間的關(guān)系。
?
2. 企業(yè)型 | 這里指已經(jīng)形成一定規(guī)模的人工智能企業(yè),同時(shí)可能已經(jīng)獲得多輪融資。
優(yōu)勢(shì):
數(shù)據(jù)連貫性強(qiáng):這里指的一定規(guī)模的人工智能企業(yè)可能已經(jīng)是市場(chǎng)上第一梯隊(duì)的領(lǐng)跑者,因?yàn)橛谐墒斓漠a(chǎn)品和合作對(duì)象,其在產(chǎn)品需要進(jìn)行迭代和研發(fā)關(guān)聯(lián)產(chǎn)品時(shí)是需要大量標(biāo)注數(shù)據(jù)作為模型訓(xùn)練的。同時(shí)因?yàn)槠湓跇I(yè)界的影響力,與新的需求商進(jìn)行合作時(shí)的成單率也要遠(yuǎn)高于初創(chuàng)AI公司。
數(shù)據(jù)價(jià)值高:因?yàn)榇笮凸拘枰C合保密、質(zhì)量、工期等多方面因素,同時(shí)因?yàn)橐呀?jīng)與需求公司建立了正式的合作關(guān)系,此類(lèi)型的AI公司在提供的數(shù)據(jù)標(biāo)注單價(jià)上是要略高于初創(chuàng)型企業(yè)。
劣勢(shì):
結(jié)算周期長(zhǎng):因?yàn)榇祟?lèi)公司的結(jié)構(gòu)相對(duì)復(fù)雜,同時(shí)結(jié)構(gòu)越復(fù)雜的公司其對(duì)于支出資金的流程也越謹(jǐn)慎,這種謹(jǐn)慎就會(huì)導(dǎo)致合同內(nèi)的結(jié)款周期遠(yuǎn)遠(yuǎn)高于初創(chuàng)型企業(yè)。
溝通成本高:因?yàn)榇祟?lèi)公司的架構(gòu)相對(duì)復(fù)雜,一般一個(gè)項(xiàng)目的啟動(dòng)流程是“算法團(tuán)隊(duì)將需求提供給項(xiàng)目經(jīng)理-項(xiàng)目經(jīng)理聯(lián)系數(shù)據(jù)標(biāo)注公司試標(biāo)-數(shù)據(jù)標(biāo)注公司試標(biāo)完畢反饋-項(xiàng)目經(jīng)理檢查并反饋給算法團(tuán)隊(duì)”。
這其中就避免不了多人傳達(dá)規(guī)則時(shí)出現(xiàn)的模糊情況,需要大量的時(shí)間進(jìn)行溝通和驗(yàn)證。同時(shí)在項(xiàng)目啟動(dòng)時(shí)的流程也相對(duì)復(fù)雜,不僅需要算法確認(rèn)規(guī)則,需要財(cái)務(wù)確認(rèn)支付方式,需要法務(wù)進(jìn)行合同審核,需要項(xiàng)目主管領(lǐng)導(dǎo)批準(zhǔn),這些都會(huì)使數(shù)據(jù)標(biāo)注公司的溝通成本大大增加。
?
3. 科研型 | 這里指各類(lèi)政府、大學(xué)等行政事業(yè)單位的科研部門(mén)。
優(yōu)勢(shì):
結(jié)算時(shí)間短:一般的科技機(jī)構(gòu)的審批方式都是先進(jìn)行項(xiàng)目報(bào)備,在項(xiàng)目報(bào)備通過(guò)的時(shí)候其實(shí)這部分的項(xiàng)目資金就已經(jīng)預(yù)留出來(lái)了,只要數(shù)據(jù)標(biāo)注公司能夠按時(shí)按量的完成項(xiàng)目?jī)?nèi)容同時(shí)提供合同內(nèi)規(guī)定的相關(guān)發(fā)票,就可以順利結(jié)算。
溝通成本低:一般的科研機(jī)構(gòu)都是由項(xiàng)目負(fù)責(zé)導(dǎo)師指定聯(lián)系人進(jìn)行與數(shù)據(jù)標(biāo)注公司的溝通,同時(shí)被指定人一般也都是項(xiàng)目的參與人,所以在規(guī)則的制定上更為清晰,與初創(chuàng)公司一樣,能夠快速的進(jìn)入主題,大大節(jié)省了數(shù)據(jù)標(biāo)注公司在溝通方面所花費(fèi)的時(shí)間。
劣勢(shì):
數(shù)據(jù)連貫性不強(qiáng):因?yàn)榇祟?lèi)科研所的項(xiàng)目基本都是階段性的,一類(lèi)產(chǎn)品上線后,相關(guān)產(chǎn)品再進(jìn)行上線需要周期。
找尋成本高:因?yàn)榭蒲袡C(jī)構(gòu)的特殊性,在市場(chǎng)上很難準(zhǔn)確就定位到需求部門(mén),在眾多部門(mén)中確立需求部門(mén)并與之建立起合作關(guān)系是需要耗費(fèi)大量的時(shí)間和精力。
?
4. 綜合型 | 向AI化轉(zhuǎn)型的各類(lèi)傳統(tǒng)行業(yè)企業(yè)。
優(yōu)勢(shì):
數(shù)據(jù)連貫性強(qiáng):因?yàn)樯婕皞鹘y(tǒng)生產(chǎn)的轉(zhuǎn)型,該類(lèi)企業(yè)一般都有獨(dú)立的AI產(chǎn)品研發(fā)組,同時(shí)因?yàn)榇祟?lèi)公司本身的體量和市場(chǎng)占有率,會(huì)使其對(duì)于需要轉(zhuǎn)型的領(lǐng)域和需求產(chǎn)品更為寬泛。
數(shù)據(jù)量大:因?yàn)锳I轉(zhuǎn)型除了成熟的技術(shù)支撐之外,最重要的就是時(shí)間,越快將生產(chǎn)結(jié)合AI的企業(yè),其市場(chǎng)競(jìng)爭(zhēng)力也就越明顯。而如何能讓計(jì)算機(jī)快速的進(jìn)行訓(xùn)練呢?除了算法團(tuán)隊(duì)的技術(shù)支撐,剩下的就是給計(jì)算機(jī)提供大量的符合模型識(shí)別的標(biāo)注數(shù)據(jù)。
劣勢(shì):
結(jié)算周期長(zhǎng):和企業(yè)型公司性質(zhì)相同,由于龐大的內(nèi)部結(jié)構(gòu),項(xiàng)目資金的結(jié)款周期相較于初創(chuàng)型公司和研究所會(huì)大大增長(zhǎng)。
工期緊張:因?yàn)橛修D(zhuǎn)型這個(gè)宏觀任務(wù),所以一般此類(lèi)企業(yè)都對(duì)轉(zhuǎn)型項(xiàng)目的落地時(shí)間有明確的規(guī)定,說(shuō)簡(jiǎn)單一些就是工期緊、任務(wù)重。由于這種特點(diǎn),數(shù)據(jù)標(biāo)注公司在承接此類(lèi)公司的項(xiàng)目時(shí),需要有大量的人手進(jìn)行數(shù)據(jù)標(biāo)注,這對(duì)于公司本身的管理無(wú)疑也是巨大的挑戰(zhàn)。
?
04
數(shù)據(jù)處理分類(lèi)
?
我們是靠眼睛、耳朵來(lái)捕獲外界信息,然后將信息通過(guò)神經(jīng)元傳遞給我們的大腦,最后我們的大腦會(huì)對(duì)獲取來(lái)的各種信息進(jìn)行分析從而達(dá)到諸如判斷、識(shí)別等效果。
同樣,人工智能之所以稱(chēng)呼他為人工智能,是因?yàn)樗暮诵?#xff1a;也就是神經(jīng)網(wǎng)絡(luò)模型。它就是根據(jù)模擬人腦的神經(jīng)網(wǎng)絡(luò)而誕生的。
而圖像、語(yǔ)音這一類(lèi)信息通過(guò)特征標(biāo)注處理(也就是數(shù)據(jù)標(biāo)注),變成計(jì)算機(jī)能夠識(shí)別的信息。同時(shí)通過(guò)大量特征數(shù)據(jù)的訓(xùn)練,最終達(dá)到計(jì)算機(jī)能夠自主識(shí)別的目的。
?
那么目前AI市場(chǎng)上特征數(shù)據(jù)主要包括哪些呢?
像人類(lèi)用眼睛和耳朵獲取圖像、語(yǔ)音數(shù)據(jù)一樣,計(jì)算機(jī)的特征數(shù)據(jù)現(xiàn)階段也分為兩大類(lèi):圖像數(shù)據(jù)和語(yǔ)音數(shù)據(jù)。
同時(shí),根據(jù)AI產(chǎn)品迭代的不同周期、算法模型的匹配結(jié)果,每個(gè)大類(lèi)又可以細(xì)分為眾多小類(lèi),在這里我們主要對(duì)目前市場(chǎng)上主流的需求類(lèi)型進(jìn)行一個(gè)分類(lèi)說(shuō)明。
?
1. 圖像類(lèi)??這里圖像類(lèi)就是指所有照片的統(tǒng)稱(chēng)
圖像場(chǎng)景識(shí)別作為人工智能不可獲取的一部分已經(jīng)在日常生活中被大批量應(yīng)用,這里對(duì)圖像特征的具體處理手法做一個(gè)簡(jiǎn)單介紹:
·?四邊形矩形拉框:這個(gè)也就是數(shù)據(jù)標(biāo)注市場(chǎng)上統(tǒng)稱(chēng)的2D拉框,它主要是用特定軟件對(duì)圖像中需要處理的元素(比如:人、車(chē)、動(dòng)物等等),進(jìn)行一個(gè)拉框處理,同時(shí)用一個(gè)或多個(gè)獨(dú)立的標(biāo)簽來(lái)代表一個(gè)或多個(gè)不同的需要處理元素,同時(shí)在標(biāo)簽的添加上可能會(huì)碰到多層次的添加(以人為標(biāo)注元素為例,長(zhǎng)短發(fā)、胖瘦、穿衣顏色等)從而實(shí)現(xiàn)粗線條的種類(lèi)識(shí)別。
·?多邊形拉框:顧名思義就是將被標(biāo)注元素的輪廓以多邊型的方式勾勒出來(lái),不同的被標(biāo)注元素有不同的輪廓,除了同樣需要添加單級(jí)或多級(jí)標(biāo)簽以外,多邊型還有可能會(huì)涉及到物體遮擋的邏輯關(guān)系。從而實(shí)現(xiàn)細(xì)線條的種類(lèi)識(shí)別。
·?LandMark:標(biāo)注行業(yè)統(tǒng)稱(chēng)打點(diǎn),對(duì)需要標(biāo)注的元素(比如人臉、肢體)按照需求位置進(jìn)行點(diǎn)位標(biāo)注。從而實(shí)現(xiàn)特定部位關(guān)鍵點(diǎn)的識(shí)別
·?語(yǔ)義分割:通過(guò)對(duì)需要標(biāo)注區(qū)域或元素的充色,來(lái)達(dá)到不同元素或區(qū)域之間的分割關(guān)系,從而可以清晰的通過(guò)不同顏色的區(qū)域,對(duì)元素進(jìn)行區(qū)分。從而實(shí)現(xiàn)系統(tǒng)化的識(shí)別。
·?點(diǎn)云拉框:在軟件生成的三維模型中,對(duì)被標(biāo)注元素進(jìn)行外輪廓的3D立體拉框,與2d拉框相同,也需要對(duì)生成立體框添加特定標(biāo)簽。從而實(shí)現(xiàn)具有空間感的識(shí)別。
·?VR打標(biāo):使用VR設(shè)備,在虛擬立體場(chǎng)景中,對(duì)需要標(biāo)注的元素(各類(lèi)物體)進(jìn)行關(guān)鍵區(qū)域的打標(biāo)簽。從而實(shí)現(xiàn)更精準(zhǔn)的被遮擋物品外觀輪廓的感知。
?
2. 語(yǔ)音類(lèi) | 這里語(yǔ)音類(lèi)就是指所有語(yǔ)音的統(tǒng)稱(chēng)
語(yǔ)音場(chǎng)景在人工智能領(lǐng)域作為和圖片場(chǎng)景同樣重要的環(huán)節(jié),也同樣被大批量的進(jìn)行應(yīng)用,這里對(duì)語(yǔ)音特征的處理手法大致介紹一下:
目前市場(chǎng)上主流的語(yǔ)音場(chǎng)景都是以區(qū)間為單元對(duì)區(qū)間內(nèi)的內(nèi)容進(jìn)行轉(zhuǎn)述,區(qū)間里的元素就是被標(biāo)注元素。
像圖片場(chǎng)景里給被標(biāo)注元素一個(gè)特定的標(biāo)簽一樣,對(duì)區(qū)間里的被標(biāo)注元素也需要提供一個(gè)特定的標(biāo)簽,當(dāng)然這個(gè)標(biāo)簽可以是一個(gè)詞語(yǔ),也可以是具體的一句話。從而實(shí)現(xiàn)對(duì)于不同語(yǔ)句類(lèi)別的判斷和對(duì)不同語(yǔ)句內(nèi)容的理解。
?
05
參考報(bào)價(jià)
?
我們應(yīng)該已經(jīng)有了一個(gè)比較明晰的認(rèn)識(shí),下面想要分享的是數(shù)據(jù)標(biāo)注公司在與需求公司進(jìn)行溝通合作時(shí)應(yīng)該如何更加科學(xué)的進(jìn)行報(bào)價(jià)。
所有行業(yè)的報(bào)價(jià)都是基于成本,因?yàn)閿?shù)據(jù)標(biāo)注員在數(shù)據(jù)標(biāo)注公司的日常運(yùn)營(yíng)中成本占比最高,人工自然也就成為了數(shù)據(jù)標(biāo)注公司運(yùn)營(yíng)中最大的成本因素。
同時(shí)數(shù)據(jù)標(biāo)注行業(yè)與其他勞動(dòng)密集型行業(yè)還有著一定區(qū)別。不同于工廠流水線上的工人,數(shù)據(jù)標(biāo)注公司所對(duì)接的資源公司的需求是千變?nèi)f化的,這就要求數(shù)據(jù)標(biāo)注員需要有很寬闊的視野、較強(qiáng)的理解能力;
不同于從事單一繁重體力勞動(dòng)的人工,數(shù)據(jù)標(biāo)注公司所對(duì)接的資源公司對(duì)于數(shù)據(jù)的質(zhì)量和準(zhǔn)確度是否符合模型訓(xùn)練的預(yù)期有著非常高的要求,這就要求數(shù)據(jù)標(biāo)注員需要有敏銳的觀察能力、較強(qiáng)的耐心和一絲不茍的工作態(tài)度。
通過(guò)上面的分析,我們可以清晰的了解,在數(shù)據(jù)標(biāo)注公司的日常運(yùn)營(yíng)中人工就是最大的支出。既然人工是數(shù)據(jù)標(biāo)注公司最大的支出,那么問(wèn)題來(lái)了,我們應(yīng)該基于人工從哪些方面進(jìn)行科學(xué)合理的報(bào)價(jià)呢?
因?yàn)閱T工每日的工時(shí)都是固定的,從效率角度出發(fā),所以我們的報(bào)價(jià)需要從以下幾個(gè)方面進(jìn)行綜合考量。
?
數(shù)據(jù)
這里的數(shù)據(jù)指的是資源合作方提供的需要標(biāo)注的各類(lèi)數(shù)據(jù),在基于數(shù)據(jù)進(jìn)行成本預(yù)估的時(shí)候,我們最重要的是需要注意以下2點(diǎn):
?
1. 標(biāo)注時(shí)間:這里指的標(biāo)注時(shí)間就是按照資源需求公司的標(biāo)注方法對(duì)圖片進(jìn)行特征的標(biāo)注,標(biāo)注的方法可以按照從簡(jiǎn)單到復(fù)雜的難易程度進(jìn)行排序。
排序如下:2D 拉框<多邊型拉框 < LandMark < 點(diǎn)云拉框 < 語(yǔ)義分割 < VR打標(biāo)。
同時(shí)在標(biāo)注的基礎(chǔ)上,我們還需要對(duì)標(biāo)注對(duì)象進(jìn)行一個(gè)分類(lèi)打標(biāo),也就是給每個(gè)固定的被標(biāo)注元素設(shè)置一個(gè)唯一的標(biāo)簽。按照標(biāo)簽從少到多進(jìn)行排序,如下所示:
·?單級(jí)唯一標(biāo)簽:比如,圖中只需要對(duì)人或車(chē)等唯一元素屬性進(jìn)行打標(biāo),有且只有一個(gè)需要進(jìn)行打標(biāo)的對(duì)象
·?單級(jí)多個(gè)標(biāo)簽:比如,圖中需要對(duì)人、車(chē)、動(dòng)物等多個(gè)元素屬性進(jìn)行打標(biāo),同時(shí)可以存在多個(gè)(不超過(guò)10個(gè))被標(biāo)注對(duì)象
·?單級(jí)復(fù)雜標(biāo)簽:比如,圖中需要對(duì)眾多(超過(guò)10個(gè))元素屬性進(jìn)行打標(biāo)
·?多級(jí)復(fù)雜標(biāo)簽:比如,圖中需要對(duì)人、車(chē)等眾多元素進(jìn)行打標(biāo)的同時(shí)需要標(biāo)注出車(chē)的種類(lèi),人的行進(jìn)方向等等
標(biāo)注時(shí)間方面的成本核算就是基于以上兩個(gè)重要因素,難度越高當(dāng)然在實(shí)際標(biāo)注中耗費(fèi)的時(shí)間也就越長(zhǎng)。
?
2. 判斷時(shí)間:這里指的判斷時(shí)間就是在實(shí)際標(biāo)注前,對(duì)應(yīng)標(biāo)注元素進(jìn)行識(shí)別和判斷,因?yàn)槠邢?#xff0c;這里對(duì)哪種判斷更為困難不做過(guò)多介紹,這里只對(duì)影響判斷的因素進(jìn)行一個(gè)大致概括,其中包括有:
·?被標(biāo)注圖片的清晰程度:一般指圖中被標(biāo)注元素是否可以清晰辨別
·?被標(biāo)注元素的專(zhuān)業(yè)化程度:類(lèi)似于金融相關(guān)專(zhuān)業(yè)知識(shí)的快速判定、醫(yī)學(xué)影像中病變區(qū)域的打標(biāo),各類(lèi)復(fù)雜地貌名稱(chēng)的打標(biāo)
·?被標(biāo)注元素關(guān)聯(lián)場(chǎng)景的復(fù)雜程度:這里關(guān)聯(lián)場(chǎng)景的復(fù)雜程度主要指光線場(chǎng)景(包括逆光、高亮等)、重疊場(chǎng)景(多個(gè)被標(biāo)注元素相互重疊)、顏色場(chǎng)景(只有黑白色)
·?被標(biāo)注元素標(biāo)簽的細(xì)化程度:這里的細(xì)化程度主要指被標(biāo)注元素與采集鏡頭形成角度的需要標(biāo)注出具體角度、被標(biāo)注元素之間有遮擋關(guān)系的需要標(biāo)注遮擋百分比、被標(biāo)注元素包含復(fù)雜顏色的需要對(duì)復(fù)雜顏色進(jìn)行區(qū)分等等
判斷時(shí)間方面的成本核算也是基于上面提到的幾點(diǎn)。同樣的,判斷難度越高,實(shí)際操作中花費(fèi)的時(shí)間也就越長(zhǎng)。
?
軟件
這里的軟件指的是數(shù)據(jù)標(biāo)注中的操作工具,在基于軟件進(jìn)行成本預(yù)估的時(shí)候,我們最重要的是需要注意以下2點(diǎn):
1. 操作方面這里指標(biāo)注軟件在實(shí)際標(biāo)注過(guò)程中操作環(huán)境是否流暢,操作功能是否便捷。
2. 統(tǒng)計(jì)方面這里指標(biāo)注軟件在標(biāo)注完成后對(duì)實(shí)際標(biāo)注的各類(lèi)元素的分類(lèi)統(tǒng)計(jì)是否足夠精確,對(duì)于各個(gè)標(biāo)注員的產(chǎn)能是否能夠做到有效統(tǒng)計(jì)。
在實(shí)際使用標(biāo)注軟件進(jìn)行標(biāo)注時(shí),操作環(huán)境越流暢、功能越便捷,單位時(shí)間的產(chǎn)量也就越高,同時(shí)越強(qiáng)大的統(tǒng)計(jì)功能也同樣可以大大降低大規(guī)模標(biāo)注人員的管理成本
?
規(guī)則
這里指和需求公司獲取的相關(guān)標(biāo)注規(guī)則,在基于規(guī)則進(jìn)行成本預(yù)估的時(shí)候,我們最重要的是需要注意以下兩點(diǎn):
1. 規(guī)則明確:這里指需求公司能夠提供完整的規(guī)則文檔,保證在標(biāo)注過(guò)程中需求邊界清晰,不會(huì)讓標(biāo)注員在同一個(gè)被標(biāo)注元素的某個(gè)方面的判斷上左右為難。同時(shí)在明確的規(guī)則中又分為粗線條的規(guī)則和細(xì)線條的規(guī)則:
·?粗線條的規(guī)則主要指需求方能在一般場(chǎng)景中將標(biāo)注規(guī)則清晰的闡述出來(lái),但是在很多情況下需求方并沒(méi)有進(jìn)行過(guò)自測(cè)和相關(guān)標(biāo)注,在標(biāo)注中可能出現(xiàn)的若干特殊場(chǎng)景使得一般場(chǎng)景的規(guī)則并不適用。
·?細(xì)線條的規(guī)則主要指需求方前期同樣花費(fèi)了巨大的精力對(duì)相關(guān)數(shù)據(jù)進(jìn)行標(biāo)注,同時(shí)對(duì)各種特殊場(chǎng)景都做出了詳細(xì)的描述。
2. 規(guī)則籠統(tǒng):這里指需求公司在籌備研發(fā)某項(xiàng)產(chǎn)品時(shí)按照預(yù)計(jì)的設(shè)想進(jìn)行一個(gè)大致的規(guī)則整理,需要數(shù)據(jù)標(biāo)注公司輔助需求公司在標(biāo)注的過(guò)程中不斷完善相關(guān)規(guī)則,規(guī)則的明晰與否直接決定了數(shù)據(jù)標(biāo)注生產(chǎn)的連續(xù)性,一邊對(duì)規(guī)則進(jìn)行細(xì)化,一邊標(biāo)注就會(huì)在實(shí)際標(biāo)注環(huán)節(jié)走走停停,從而影響標(biāo)注效率。
?
溝通
這里指和需求公司之間報(bào)價(jià)前的溝通,在基于溝通進(jìn)行成本預(yù)估的時(shí)候,我們按照溝通成本的從低到高進(jìn)行排序:
1. 溝通反饋迅速:這里指和需求公司溝通過(guò)程中能夠做到時(shí)時(shí)通話,這說(shuō)明需求公司是有專(zhuān)門(mén)負(fù)責(zé)人對(duì)此項(xiàng)目進(jìn)行對(duì)接。
2. 反應(yīng)良好:這里指和需求公司溝通過(guò)程中會(huì)有時(shí)間延時(shí),一般不超過(guò)2個(gè)小時(shí),說(shuō)明需求公司同樣有專(zhuān)門(mén)負(fù)責(zé)人,但負(fù)責(zé)人可能同時(shí)負(fù)責(zé)了多個(gè)不同項(xiàng)目。
3. 溝通反應(yīng)不佳:這里指和需求公司溝通過(guò)程中有較長(zhǎng)時(shí)間延遲,一般超過(guò)6個(gè)小時(shí),說(shuō)明需求公司可能沒(méi)有專(zhuān)門(mén)負(fù)責(zé)人或者專(zhuān)門(mén)負(fù)責(zé)人的工作重心并不在此項(xiàng)目上。
4. 溝通反應(yīng)較差:這里指和需求公司溝通過(guò)程中存在無(wú)回復(fù)等情況,說(shuō)明需求公司大概率只是對(duì)于項(xiàng)目的合作有一個(gè)初步的想法,并沒(méi)有確定是否需要一定實(shí)施。
良好的溝通是數(shù)據(jù)標(biāo)注行業(yè)最最重要的一環(huán)。良好的溝通可以省去重復(fù)、返工等眾多的低效行為。同樣的,較差的溝通會(huì)使數(shù)據(jù)標(biāo)注公司在標(biāo)注的各個(gè)環(huán)節(jié)上成本極大的上升。
?
總結(jié)
以上是生活随笔為你收集整理的我猜,你还不知道数据标注公司在做什么吧?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: wow钓鱼方案
- 下一篇: STM32——SD卡实验(SDIO方式)