国内首个大模型数据标注基地落地海口!记者上岗体验AI训练师
大家好!今天讓小編來大家介紹下關于國內(nèi)首個大模型數(shù)據(jù)標注基地落地???!記者上崗體驗AI訓練師的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
《科創(chuàng)板日報》8月25日訊(記者 黃心怡) 近年來,由深度學習帶來的人工智能商業(yè)化應用落地,極大地推動了AI基礎數(shù)據(jù)服務的需求。根據(jù)咨詢機構(gòu)IDC的數(shù)據(jù),預計2025年,AI基礎數(shù)據(jù)服務總市場規(guī)模將突破120億元。
日前,位于海口市秀英區(qū)的百度智能云(??冢┤斯ぶ悄芑A數(shù)據(jù)產(chǎn)業(yè)基地正式啟動運營。數(shù)百名大學生入駐基地,成為新興的人工智能AI訓練師。
《科創(chuàng)板日報》記者實地走訪了基地,并親自上手體驗了一把數(shù)據(jù)標注。在當前的AI大模型時代,數(shù)據(jù)標注的質(zhì)量會影響大模型的“智商”。這些非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),必須經(jīng)過清洗與標注處理,才能變成機器可理解、可學習的數(shù)據(jù)。
海口市秀英區(qū)委常委、常務副區(qū)長石晟屹在采訪中表示,該基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模?!斑@些年海口市一直在探索,作為海南自貿(mào)港的省會城市核心區(qū),需要千億級園區(qū)、百億級產(chǎn)業(yè)、十億級的項目。而數(shù)字經(jīng)濟是我們找到的鑰匙,人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地的落地只是開始,后續(xù)將在??诮ǜ笠?guī)模數(shù)字產(chǎn)業(yè)園區(qū)?!?/p>
▍AI數(shù)據(jù)標注師對能力要求高!本科學歷100%
走進位于??跀?shù)據(jù)標注基地,記者看到一群大模型標注師正在借助數(shù)據(jù)標注平臺對大模型生成的內(nèi)容數(shù)據(jù)進行打分、排序。
百度智能云數(shù)據(jù)標注基地業(yè)務產(chǎn)品負責人胡馳介紹,由于大模型對同一個問題每次都生成不一樣的答案,導致回答的穩(wěn)定性會存疑?!坝袝r答得很好,有時則答非所問。數(shù)據(jù)標注師的作用就像是大模型的專業(yè)輔導老師,讓模型的回答更有質(zhì)量。通過不斷地人工標注,讓大模型的表現(xiàn)與人類的價值觀、思維方式不斷地對齊,最終能像人一樣,解決很多實際的問題。”
記者在現(xiàn)場體驗了一把數(shù)據(jù)標注師的工作。對于每個問題,大模型生成5個不同的回答,然后數(shù)據(jù)標注師根據(jù)一套完整的評分規(guī)則,來給回答進行打分。滿分為5分,如果分值低于3分,就需要在回答中劃詞指出,哪些句子存在答非所問、事實性錯誤等情況。
從記者的實操來看,大模型的數(shù)據(jù)標注具有一定的門檻。不僅需要判斷回答有沒有跑題、有沒有事實性錯誤,還需要判斷是否存在邏輯性問題、語義重復問題等等。涉及代碼、法律、醫(yī)療等專業(yè)領域的對話,數(shù)據(jù)標注師則必須具備行業(yè)知識。
胡馳表示,相比傳統(tǒng)模型,大模型數(shù)據(jù)標注需要一套全新的標注組織形式,對標注人員提出了更高的要求。這是由于傳統(tǒng)的模型標注在規(guī)則上偏客觀,而大模型的回答偏主觀,要求標注師具備一定理解力、邏輯思維、總結(jié)能力。
《科創(chuàng)板日報》記者在現(xiàn)場獲悉,海口標注基地的數(shù)百名數(shù)據(jù)標注師,學歷本科率達到100%,招聘專業(yè)包括新聞系、中文系等。傳統(tǒng)模型標準人員學歷則普遍在中專及以上。在入職的前兩個月,數(shù)據(jù)標注師需要進行集體培訓和考核,通過考核后才能正式上崗,薪酬結(jié)算方式是計件制、多勞多得。
在完成數(shù)據(jù)標注后,百度會對大模型重新訓練,并對更新后的大模型能力進行評估,對不足的地方再進行人工標注,通過這樣的閉環(huán)把整體模型質(zhì)量不斷提升和迭代。
2020年2月,人社部《關于擬發(fā)布新職業(yè)信息公示的通告》中 “人工智能訓練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄。2022年全國約需要200萬AI訓練師。
記者了解到,海口標注基地在未來三到五年,新增就業(yè)有望突破5000人規(guī)模。目前百度已經(jīng)在全國與各地政府合作,共建了十多個數(shù)據(jù)標注基地,累計為當?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。
▍劍指百億產(chǎn)值!??趯⒔ㄔO更大規(guī)模數(shù)字產(chǎn)業(yè)園區(qū)
這次啟動運營的??跀?shù)據(jù)標注基地,坐落于秀英區(qū)濱海大道。??谑行阌^(qū)委常委、常務副區(qū)長石晟屹在接受《科創(chuàng)板日報》記者采訪時表示,去年??诘乃膫€區(qū)里面,秀英區(qū)是數(shù)字經(jīng)濟唯一實現(xiàn)正增長的。
“如果要在海南自貿(mào)港核心區(qū)建設中走在前列的話,秀英區(qū)必須探索一些新的思路。從去年的數(shù)據(jù)來看,全球數(shù)字經(jīng)濟在經(jīng)濟總量的占比接近40%,中國數(shù)字經(jīng)濟在GDP的占比超過了55%。未來已來,特別是AI產(chǎn)業(yè)的發(fā)展堪稱日新月異。這是我們找到的鑰匙,秀英要大力發(fā)展數(shù)字經(jīng)濟。”
石晟屹透露,目前秀英區(qū)將從兩方面入手。一是產(chǎn)業(yè)數(shù)字化?!靶阌^(qū)從省級重點園區(qū)、市級園區(qū)到區(qū)里自有的園區(qū)有將近十來個,已經(jīng)孵化了一大批生物醫(yī)藥類和工程機械制造類的企業(yè),未來會為秀英區(qū)傳統(tǒng)產(chǎn)業(yè)的升級改造提供支持。”
其次是數(shù)字產(chǎn)業(yè)化。石晟屹表示,數(shù)據(jù)標注基地的落地只是開始,后續(xù)將圍繞1平臺——??跀?shù)字科技創(chuàng)新平臺,3基地——百度智能云(??冢┤斯ぶ悄軘?shù)據(jù)標注基地、百度智算基地、百度元宇宙產(chǎn)業(yè)基地,5中心——飛槳產(chǎn)業(yè)賦能中心、城市數(shù)字化運營中心、數(shù)字化展示體驗中心、交付服務中心、數(shù)字化培訓賦能中心,來開展建設。
在此基礎上,??谶€將推動AI數(shù)字港在西海岸的核心區(qū)域的落地?!拔覀兿MM更多的類似于百度這樣的數(shù)字企業(yè),形成更大規(guī)模的數(shù)字產(chǎn)業(yè)園區(qū)。我們的計劃是100畝地、100億產(chǎn)值,近10億稅收,在三到五年大概達到這樣的程度。五年后能實現(xiàn)500億的產(chǎn)值?!?石晟屹說。
來源:財聯(lián)社
以上就是小編對于國內(nèi)首個大模型數(shù)據(jù)標注基地落地??冢∮浾呱蠉忬w驗AI訓練師問題和相關問題的解答了,國內(nèi)首個大模型數(shù)據(jù)標注基地落地海口!記者上崗體驗AI訓練師的問題希望對你有用!
總結(jié)
以上是生活随笔為你收集整理的国内首个大模型数据标注基地落地海口!记者上岗体验AI训练师的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不限于中国 联发科5G芯片将应用在中国以
- 下一篇: 谷歌Pixel 5G产品阵容曝光 涵盖两