-
日期: 2023-04-15 | 來源: 21世紀經濟報道 | 有0人參與評論 | 字體: 小 中 大

人工智能產業發展催生了 " 新流水線工人 ",時薪介於 10 元至 30 元之間,它時髦的新名字叫 " 數據標注員 "。
人工智能大模型給人們帶來強烈的智慧沖擊,令人驚歎於它前沿的神經網絡研究、精密的計算機設備和光鮮亮麗的精英人才結構。然而,這種智慧背後還有極致枯燥的工作。
近期,南方財經全媒體記者留意到,全國多地數據標注招聘市場火熱、相關創業模式也不斷湧現。提升數據質量成為人工智能開發商 " 彎道超車 " 的壹記策略,但為相關勞動者提升工作價值,也是長遠發展中不容忽視的問題。
數據標注市場需求大增
"10 元 -30 元 / 小時(與項目難度呈正相關,3D 類 > 語音類 >2D 類 > 普通拉框轉寫類、打碼類)。"4 月 13 日,南方財經全媒體記者在招聘 App"Boss 直聘 " 上看到壹則招聘廣告中如是寫道。在 AI 產業中,這類崗位令人聯想起電子廠的 " 流水線 " 工作。
2023 年春天,市場的關注度被 " 大模型 " 吸走了壹大半,但有壹批公司正轉移到 " 數據端 " 另辟蹊徑,這是他們抓住這波 AI 浪潮的機遇。
算力、算法、數據,是人工智能的 " 叁駕馬車 "。壹位從事計算視覺的程序員告訴南方財經全媒體記者:" 對某些公司而言,算力、算法提優,遠遠沒有數據提優的效益大。"
眼下,算力和算法的賽道上,頭部公司最為耀眼。無論是微軟、谷歌、OpenAI,還是華為、阿裡、百度,對大模型斥下的資金成本令其他公司望塵莫及,購買芯片動輒上千萬元,高薪聘請(或 " 挖角 ")人才更不計代價。
不過變革席卷全行業," 幕後英雄 " 也浮出水面。4 月初在復旦大學舉行的壹場研討會上,計算機科學技術學院教授、MOSS 系統負責人邱錫鵬提到,OpenAI 的成功不止來自大家津津樂道的模型、微軟提供的昂貴算力,也得益於外包的專業數據清洗公司。
美國某高校數據分析碩士專業畢業生李夢(化名)告訴南方財經全媒體記者,她目前正在壹家生物醫藥公司實習,所做的工作正是優化數據標注程序。
" 大模型依賴數據訓練,但要先做好數據采集、清洗、標注和質檢。" 李夢介紹。
數據標注領域知名學術人物李飛飛,在 2009 年發布了 ImageNet 數據集的論文,激起壹場算法競賽。依托 ImageNet 海量得到標注的圖片,算法公司展開了圖像識別的競賽,最低錯誤率者獲勝。直到現在,很多人將 ImageNet 視為本輪人工智能浪潮的催化劑。
如今,數據標注依然如此重要,且有更大需求量。人工智能在哪個行業施展拳腳,就需要哪個行業給模型大量 " 喂料 ",這不局限於城市安防、物聯網、交通、生物制藥。
數據標注的 " 顆粒度 " 也在提升。4 月 5 日,Meta 人工智能實驗室發表了有關 Segment Anything 這壹計算視覺模型和數據集的論文。論文中提到,需要人工標記的圖片高達 12 萬張,平均每張圖片有 44 個圖層,每個圖層的標注時間需要 14 秒。總體計算之下,人工標注的時間需要 20533 個小時。如果聘用壹個百人團隊每天工作 9 個小時,這需要 23 天。
枯燥無味的流水線工作
" 如果數據量太大,壹般公司會雇外包公司承擔。" 李夢向記者指出。外包公司將數據標注變成了算計件工分的壹種工作。
按照前述 Boss 直聘 App 上的廣告,時薪價格依據工作內容不等。時薪能達到 30 元檔的是指 3D 類工作,壹般是對實際場景中的特定事物進行標注,例如對壹條道路上的雷達車道線、雷達目標拉框。接著是語音類,是指對音轉文、方言轉寫、喚醒助手等進行標注。
2D 類被認為更簡單,是指對平面圖像、文字段落進行標注,或者是 OCR(文字識別)轉寫,例如對交通違規圖片裡的人和車、紅綠燈、交通標示進行識別。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見