-
日期: 2025-12-09 | 來源: 吳曉波頻道 | 有0人參與評論 | 字體: 小 中 大
“這是個需要高質量人文社科人才的崗位,因為只有最善於思考人與世界關系的人類,才能教會AI怎麼更好的做壹個人。”

這篇文章開始之前,先邀請大家猜猜下面這份招聘要求對應的是什麼崗位。
揭曉答案:這份看起來要求不低的工作,招聘的是AI數據標注員。在BOSS直聘上,這個崗位月薪最高接近兩萬元;部分崗位直接注明“重點大學本碩博優先”。
通俗地說,數據標注員就是AI的老師,負責對文本、圖像、音頻等原始數據進行分類、標記或注釋,從而教會機器識別、理解並學習人類世界的邏輯和知識。
2020年起,“人工智能訓練師”正式被納入國家職業分類目錄,“數據標注員”是其中的重要工種之壹。據國家數據局,截至今年9月底,我國7個數據標注基地共有標注企業362家,標注從業人員達8.5萬人。
但這個行業仍缺乏人才。量子位智庫2023年底發布的《中國AIGC數據標注產業全景報告》顯示,未來5年,中國數據標注專業人才缺口或達百萬量級。
那麼,數據標注到底是壹份什麼樣的工作?
“985”“QS100”碩博,
給AI當老師
小鵝本科就讀於壹所“211”高校,目前在壹家“985”高校讀研,學的是歷史學專業。她曾在大肆那年做過壹份數據標注實習的工作。
她每天的工作,就是面對壹張科技公司發來的、填滿後台收集的用戶提問和AI生成答案的Excel表格,給AI的答案打分。小鵝處理壹條數據平均花費的時間是15分鍾左右,少數棘手的任務,單條就要花上近壹個小時。
這份實習不需要面試,招聘方會提供壹份打分標准手冊和壹套測試題,要求自學手冊內容後,在測試題中選5道,完成後上交,正確率超過80%即視為通過。
小鵝當初花了壹個下午學習這份標注手冊,又花了2個小時完成5道測試題,才通過了考核。
起初覺得易如反掌的小巴,嘗試了小鵝發來的兩道題,結果正確率不足50%。這才發現,這份工作遠比我們想象的困難。
◎?首先,標注手冊中包含大量術語,理解門檻極高。比如,“缺少富媒體形式”,是指答案中沒有包含短視頻鏈接;“prompt外泄”,是指答案暴露了提問未涉及的內部指令;“弱相關內容或冗余殘留”,就是答案和提問沒關系。
◎?其次,打分要求極其繁瑣、嚴格。標注者需要在“0、1、2、3”肆個檔位中給3個答案分別打分,並根據答案在准確性、結構性、相關性、全面性等方面的缺陷,分別打好標簽,備注原因;然後把叁個答案依次排序,逐壹解釋理由。
進行數據標注的工作人員
對於如何判定分數和標簽,接近6萬字的標注手冊列舉出了幾拾種具體分析場景,這些分析費時費力。比如,判斷是否出現幻覺,需要壹壹核對參考資料;涉及專業知識,需要自己查找資料去驗證。
除了打分,另壹種常見的標注形式是“出題”,難度更大。剛獲得海外語言類專業博士學位的小凡,求學時做了長達5年的數據標注兼職。她的工作是在壹家海外眾包標注平台上給AI出題並寫出解答,難度達到博士級別。這些文本會被作為訓練語料,喂給AI。
從招聘市場情況看,這份職業的天花板極高。
今年以來,各家頭部大模型公司開始在招攬專家級標注員上競速。比如,阿裡搭建了“曉天睿士”專家社區,學歷要求頭部高校碩士起步,行業專家級人才最高時薪可達1000元。字節跳動成立了Xpert兼職眾包標注平台,需要標注者上傳簡歷、選擇標注的細分專業領域,並完成難度較高的專業知識測試。
另壹方面,行業的“入場券”也在快速漲價。
壹位負責多家頭部企業標注人員招聘的HR告訴小巴,近兩年,標注崗位招聘要求不斷提高。
早期招聘要求的學歷水平大多在專科、高中,無需經驗、上手就能做。但今年,候選人本科以上學歷的占比超過伍成。通用類AI標注開始有經驗要求;垂直類壹般要求相關專業或行業經驗,部分崗位需要做專業筆試。
競爭也逐漸激烈,目前招聘通過率大約是2:1。
持續吸納高端人才,成為標注行業肉眼可見的趨勢。
部分公司數據標注招聘要求
不算體面的工種
頂尖人才正湧入數據標注行業,但身處其中的人們,大多態度悲觀。
在高強度的標注實習中,小鵝感受到了這個行業巨大的矛盾。
其壹,缺乏尊嚴。
小鵝最反感的是工作中沒完沒了的扯皮。文字判斷有巨大的主觀模糊空間,作為乙方的標注員與作為甲方的質檢員經常會發生爭執。比如,甲方認為A答案的邏輯性更強,而乙方認為B答案更完善。
在這些爭論中,她感到標注員角色的巨大矛盾性:雖然承擔著AI工程裡超過60%的工作量,但他們在這個系統裡是不被尊重的。隨著模型的進化和調整,甲方給出的打分標准會經常變動,但標注員們往往無法撼動現有的標准,只能接受甲方的評判。
她也感到這份工作缺乏獲得感。即便標注已經成為壹個知識密集行業,但仍采取著流水線式的管理方式,絕大多數標注工作采取計件制計薪。標注的工作本質是消耗腦力處理壹條條數據,但並不知道這些數據從哪來、到哪去,甚至不少標注員不知道自己標注的是哪個大模型。
其贰,性價比低。
小鵝此前實習的公司是壹家外包標注機構,項目團隊裡大多是兼職的大學生,每人每天至少完成10條,日薪100元,超額完成按10元/條計。
部分公司數據標注僅招聘兼職人員
即便是專家級別的標注,性價比也很低。壹位入駐某家國內大模型專家社區的在讀博士告訴小巴,自己在平台上出題的時薪大約在100—300元,收入並不比家教等其他兼職有吸引力。他很快放棄了這份兼職。
從招聘市場的薪資報價看,全職數據標注員的門檻水漲船高,但待遇低,在北京、上海這樣的地區,不少標注崗位要求研究生級別學歷,但月薪只有六柒千元。
其叁,上升空間狹窄。
壹位AI產品經理向小巴介紹,他所在的頭部互聯網企業,標注崗位除了極個別管理崗位,其余均為外包,人員流動率極高,能待上超過壹年的人並不多。
雖然理論上,數據標注員可以依次向標注組長、質檢、質控、數據運營乃至算法類崗位發展,但因為技術類崗位的天然壁壘,真正實現的概率極低,絕大部分標注員會壹直停留在原崗位上。
其肆,即使門檻被知識抬高,標注本質上還是壹份極易被AI替代的工作,“教會徒弟、餓死師傅”。
科技公司正在普遍采用合成數據減少對人工的依賴。比如,業內常見的降本手法“蒸餾”,即用ChatGPT等更高級的大模型生成的答案去訓練更初級的大模型。中小型大模型廠商大多使用這種方法,降低數據成本。
因為這些原因,高端人才們進入標注行業,大多要麼是尋求臨時過渡工作,要麼只是作為兼職獲得壹份收入,行業對他們難有長期吸引力。
大模型巨頭開始“卷”數據
問題的本質,是標注行業的社會認知和管理方式,都沒能跟上AI“知識饑渴”的速度。
過去8年,數據標注行業經歷了巨大的變化。
這曾經是個非常底層的工種。它興起於2017年前後,早期被廣泛應用於智能駕駛。那時任務簡單重復,比如框選圖片上的紅綠燈、汽車、障礙物。
因為又苦又累,多年來,海外科技巨頭把這份工作轉移到勞動力最廉價的地區。牛津大學的壹項調查顯示,全球有數百萬數據標注員集中在烏幹達、肯尼亞等欠發達國家,他們每天工作9小時以上,時薪僅約1.16美元(約合人民幣8.3元),項目結束即失業。
OpenAI合作外包公司Sama公司員工
圖源:Sama公司官網
在中國,數據標注產業主要聚集在中西部及叁肆線城市。在標注基地打標的員工,不少是待業青年、中老年人、殘障人士,只要會使用電腦即可。
所以在大部分新聞報道中,數據標注員是壹群AI世界裡隱形的底層勞動力,在全世界欠發達國家、地區賺著“賽博流水線”上的微薄收入。
但最近兩年,高端化的趨勢開始在海外興起。海外數據標注龍頭Scale AI,從2024年開始關閉肯尼亞、尼日利亞、巴基斯坦等地的承包站點,轉而招聘美國本土高學歷人士。
據港媒報道,截至今年年初,Scale AI參與模型優化的人員中,12%擁有分子生物學等領域的博士學位,超40%擁有所在領域的碩士學位、法律學位或MBA學位。
相較於時薪僅1美元出頭的低端標注,這些高端標注員平均時薪達到40美元。
而對專家級標注員的投入也確實推動了公司的增長,Scale 2024年營收約8.7億美元,預計今年營收達20億美元。Scale AI創始人Alex Wang公開發言稱:“我們需要最優秀和最聰明的頭腦來貢獻數據。”
其競品、美國另壹數據標注巨頭Surge AI,已經成為全球大模型追求高端數據時的首選。它把高質量的數據標注比作“寫詩”,組建了壹支由哲學家、工程師、常春藤盟校畢業生等構成的標注團隊。
而國內的高端化趨勢,很大程度上是從DeepSeek開始的。
2023年起,DeepSeek開始招聘“數據百曉生”崗位,不限專業、不限經驗,實習生日薪超過500元,正職年薪可達百萬。崗位要求之壹是“涉獵廣泛、博聞強識,對各行各業的知識都擁有強烈的興趣”。
“數據百曉生”的主要任務,就是給AI出題、編寫“理想態”的優質答案作為學習資料、給AI生成的答案打分和調試,等等。
結果也很驚人:DeepSeek上線7天用戶破億,靠文采飛揚、金句頻出和嚴謹的深度思考破圈,業內盛傳其標注團隊由北大哲學系的學生組成。
此後,國內大模型界風向逐漸轉變,開始在“特級教師”上做文章。
這種從“普通老師”到“特級教師”的需求變化,是AI進化到壹定程度的必然結果。
AI行業有句經典名言“Garbage In Garbage Out”,壹個模型能力行不行,很大程度上取決於訓練模型的數據質量。據IBM的壹項研究,僅注釋質量提高5%,就可以將復雜計算機視覺任務的模型准確率提高15%—20%。
算法、算力、數據,是業內公認的AI叁要素。頭部大模型們在算法和算力上難分伯仲,數據質量成了最有機會“卷”出差距的方向。
AI變成精英以後?
可以說,自數據標注被正式認定為職業,經過5年的發展,這個行業仍面臨著低壁壘競爭和勞動剝削等諸多問題,處於壹個難以定性的狀態。
但在每個新興行業出現、創造新工種的早期,都會出現類似的問題。所有的職業,都是先出現,再進化的。
這份工作的前景也未必真如想象中渺茫。比如,它提供了壹種職業轉型路徑:成了壹條文科生在AI領域大展拳腳的神奇過渡帶。壹些頭部大模型已經開始組建“AI人文訓練師”團隊,訓練AI識別“仇恨言論”和撰寫“高情商回復”。
而這些文科生,也在這份工作中不斷觸碰AI與社會的邊界。小鵝說,在結束這份實習以後,她手機裡的AI總是比別人的好用,因為理解底層邏輯,她更擅長下達精確的指令。
這是個需要高質量人文社科人才的崗位,因為只有最善於思考人與世界關系的人類,才能教會AI怎麼更好地做壹個人。
學習使用AI辦公技巧
換個角度看,在高學歷人才該不該去“打螺絲”之外,還有壹件事值得關注。
在小鵝標注的上千條數據中,她印象最深刻的壹條記錄是,壹位用戶向AI提問“殘疾人患腦癌能不能進養老院”。小鵝翻閱此人的過往提問記錄,發現她向AI傾訴了很多自己各方面的困難,包括離婚、家暴、病重和無人贍養。但對於AI而言,這些提問不過是壹條條平平無奇的數據流。
當AI在頂尖老師的訓練下變得越來越頂尖,它就像壹個含著金湯匙出生、接受正統通識教育的古希臘式精英,逐漸無法再看到更基層的需求。
或許下壹步,新的鯰魚就會從這些被忽視的需求中跳出來。
*文中受訪者姓名均為化名
文 /巴九靈
本篇作者?| 溫若梅?| 責任編輯 | 徐濤
主編 | 何夢飛?| 圖源 | VCG、網絡- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見