-
日期: 2026-06-19 | 來源: 紅星新聞 | 有0人參與評論 | 字體: 小 中 大
紅星資本局6月19日消息,6月18日,DeepSeek網頁及APP端,均新增了“識圖模式”,並顯示“圖片理解功能內測中”。同壹天,DeepSeek多模態團隊負責人陳小康在社交媒體上發文稱,視覺模式已在網頁和應用上正式上線,“試試這雙新眼睛”。
6月19日,紅星資本局實測發現,DeepSeek的識圖功能並不太穩定。
紅星資本局實測時上傳了壹張DeepSeek創始人梁文鋒的照片,但DeepSeek將其識別為字節跳動的張壹鳴;緊接著再上傳另外壹張梁文鋒的照片,DeepSeek仍然認為是張壹鳴;最後上傳了張壹鳴的照片,DeepSeek識別正確。
隨後紅星資本局開啟新對話,重新上傳張壹鳴的照片,DeepSeek將其識別為寒武紀創始人陳天石;緊接著上傳梁文鋒的照片,DeepSeek仍然認為照片中的人是陳天石。在多次對話中,DeepSeek還曾表示“無法回答問題”。
該圖片疑似使用了AI生成技術,請謹慎甄別
DeepSeek在回答中表示,目前的“識圖功能”其實是“讀圖”。
DeepSeek目前支持的圖像文件上傳和視覺識別為OCR模型,即讀取圖像中的文本,擅長從上傳的圖像(PDF、Word、Excel、PPT、JPG等)中讀取文本,並處理該文本;而不是多模態視覺語言模型(VLM),無法以像素級別“看到”物體、人臉或場景。
對於將梁文鋒識別成其他人,DeepSeek再次表示自己沒有人臉識別模塊,不會“看臉”只會“看字”,如果照片中只有壹張臉,“我只能回復你圖片中沒有文字內容”。
於是紅星資本局又上傳了其他帶有文字的圖片,對於“貨拉拉被約談”的新聞資訊的封面,DeepSeek基本可以識別出圖中內容,但將圖中的“貨拉拉”識別為“貨拉業”,並認為是圖片中的字打錯了。對於“新東方集團總結大會”視頻截圖,DeepSeek可識別出圖中的信息,並且精確捕捉到俞敏洪也在圖片中。
對於純文本類的圖片,紅星資本局選擇了懷素的草書作品,DeepSeek可以識別部分文字,但將圖中的“玉露凋傷楓樹林”,識別為“王右丞詩楓橋”。對於Yum! Brands宣布出售必勝客業務的英文公告截圖,DeepSeek可正確識別並翻譯。
該圖片疑似使用了AI生成技術,請謹慎甄別
- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見