AIGC“弄臟”互聯(lián)網(wǎng),大模型“課本”遭污染
AIGC的相關內(nèi)容正在互聯(lián)網(wǎng)上泛濫,而在這一趨勢下,一些無意義、同質(zhì)化的內(nèi)容也開始出現(xiàn),甚至對中文互聯(lián)網(wǎng)造成了“污染”。具體如何解讀這一現(xiàn)象?不妨一起來看看作者的分析和總結(jié)吧。
“AI制造”充斥互聯(lián)網(wǎng),連“真人小姐姐”也可以批量生成。隨著生成式人工智能的爆發(fā),一個可怕的現(xiàn)象出現(xiàn):AI正在污染整個互聯(lián)網(wǎng)。
知乎成為生成無腦答案的重災區(qū),這些內(nèi)容描述簡短、概括性十足,細看邏輯混亂、錯誤百出。打開今日頭條,用ChatGPT生成的虛假新聞,內(nèi)容聳人聽聞,足夠博人眼球。
AI加持下,虛假、無意義、同質(zhì)化的內(nèi)容呈指數(shù)級增長,獲得大量曝光。萊斯大學和斯坦福大學的科學家研究發(fā)現(xiàn),這些低質(zhì)、同質(zhì)化、未經(jīng)證實的“AI語言”如果不加以甄別,進一步被抓取作為訓練AI的語料,AI大模型將會走向崩潰。
一、AIGC“垃圾”泛濫,內(nèi)容平臺成重災區(qū)
生成式AI越來越低成本化,伴生而來的是AI生成信息的“垃圾網(wǎng)站”。
外媒NewsGuard發(fā)布相關數(shù)據(jù)報告稱,目前已經(jīng)追蹤到了大約277個且還在不斷增加的“垃圾網(wǎng)站”,這些網(wǎng)站生產(chǎn)了大量標題誘餌以優(yōu)化廣告收入。
類似的情況也發(fā)生在國內(nèi),表現(xiàn)形式是AI生成的低質(zhì)內(nèi)容。
“中文互聯(lián)網(wǎng)高質(zhì)量的問答社區(qū)和創(chuàng)作者聚集的原創(chuàng)內(nèi)容平臺”知乎,如今成了AI無腦答案的重災區(qū),不少答主的內(nèi)容呈現(xiàn)明顯的“GPT風”,機器翻譯的文字感、混亂的邏輯撲面而來,有時還會出現(xiàn)事實錯誤,特別是在金融、醫(yī)學等專業(yè)領域,沒有經(jīng)驗的人群很容易被誤導。
知乎上的“片兒湯話”答案
有知乎用戶使用AI每隔一兩分鐘就可以輸出一條幾百字的回答。盡管已經(jīng)被禁言,但其產(chǎn)生的錯誤信息依然遺留在互聯(lián)網(wǎng)中。如果你足夠細心,你會發(fā)現(xiàn),自帶AI問答功能的搜索引擎Bing在中文世界經(jīng)常會引用知乎的內(nèi)容。一些生成后就從未過人工核查的錯誤答案 被Bing AI抓取,造成低質(zhì)的中文信息蔓延。
AI對互聯(lián)網(wǎng)內(nèi)容的侵蝕不僅限于文字。在小紅書、淘寶、抖音上,越來越多的“AI真人美女”的圖片和視頻被批量生產(chǎn),還有大批“AI攝影”類賬號的出現(xiàn)。
AI魔法棒一揮,制作成本低、效率高的“AI美女”一時間成為電商眼中的香餑餑,AI模特、AI主播頻頻出現(xiàn)?!八齻儭弊銐蛭?,但也千篇一律,“網(wǎng)紅臉”的隊伍里又增加一類AI面孔。
如果只是用AIGC制造美圖供人評鑒、學習倒也還好,但AI生圖工具產(chǎn)生的內(nèi)容開始侵犯直接與人們生活相關的領域。
淘寶上,有商家直接用AI生成圖來取代商品實物圖,一張由Midjourney生成的卡通少女圖,被商家打上“綠色襯衫”的標簽,售價218元。與之風格相似甚至完全相同的AI生成圖,在網(wǎng)上隨手就可以找到。利用Midjourney的墊圖功能,任何人都可以自己生成無數(shù)仿照圖,與賣家秀相差甚遠的買家秀將再添槽點。
淘寶商家用AIGC網(wǎng)圖(右)描述商品
在中文互聯(lián)網(wǎng),AI大有無孔不入之勢,專門教人如何用“AI寫文賺錢”的課程層出不窮,賣課人號稱“一套教學視頻跟萬能模板,直接套用”。AI話題營造出的失業(yè)焦慮中,該類課程受到追捧,曾有人通過賣課月入百萬。
如今,學會了使用AI工具的人,將AI生成的內(nèi)容上傳到知乎、今日頭條或者小紅書上,吸引了流量,但也制造了不少低質(zhì)量、同質(zhì)化甚至信息虛假的內(nèi)容垃圾。
那么,這種AIGC內(nèi)容“垃圾”會產(chǎn)生危害嗎?
二、靠AI識別真假,技術還不行
泛濫的AIGC內(nèi)容加速污染互聯(lián)網(wǎng)環(huán)境,除了影響人類獲取有效信息的效率外,產(chǎn)出它們的工具“大語言模型”也會走向崩潰的邊緣。
萊斯大學和斯坦福大學的科學家研究證明,將人工智能生成的內(nèi)容輸入人工智能模型,會導致輸出質(zhì)量下跌。
研究人員將這一現(xiàn)象解釋為“模型自噬障礙”(MAD),即如果AI只學習其他AI生成的內(nèi)容,在經(jīng)過幾代訓練后,AI將輸出無意義的垃圾信息,最終走向“模型崩潰”這一結(jié)果。 研究人員表示,對于大語言模型而言,“數(shù)據(jù)清潔”十分重要。
“世界正在奔向一個未來:生成式AI的爆發(fā),導致了互聯(lián)網(wǎng)上的合成數(shù)據(jù)很快就會超過真實數(shù)據(jù)?!卑凑昭芯空叩恼f法,區(qū)分合成數(shù)據(jù)與真實數(shù)據(jù),無論對人類本身還是大模型發(fā)展都變得勢在必行。
最近,中國首個AIGC監(jiān)管文件《生成式人工智能服務管理暫行辦法》落地,該《辦法》明確指出AIGC服務提供者要“增強訓練數(shù)據(jù)的真實性、準確性、客觀性和多樣性”。
生成式人工智能服務者有義務保證數(shù)據(jù)質(zhì)量
在《辦法》的指導下,國內(nèi)的內(nèi)容平臺也推出針對AI生成內(nèi)容的管理措施,知乎、抖音、小紅書等平臺均已發(fā)布有關AIGC內(nèi)容的規(guī)定。
《抖音關于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》稱,針對人工智能生成的視頻、圖片和衍生的虛擬人直播,發(fā)布者應對人工智能生成內(nèi)容進行顯著標識,幫助其他用戶區(qū)分虛擬與現(xiàn)實,特別是易混淆場景。該《倡議》提到,平臺提供統(tǒng)一的人工智能生成內(nèi)容標識能力,幫助創(chuàng)作者打標,方便用戶區(qū)分。同時,平臺提供用戶反饋渠道,方便用戶反饋違規(guī)的生成內(nèi)容。
知乎也發(fā)布了《關于應用AIGC能力進行輔助創(chuàng)作的社區(qū)公告》,公告顯示,如果創(chuàng)作者發(fā)布AIGC生成的內(nèi)容時,沒有主動使用“包含AI輔助創(chuàng)作”的標簽進行聲明,平臺會添加相關標識并限流,同時鼓勵知友對利用AIGC技術,擾亂社區(qū)秩序的內(nèi)容和賬號進行舉報,舉報類型里新增了“AI生成內(nèi)容”的選項。
規(guī)則出現(xiàn)了,但在實操中出現(xiàn)了Bug。
知乎用戶反饋原創(chuàng)內(nèi)容被誤判為AI生成
知乎創(chuàng)作者們對平臺“打標簽”(審核)的能力表示質(zhì)疑。有用戶反饋,自己原創(chuàng)的內(nèi)容被當成了AI創(chuàng)作打了AI標記,甚至有人因此被禁言。
這種“誤判”現(xiàn)象背后又隱藏了一個細思極恐的問題。假如平臺采用機器來識別AI,機器對同類的“寬容度”或許會很高,讓計算機還無法精準識別出AI犯的錯誤。
最近,OpenAI推出的AI文本識別工具AI-Text-Classifier就因準確率太低而被官方下架。DetectGPT、GPTZero等AI生成檢測工具的失誤率也都高得驚人。
隨著AIGC技術不斷迭代升級,AI生成內(nèi)容將越來越具備迷惑性,想通過AI識別工具遏制AI內(nèi)容垃圾的滋生,從技術成果上看成功率還不高。
看來,在充滿人工智能的未來,“人工”有多強大,“智能”才有多強大。在AIGC的巨大沖擊下,如何不被內(nèi)容垃圾裹挾、實現(xiàn)人工與智能的良性共進將成為AI下一階段發(fā)展的重要挑戰(zhàn)。
作者:木沐,編輯:文刀
來源公眾號:元宇宙日爆(ID:yuanyuzhouribao),在這里,看見未來。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @元宇宙日爆 授權發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!