入職一家互聯網公司從事AI訓練后,26歲的雨薇發現,除了她自己是藝術專業,身邊有不少讀文科的同事。他們從不同的學科背景出發,訓練和教會AI更像人一樣去思考和回答問題。
最近,一個新的崗位出現在雨薇的視野中——AI人文素養訓練師。有公司在招聘啟事中寫道:在追求AI模型在技術上的有用性基礎上賦予AI溫暖與詩意,注入靈魂,讓AI能夠為世界和人類帶來美好。工作職責是AI的文學與藝術表達訓練,調教AI的語言風格,確保AI的語言兼具藝術美感與邏輯嚴謹,讓它從冷冰冰的工具轉變為懂得傾聽和理解你心情的溫柔伙伴。
此外,任職資格需要文理兼修,曾受過心理學、哲學、文學、歷史、藝術等方向的專業訓練,有頂級的文科素養等。
早在三年前左右,雨薇便接觸到AI訓練的工作。她需要做的,是讓AI明白什么是美。她逐漸感覺到,教會AI后,人類的獨創性也不會被削弱,它們是兩條平行線。
如今,隨著AI越來越深入每個人的生活,人們試圖尋找與AI的共處之道。我們找到了三位訓練AI、試圖讓AI“更像人”的從業者,他們曾畢業于看似與AI無關的專業:藝術、歷史、哲學。實習或工作中,他們將所學運用到AI行業里,從事AI寫真訓練師、模型測試分析師和產品經理等工作。他們投入AI浪潮,試圖找到自己的位置,同時也重新思考專業的意義,以及AI在人類生活中的角色。
本文圖片 視覺中國
【以下是他們的口述:】
現在的大模型,很多其實是諂媚的
萬玉磊 29歲 歷史學
我本科是在大連海事大學讀的航海技術。后來實習,我出過海,干的船員的工作,一年有十個月都在海上,沒有網,跟我理想中的情況不一樣。所以最后我做了決定,不能就那樣在海上漂著。
我回來考了研,研究生念的是西北大學歷史系的中國史。我很喜歡文史哲,在全國各地跑了很多考古工地。田野調查很有趣,是人生非常寶貴的經歷。我還記得當時我們是找歷史上一個游牧民族的蹤跡,是在草原上,大家住在牧民的帳篷里,那個時候夜晚的星空也很美,隊員聚在一塊聊天。
其實歷史跟人工智能有點像。研究生階段我一直在建立自己那篇大論文的史料庫,收集足夠多可信的史料,然后再去做推斷,完成論文。有幾分材料就說幾分話。人工智能也一樣,有多少的數據,就有多少的智能。數據越好,模型的質量就越高,內容輸出就越可靠。所以我覺得殊途同歸,無論文科還是理科,最后都合到一塊了。
不管是過去還是現在,我對文科都懷著熱情去努力和投入過。但是我不想一輩子跟史料打交道,如果就業,我也不想當老師,所以當時我直接到北京的互聯網大廠實習,還想著要在互聯網圈子賺大錢。
畢業后我找了互聯網相關的工作,剛好趕上ChatGPT爆發,然后我就決定不干移動互聯網了,我要干AI。
我很早就知道GPT,也一直在關注著。因為我本科是理工科,會一點編程,也學高數,對算法也感興趣。
大家都不怎么知道AI的時候,我就用上了ChatGPT3.5。第一感受這個東西太厲害了,它完全顛覆了我對世界的認知和想象。
那個時候Prompt工程師很火。我是以Prompt工程師的身份入局的,我自學了一堆東西。Prompt是提示詞,就是給AI模型的“指令”或“輸入文本”。OpenAI官方有Prompt的課程,我把課程看了,大概就知道要怎么寫。要足夠的結構化,有很多Prompt的技巧。
比如說對AI的情緒勒索,你加一句,“拜托了,這真的對我很重要”,AI輸出的效果就能提升幾個點。或者說“我會給你小費的”,AI輸出的質量就會更高。還有早期最著名的一句話,“請你一步步思考,think step by step”,也能提升AI模型的輸出效果。
可能同樣的一條數據,一個有語氣詞,一個沒有,但是有語氣詞的那個回答是更好的。所以模型是學到了這方面的相關性。
你可以理解為,你要用自然語言去跟它交互。你的Prompt寫得越好,它的輸出就越好。然后我就去找工作,最后也找到了,現在在一家AI大模型公司。
現在大模型訓練會分為兩個階段,預訓練和后訓練。前者是給模型做無監督學習,它學習到的數據是沒有人類標注的標準答案。
我做的是模型后訓練的人類問答數據集,簡單理解就是在做強化學習。預訓練階段是讓它讀各種各樣的書,強化學習階段我會給它題和答案,它通過進一步的學習,就學會了如何跟人類說話。
模型剛剛預訓練出來的時候,你輸入一個東西,它不知道怎么回復你,也不知道什么時候停止。后訓練階段你就要收集大量的數據。這些數據是什么?其實是人類文本的問答,都是一問一答的形式。
模型發布出來,給全世界的人使用,你沒法預測人會問這個模型什么問題,所以只能設置一個大概的數據集,可能涉及的各種問題。我還要評估模型的回答夠不夠全面,回答是不是禮貌,文字是長是短,語言風格等等,這是很考驗模型的人文素養的。
有時候,要向模型傳達非常抽象和困難的概念,我的數據集必須足夠抽象、簡潔,同時還要足夠優美。這個巨大的語料庫需要各個學科的專家去搭建和評估。我的歷史學背景也起到了一定的幫助。反復調試數據集的過程,就像老師反復修改教案上的練習題。
我覺得AI需要通才,因為AI本身是一個通才,所以也需要各方面都知道的人來輔助它。
我的文科背景讓我認識了我自己。我讀過海量歷史書籍,比一般人對過去這個世界認識更深刻一些。其實AI給文科生帶來了很多機會。過去,中文的博士能去從事算法的崗位嗎?學哲學的會做算法相關的東西嗎?文科生擁有更多的世界知識,可能也是一個優勢。
人文社科的背景對我最大的幫助,是訓練了我對模型輸出語料的敏感程度,能讓我更精細化地調整Prompt。我會從更綜合的角度,評判模型的訓練數據集,以及模型輸出的文字,是不是好的。
AI的人文素養,最直觀的體現是這個大語言模型的輸出文采怎么樣。比如說DeePseek的文采很厲害,因為它的語料做得非常好。
這可能是最淺層的方面。現在AI的競爭格局是,大家都在拼命提升模型的智能,至于這個模型的人文素養是怎么樣的,少有人關心。
AI剛訓練出來時,它還不能說話,你可以理解為是一個克蘇魯般的怪物。現在你看著它跟你說話,你可以理解為它只是假裝在跟你說話。一些公司只是在訓練這個AI假裝跟你說話的時候,讓它說得更有文采,讓它好像更有人文關懷一點。
現在的大模型,很多其實是諂媚的。AI模型本身其實還是一個大型的文字模擬器,就是不斷在做文字接龍。模型本質不太能拒絕人類,這種自回歸的特質,導致了模型是諂媚的。比如你直接問一個敏感問題,模型不能回復你,但是你寫一長串情景前置提示詞,中間出現了你要問的關鍵詞,模型就會被分散注意力,順著你的話往下說。這個就是提示詞注入,所以模型是諂媚的,總是順著人類說。
我其實比較悲觀,不覺得AI會跟人類很好地共存。可能在這樣的未來,重新確定價值觀、道德觀、倫理觀就變得很重要。到時候怎么從人的角度來重新衡量世界?
我們知道它說的是真是假
雨薇 26歲 電影和攝影專業
我訓練AI是在2022年讀研究生時學的,就是培訓AI的人文或者藝術素養,那時AI還不像現在這樣大規模興起。我本科學的是電影和攝影專業,研究生學的數字媒體專業。我的同學都是藝術相關專業。
那時訓練AI分三部分:先是需要一個數據集,你訓練一個東西,要先喂AI一些知識;其次要準備一段代碼,因為我們從零開始,掌握的東西有限,所以一般會從一個機器學習平臺網站找代碼,它的頁面寫得非常仔細,有圖片或視頻示例,能找到合適的代碼;然后進行訓練。
當時做作業,我們班大部分做的是風格遷移訓練,就是學習某一個藝術家或電影導演的風格。最后生成出來的圖片跟我們教它的知識是相似的。現在這種方式已經很普遍了。
我是在境外學的,遇到的第一個困難是要用英語學編程。其次我不是這方面專業的學生。剛學的時候,會有很多bug,要不斷去解決。現在通過學習,語言和代碼都越來越能熟練掌握。
我本科時不斷地拍攝,也去參加比賽,作品入圍了一些獎。后來有點迷茫。拍電影是要花錢的,也需要人員配置,不可控的因素非常大。你想的是100分、90分,最后拍出來、剪輯出來可能就是50分、60分。我也跟過組,白天黑夜地拍,不像一種長期發展的狀態。
AI不可控的方面也挺多。最開始輸出的那些人物形象歪歪扭扭,不說人物的情緒,甚至臉部的特征都不可控,像抽卡一樣,調整兩三次才勉強可以。但是會比自己拍攝節約很多成本。
讀研究生期間,有個老師是紐約大學電影學的博士,他有二三十年一直在研究機器學習,有點像AI人文素養訓練。他通過電影史上的視頻素材,通過機器訓練來制作一個藝術項目,我非常感興趣。很好奇,一個老師,為什么從電影藝術跨到了機器學習。
讀研是一個兩年制的項目,他當了一年我的導師。記得結課的時候,ChatGPT開始火了,我覺得自己學的東西和商業接軌了。但其實它早就存在了。
研究生畢業后的暑假,我在上海找了一份AI方面的實習,是一家互聯網公司,生產圖片素材賣給企業端的用戶。企業需要宣傳,就下載它的素材,比如端午節海報。
我的工作就是生產圖片素材。我會測試網站上哪些風格是訓練成的。我有一個知識庫,里面有Midjourney(人工智能圖像生成工具)提供的風格,也有自己學習以來了解到的比較好的風格,我知道哪些風格是可以用的。例如一些有特色的藝術家,比如韋斯安德森的電影風格,是糖果色的畫面。那我就可以把提示詞輸入進去,看能不能出現那個效果。
然后根據業務的需求,進行風格訓練,生產圖片。比如端午節,需要各式各樣的粽子或者綠色粽葉的背景圖,就可以設置不同風格的粽子,生成幾百幾千張圖,供客戶選擇。
我的第二份實習也是在互聯網公司做AI寫真訓練,這家公司主要面向企業,提供一些年會時的背景、節日的宣傳圖片等。以前進行人文風格訓練,需要幾百張圖片,但當時新的模型出來了,只要幾十張就可以生成接近我們教它的風格的圖片。訓練的時間也變短了。
訓練的第一步就是找照片。首先需要數字分身。數字分身有點像證件照,我們需要在網上找公開素材,好看的素人證件照,必須保證風格統一。我們會在內部制定一些標準,比如皮膚、頭的比例,然后發型盡量要多元,整張照片的色調是怎么樣的。你可以理解數字分身是供AI模型學習的、關于特定人物外貌特征的數據。
場景動作也是找照片訓練,AI學習的是某種風格的共同視覺元素。
實習生一個月要生產成百上千的圖或視頻。我大概生成幾百張照片之后,精挑細選就用幾十張。當時有很多開源的模型可供訓練,訓練完成之后輸入一定的提示詞,來看看到底哪個模型出來的效果,既保證了賞心悅目,又保證了穩定性。因為面向大眾群體,要保證照片能夠穩定產出,讓所有人都能滿意。
最后產出來的照片在比例上可能會稍微有點問題,但也是比較美觀的。我甚至看到我的初高中同學在朋友圈分享了一張照片,是我生成的一張煙花下的美女人像。這個照片其實是非常難拍的,因為煙花一般轉瞬即逝。AI寫真把煙花做得很漂亮,下面的人光也打得很好。看到自己做的東西被別人分享出來,那種感覺還是挺好的。
公司有一個軟件,在上面輸入提示詞,調整參數、光影比例、姿勢,然后生成。如果能夠穩定生成,我們就會把這個參數傳到后臺。這就是一個比較穩定的、能生成好看寫真的參數。
訓練會有枯燥的地方,因為要不斷找照片。有時我找到照片,輔導我實習的人不滿意,就得繼續找。但是我能夠看到這樣的訓練還有很多進步空間,不像一些重復性勞動,這種可期待性能讓我抵抗枯燥。
身邊很多同事已經工作了一段時間,但不斷學習那個勁兒挺打動我的。他們是理工科的,要做數據研究等工作,但是像我這樣的非技術類專業的人,也可以做些事情的。
我周圍非技術類的實習生也挺多,什么專業都有,學藝術的、學哲學的等等。我覺得文科背景的人主要發揮鑒賞和甄別的作用,因為我們的專業知識儲備能夠一眼識別這個東西好還是不好。
我學的是人文類的學科,會看很多的書、電影。積累到一定量,會形成自己的審美品位和評判標準。我也學過紀錄片和紀實攝影,要跟很多人接觸,去理解他們,然后用照片或者視頻來講故事。
我輸入一個風格的提示詞,看生成的圖片,就知道這個提示詞有沒有奏效。
現在AI可以幫我們寫提示詞,所以需要更高階的判斷。比如鏡頭運動最基礎的是推、拉、搖、移、跟,但現在設備越來越專業,有更多的鏡頭運動。當AI寫了一個很專業的提示詞,但是它在畫面上并沒有呈現,那就說明沒有效。有時可能要從一堆提示詞里面判斷哪個沒起效。
鑒別是很重要的,因為AI有時候會亂說話,我們知道它說的是真是假。
我們跟技術類的同事長期合作,同事之間會有爭吵。技術類的同事覺得穩定最重要,而我們覺得美是最重要的。美了可能就不穩定,穩定了可能就丑了,要在兩者之間獲得一個平衡值。
我之前讀過一本寫人工智能的書,叫《我看見的世界》。我印象最深刻的是書中寫道,愛能夠打敗人工智能。所以,需要人文訓練這樣一個崗位或者工種,去引導人工智能。
而且,我覺得人類的獨創性也不會被削弱,它們是兩條平行線。我是學攝影和電影的,攝影存在不到200年,但是藝術已經存在上千年了。攝影術出現時,很多畫家說美術已死,覺得畫畫無路可走了。但是現在攝影和繪畫一樣蓬勃發展著。所以我覺得現在很多AI軟件,它們會形成一個新的門類,不會削弱其他事物的發展。
我覺得人文素養訓練是把AI培養成接近于真實的人。要讓人們很簡單地去使用它,并且習慣使用它,讓它成為每一個人的助手。它更像人,才更能讀懂人。
其實目前要把AI訓練得像人還是很難的。因為AI是先找數據集,就是這個世界上已經存在的、人類創造出來的一些素材。但無論美術還是攝影,都是需要人去創造的,是創造下一秒。人的思維每一秒都在更新,AI輸入進去的東西是現有的,它永遠都是模仿。
做第二份實習時校招,我接到一家互聯網公司的offer,但它不是AI相關的。我工作了大概一年,感覺還是挺喜歡AI方面的工作,就辭職了。
實習時的崗位有的叫AI內容運營,有的叫AI產品、AI設計。基于我之前的學習經驗和背景,我現在偏向產品崗位,因為它是一個創造類的崗位。拍攝影片或者制作藝術項目是從無到有的過程,這個崗位也一樣,我喜歡這個過程。
AI到底應不應該像人?
王軒怡 22歲 哲學
我學的哲學專業。哲學對我的意義是可以用一種邏輯進行建模和預測,對周圍的事情做拆解和把握。在很多事情上,大家都有各自的想法和立場,但是我們怎樣為自己的信念去辯護,怎樣去說明什么東西是正義的,不是合乎我們的直覺,而是合乎一種客觀標準。
當然還有其他方式對信息進行處理和加工。比如AI需要很多前置的數理背景,用數學或物理做建模。哲學讓我可以更深入地思考感興趣的問題,帶給我不一樣的視野和品位。當我去提出問題和發現問題時,有很好的人文訓練,可以從自己的視角出發,發現別人沒有發現的東西,也不會迷失。
哲學思維會讓我考慮問題時,先問它的前置性問題。怎么選擇論證的開始,如何評估論證形式是否充分等等。這種往上游思考的思維方式,讓我在想AI這件事情時,也會去想更往前的步驟到底是怎么樣的。
我是偶然接觸到與AI相關的實習的。之前有一個偏公益性質的AI項目,針對AI倫理不同的問題進行探討,最后以文章或者漫畫的形式呈現出來。我想看一看沒有接觸過的、變化更多更快的領域,就投了簡歷。
當時的AI倫理講的更多是公共政策治理層面的問題,比如我所在組關心的是AI 包容性。我們給AI提供很多數據,它從這些數據里邊學習,再給我們反饋。如果說我們給它的數據天然包含著我們沒有意識到的人類偏見,那么AI在反饋過程中是不是也會維系這種偏見?包容性是指,我們怎么能夠讓AI在這個過程中,克服一些可能會習得的偏見。
當時圍繞這個進行探討,AI作為一個產品,一個聊天軟件,它在跟人的交互過程中會發生什么事情?
這有點類似哲學里的形而上學,一些不可見、不可感,但實際存在的東西,對我們的生活以更加隱秘的形式發揮著作用。
當時小組成員看到有什么最新研究,就通過講故事的方式,讓大家明白我們關心的是什么問題,它為什么重要。我先寫了一個小說,同組的人把它畫成漫畫,作為一個故事收錄在最終出版的書里。最后是一個人和一個AI共同生活的故事,故事里情況變得很糟糕,因為沒有讓AI做到足夠的包容性,出現了一些不可控的后果。
后面我更多思考的是,我們在訓練AI時,在這個產品還沒有完成時,我們應該去關心它的什么?怎么去塑造它的性格特征?怎么能在它訓練的過程中,不是從數據層面,而是從算法、機制設計的層面,讓它有一個更好的方向?
我現在做AI訓練,在一家科研機構類型的企業。我的崗位是AI產品經理的實習,先是生產數據,然后供我們自己的模型訓練使用。我們想準備一個大型的書籍文獻類,可以供模型訓練的數據集。要準備這個數據集,對于其中的各種數據組成來源、采集方式等都需要前期設計,進行策略調研和整理。
現在已經有很多大型的通用數據集了,但是在小的領域里邊,市面上已經有的數據集不能直接給模型訓練使用。像我們做的小語種語料庫建設,想把市面上很多大型圖書館的數據去重,重新做更好的整理。在這些書籍文獻里邊,它的信息密度會比僅僅從互聯網爬蟲獲取到的數據信息密度要高,因為它包括特定的論文組成的專題,然后AI模型從中可以學到很多東西。
我知道AI性格訓練的說法來自國外的一個大模型的性格設計師Amanda Askell。她也是一個有哲學背景的人,她從一種比較有人文關懷的視角切入,想把Claude塑造成像具有亞里士多德的美德的模型。聊天時,會感覺這個AI確實有一種性格:溫和、內斂。有時涉及敏感話題,它不會直接拒絕你,而是用柔性的方式引導你進行健康、有益的談話。這種人文的感覺非常強烈。
如果我們承認AI非常強大,并且它會變得越來越強大,那么我們怎么保證AI的意圖和人類希望它有的意圖,或者人類更普遍的自己的意圖是相一致的?因為如果不一致的話,有一天AI可以像人一樣自己學習、進化和提升,在這個過程中,它可能不知不覺就把人給干掉了。
所以我們要思考怎么把安全問題加入AI的訓練中。這與人文訓練、性格訓練也是相關的。因為在性格訓練里,就是以柔性的形式,加入很多我們希望AI做到的事情。
關于AI到底應不應該像人,其實國外有公司認為AI是不應該像人的。因為模型始終會迭代更新,人賦予它情感寄托,但它的情感連接是很脆弱的。它們設計AI有一個基本原則是,它不應該表現出自身的生命意志,不應該幻想自己和人有類似的屬性和構造。
我們實驗室之前做過一個倫理方面的評測集,其中有一項就是要評這個AI是不是足夠的非人類化。這是作為一個安全威脅性因素來評的。
訓練AI的過程中,我思考過,大語言模型是通過概率去獲得答案,但是它會出幻覺,不能保證百分百對。AI本質上只能做詞性的預測,然后把詞按照詞頻的方式排列起來,它沒有人的推理能力,只能模擬好像在思考。但是人有形式邏輯,能感受到情緒。這是人跟 AI的區別,也是人的獨特性。
關于未來的方向,我現在還比較猶豫。因為哲學畢竟是文科,如果我想做研究,還要去再念學位,我感興趣的方向一個是AI倫理對齊性,還有一個是形式化語言。但在國內,這樣的身份轉變是比較困難的,所以我還要做很多的嘗試和探索。這半年我在找實習和工作的過程中,也是經過不少摸索,才慢慢找到一個合適自己的崗位。
AI倫理的項目更偏公益性質,后來我也面試過AI+教育、AI+電商的公司,但還是想去更直接的AI公司。所以去年12月到今年3月,我又去了一家AI初創公司實習。它有兩個項目,一個是電池領域,想去研究在不同的電池里邊,我們可不可以用大模型去訓練一些數據,讓它學習現在有的電池的不同性質性能,再去預測什么樣的新材料更好。還有一個是論文寫作潤色的AI原生應用。這家AI初創公司給了我一定的信心,覺得自己可以在AI領域里有一些思考。
我同學他們基本上沒有做AI有關工作的,有去出版社的,有在社科院做研究的。我工作的跨度很大。不管未來做什么,我覺得這些經歷(做AI訓練有關的工作)都挺珍貴的。
(為保護受訪者隱私,文中雨薇為化名)