霉霉說中文的視頻火了,背後這個AI工具強大到可怕(組圖) 加载评论...
資訊  愛范兒  2023-11-16 17:05





作為國際巨星,「霉霉」在中國有不少粉絲,粉絲都知道「霉霉」不會講篇幅很長的中文,想聽她說中文那像盼過年似的。

讓「霉霉」隨時講中文?AI幫「霉粉」們實現了。

下面這個視頻里的「霉霉」用自己的音色和語氣,自然流暢地用中文接受採訪,就連口型都是中文口型。

有「霉粉」表示看完這個視頻一時分不清真假。

翻譯和配音演員要失業了實際上,這段視頻原本是「霉霉」全程使用英文參與一個訪談節目。她之所以可以講出自然流暢的中文,是因為一款名為 HeyGen 的一鍵翻譯視頻 AI。

這個功能可以一鍵把視頻的語音內容翻譯為其它語言,同時保持口型完美符合相應語言的發音。

目前,HeyGen 網站允許用戶上傳不超過 5 分鐘、大小不超過 500MB 的視頻文件生成翻譯視頻,支持 mp4、quicktime 和 webm 格式。

HeyGen 免費試用申請

https://app.heygen.com/login



▲ HeyGen 網站


AI 先獲取了「霉霉」說的英文內容翻譯成中文,再模擬「霉霉」的音色,接著替換掉「霉霉」的口型,最後合成一個以假亂真的視頻,實現了讓「霉霉」說中文的效果。

AI 霉霉的視頻創作者是 Gorden Sun,據他說,生成 AI 霉霉的視頻僅用了 40 秒。



以前,我們想聽一個外國人說中文,需要內容校對,專人翻譯和選人配音三個步驟,最後得到的是有點兒違和的翻譯腔語音,體驗並不好。

那麼不同母語的人說任意其它語言,可以嗎?

當然可以。

只要你想,你可以用 HeyGen 的一鍵翻譯視頻功能讓蘋果 CEO 庫克講印地語,音色、口型和抑揚頓挫難辨真假,幾乎讓人覺得庫克本人就會講印地語。



▲ AI 一出馬,蘋果公司的印度身份藏不住了


這項技術的商業前景想像力充足,可用於譯制國外大片和影音資料、轉播新聞、直播發布會和直播帶貨等等。

AI 語音大爆發今年 1 月份,微軟發布了一款人工智慧工具 VALL-E,具有上下文學習的能力,只需一個人 3 秒的特定音頻作基礎,即可模仿這個人的聲音開始長篇大論,複製出這個人的音色、環境混響、情緒和語氣。



▲ VALL-E

到了今年秋天,AI 語音更進一步,iPhone上的「個人聲音」功能支持用戶把 iPhone 放在約 1.5 米遠的地方錄製約一個小時的音頻,接下來用戶就可以使用「另一個自己的聲音」和他人交流。

可以預見,未來蘋果生態中許多功能會和「個人聲音」功能產生聯動,例如 Vision Pro 的虛擬形象等。



國內企業也在發力 AI 語音功能,百度地圖推出了 AI 嚮導,由文心一言提供大模型服務,集行程助理、本地嚮導、聚會達人、辦事專家、城市導遊、專屬陪練和專屬嚮導為一體,已經大大超越了傳統語音導航的體驗。

網易推出了 Hi Echo 英語口語教練小程序,口語水平極高,知識面極廣,發音無限擬真,交流幾乎無場地和時間限制,像人類一樣有智慧,還不需要高額學費,讓曾從事 K12 教育行業的我為英語教師捏了一把汗。



▲ 左:百度地圖 AI 嚮導。右:網易 Hi Echo 英語口語教練

AI 聲音有了「靈魂」談到 AI,繞不過去的就是 ChatGPT。

前不久,ChatGPT 上線了語音功能,和以前一些 AI 機械聲不同,它的聲音擬真到了令人毛骨悚然的地步。



▲ 圖片來自:萊森LysonOber(bilibili)

它說話時,會加上一些組織語言的「emm」再說話,出現短暫停頓和輕微的呼吸聲,更會結合語境進行語氣處理,讓語言有自然流露的情感和態度立場。

它甚至有口音,有口齒音,有卷平舌和鼻音邊音瑕疵,有重音,會調節不同字詞句的語速。

你還可以告訴它,「假設你是一個渣男,用渣男的語氣和方式哄正在生氣的女朋友開心」。

前一秒還是「正經人」的 AI 立即換成渣男氣泡音,叫女朋友寶貝,哄女朋友喝水,還給女朋友畫餅帶她出去吃好吃的。

只要我們給 AI 一個人設,它接下來的應答都會匹配合適的聲音,真實感幾乎以假亂真。

它不是「花瓶」如果 AI 止步於此,倒也不會令人多麼驚奇,如果它有了智慧呢?

對於不少人來說,在職場重大場合如何敬酒講話是個大難題,不過這完全難不倒 AI。



有人測試過,讓 AI 在有 5 個領導的場合下敬酒說話,AI 是這樣回答的:

「王總,您的遠見卓識引領著我們不斷前進,李副總,您的勤奮和聰明才智是我們的寶貴財富,張經理,您的創新和決策能力推動著團隊的進步,劉主任,您的細心和責任感保障著我們的品質,陳處長,您的領導和支持是我們取得成功的關鍵,再座的各位領導,感謝你們的辛勤付出和無私奉獻,為了我們共同的未來乾杯。」

這番回答通過細微地用詞不同暗示了各位領導的地位,也點明了各位領導的團隊貢獻,除非有領導故意穿小鞋,否則挑不出什麼大毛病。

即使擬人聲音、角色扮演和智慧應答融為一體,可是還是有人會說和真人還有差距,往往我們忽略了一點:

在評判 AI 和真人差距時,我們總會以能想象的人類最高水準作為及格線去評判 AI,可具體到現實世界的一個個普通人,我們真能在僅僅幾秒的思考後,每次都情緒穩定、字正腔圓、語音聲調恰當、表意近乎完美地去說出一番話嗎?

捫心自問,毫無準備的情況下至少我做不到,至於正在看這篇文章的你,內心應該有個答案。

客觀來說,AI 在某些方面已超過絕大多數普通人類,只是我們不承認而已。

在享受 AI 語音為我們帶來便利的同時,不少人也開始擔心一些問題。

真假難辨幾年前為防範詐騙,很多人在收到文字轉賬或借款消息時,往往會打一個電話確定對方是不是本人,現在這個方法漸漸失靈了。

隨著算力和演算法的進步,現在僅需秒級音頻即可無限擬真,複製一個人的聲音這件事變得越來越簡單,衍生了諸多問題。

今年 10月,TikTok 上「AI 奧巴馬」用著奧巴馬的人類思維方式、臉和聲音,駁斥著有關他的陰謀論。



▲ 2017 年百度 AI 曾生成的奧巴馬. 圖片來自:百度 AI(微博)

這個 AI 奧巴馬的聲音是使用一款名為 ElevenLabs 公司開發的工具生成的,該公司去年年底推出了免費的人工智慧文本轉語音工具,能夠在幾秒鐘內生成逼真的音頻。

頗具黑色幽默的是,ElevenLabs 公司還有一款 AI 檢測工具,能夠識別 AI 內容,似乎和 PC 時代的殺毒軟體有異曲同工之妙。



▲ ElevenLabs 網站


《紐約時報》進行了一番測試,ElevenLabs 的 AI 檢測工具可以成功識別 TikTok 帳戶中的 AI 音頻,但如果 AI 音頻中添加了音樂或者音頻文件有一定程度失真時,檢測就失敗了。

由此可見檢測工具道高一尺,AI 技高一丈。

在日益複雜的互聯網生態中,類似這樣由 AI 生成的視頻內容越來越多,擬真度也越來越高。

AI 應答、AI 人臉和 AI 圖像猶如女媧一樣捏出了「新人類」,現在出現的極度成熟的 AI 聲音則給「新人類」注入靈魂。



▲ 華語 AI 頂流孫燕姿


一方面,我們享受著 AI 孫燕姿、AI 霉霉、AI 嚮導、AI 英語教師等帶來的便利。另一方面,如何防範 AI 使用者扭曲內容本意或造假內容變得越來越困難。

利弊幾何,不如請「霉粉」們來說一說,你們是想要一個說著英文的真人「霉霉」,還是想要一個說著中文的「AI 霉霉」?