乱伦qvod 你所見不一定為真--AI與DeepFakes(上)
全文节录
Deepfakes 不错定義為經過軟體處理後,东谈主、環境、物體受到改變的聲音或影像。 Deepfakes 已變成臉部替換的同義詞,亦即將相片中的东谈主臉替換為他东谈主,最早被诈骗在色情影像中。 Deepfakes也有以下花式 1. 臉部再製(face re-enactment):改革一個东谈主臉部的特徵,而不換成另一個东谈主的臉。 2. 东谈主臉生成(face generation):诈骗軟體生成一張全新的臉,並不參考任何真實东谈主物。 3. 聲音合成(speech synthesis):生成某东谈主的聲音。 Deepfakes在未來極有可能發展的更熟谙。规划词就現階段來說,生出高品質的內容仍口角常困難,需要極為專業的技術和軟體,而這些軟體现在尚未莳植,是以市面上尚未出現足以混浊大眾視聽的deepfake產品。 即使是發展中的deepfakes也可能形成傷害,據估計现在有上千部的deepfake色情影片在網路高尚竄,形成受害者不小的傷害。 「shallowfakes」的發展值得擔憂,這個詞是指诈骗基礎的技術改革少許的影音內容,举例標題、語速來混浊閱聽者。 單用法律不及以规矩deepfakes和shallowfakes,我們仍需要發展保護機制來過濾違法的影音內容,並且讓大眾了解這種加工影像的存在。 不論用什麼关节处理這些加工影像的分布,政府和立法機關必須留意不要阻扰其他良性的發展,举例娛樂和行銷上的應用。 不實資訊,特別是「假新聞」,已經成為了舉世齐知的現象,各界專家都針對這個問題作念了不少評論和建言。社會大眾過去最關心的是被加工的新聞、網路著作及網軍,规划词隨著deepfake的出現,我們正面臨著全新的挑戰。這篇著作我們將介紹deepfakes的特色,它對社會的風險,以及未來可能的應用。什麼是Deepfakes? 「Deepfakes」這一詞最早從2017年開始被矚目,Reddit上又名ID為deepfake的用戶在網路上張貼了一系列的加工色情影片,他將色情影片中的臉改革為各種名东谈主,Reddit速即成為了共享加工影片的中枢。科技網路雜誌Motherboard當年甚而下了「AI色情影片來了,我們完蛋了」的標題。 Deepfakes不错被定義為經過先進的軟體處理後,东谈主、環境、物體受到改變的聲音或影像,主要有以下四種型態: 臉部替換:使用某东谈主臉部的影像,替換掉另一個目標东谈主物的臉,目標东谈主物的臉被覆蓋了,重點在換上去的臉。 臉部再製:這類型的技術不错修改目標东谈主物的臉部色彩,举例移動他們的嘴巴、眉毛和眼睛,臉部再製的目標並不是取代他們的臉部特徵,而是改革他們的面部細節來使相片傳達的訊息不同。
东谈主臉生成:這項技術能夠創造一個全新的臉,是诈骗一種新興的「GAN」(生成對抗網路)深度學習技術,這種技術使用兩個神經網路彼此對抗,其中一個生成影像,另一個負責判斷生成的影像是否夠好。 聲音合成:deepfakes中一種相對新的分支,聲音合成不错創造一個东谈主聲音的模子,使用那個东谈主的說話方式和語調唸出翰墨。而有的聲音合成產品,举例Modulate.ai,則是能讓使用者挑選聲音的年紀和性別,並不是效法某個特定的目標。
每種型式的deepfake都有他們的極限,臉部再製不错保合手一個东谈主臉部的特徵不變而使相片看起來愈加传神,但就现在來說,目標影像弗成太巨幅的移動而况必須面對鏡頭(举例政事东谈主物發扮演講的影像即是適合的目標)。臉部替換則需要分別获取目標和素材兩個东谈主各種不同角度的影像。在聲音合成技術熟谙当年,臉部再製和臉部替換都需要有專东谈主配音,规划词聲音要與影像同步並不是一件簡單的事。 了解這四種花式deepfakes的不同以及製作他們所需要的器具是很蹙迫的,Snapchat的功能不错簡單的達到臉部替換的成果,而Face2Face則是用來作念臉部再製的。隨著新的器具不斷出現,deepfake的品質將會越來越好,種類也會越來越多,雖然這篇著作只著重於臉部和东谈主聲的合成,但任何影像和音訊在理論上都是不错被操控的,包括配景的快意或是身體的移動。 Deepfakes是如何被創造的?
操控影像並不是一項新的技術,從很早当年东谈主們就在進行各種修圖和製片,最早的臉部替換不错在林肯和又名南好意思的政事家Calhoun的相片上看到,林肯的頭被替換到了Calhoun身上。但最近幾年開始有先進軟體技術的出現,举例機器學習演算法,讓產生deepfakes變得更快更簡單。同時這些技術也已經被商業化並透過FakeApp和Face Swap這類的軟體進入主流市場。
關於臉部替換的规划,開發者Alan Zucconit列出了他們的三個主要步驟:蒐集(extraction)、訓練(training)、創造(creation)
蒐集:第一個职责是蒐集足夠的圖像來訓練臉部替換模子,一個常見的关节是從素材和目標东谈主物的影片中獲得,將影片切成一幀幀的圖片,並將圖片裁切到只剩下臉部,這個過程不错诈骗一些程式或軟體完成。
訓練:第二個步驟是诈骗蒐集到的圖像資料開始訓練模子,這個步驟不错使用自動編碼器(autoencoder)來完成,自動編碼器是一種類神經網絡,他有兩個部分:「編碼器」(encoder)和「解碼器」(decoder)。編碼器將圖像壓縮,以較低的維度來默示圖像。而解碼器則將壓縮過後的圖片還原老本來的樣貌。
創造:這是技術上最困難的步驟。要將前边製作出來的臉部圖像镶嵌到目標影片中,這過程必須確保臉合成的角度和影片中是相符的,根據Zucconi的說法,這是唯独一個需要手寫演算法而不是僅靠機器學習演算法的步驟,也因此這個步驟經常會發生錯誤。
臉部再製是另一個常見的deepfake花式,亦然使用自動編碼器運作。规划词這種應用只需要單一影片,不需要获取多個目標的圖像。