Open AI 的 Sora 是什麼?它是如何運作的、用例、替代方案等等
Posted: Tue Dec 03, 2024 6:32 am
提示:動畫場景的特寫是一個毛茸茸的小怪物跪在融化的紅色蠟燭旁。藝術風格是 3D和現實的,重點是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。暖色調和戲劇性燈光的使用進一步增強了影像的舒適氛圍。
索拉城市景觀範例
提示:美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙 玻利維亞電話號碼列表 熙攘攘的城市街道,跟著幾個人享受美麗的雪天並在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風飄揚。
提示:穿越未來城市的街頭之旅,與自然和諧相處,同時又充滿賽博龐克/高科技。城市應該是乾淨的,有先進的未來電車、美麗的噴泉、隨處可見的巨型全息圖、到處都是機器人。讓影片是來自未來的人類導遊向一群外星外星人展示人類有能力建造的最酷、最輝煌的城市。
索拉動物例子
提示:兩隻黃金獵犬在山頂上播客。
提示:在海洋上舉行自行車比賽,運動員在無人機攝影機視野下騎著自行車,不同的動物。
初學者 AI 技能提升
從頭開始學習 AI 和 ChatGPT 的基礎知識。
索拉如何運作?
與DALL·E 3、StableDiffusion和Midjourney等文字到影像生成 AI 模型一樣,Sora 是一種擴散模型。這意味著它從由靜態雜訊組成的影片的每一幀開始,並使用機器學習逐漸將影像轉換為類似於提示中的描述的內容。 Sora 影片最長可達 60 秒。
解決時間一致性問題
Sora 的一個創新領域是它同時考慮多個視訊幀,這解決了物體移入和移出視野時保持物體一致的問題。在下面的影片中,請注意袋鼠的手多次移出鏡頭,當它返回時,手看起來與之前相同。
提示:卡通袋鼠跳迪斯可舞。
結合擴散模型和變壓器模型
Sora 將擴散模型與Transformer 架構結合起來,如 GPT 所使用的。
在結合這兩種模型類型時,Jack Qiao指出“擴散模型非常擅長生成低級紋理,但在全局合成方面較差,而變形金剛則存在相反的問題。”也就是說,您需要一個類似 GPT 的轉換器模型來確定視訊幀的高級佈局,並需要一個擴散模型來創建細節。
在一篇有關 Sora 實現的技術文章中,OpenAI 提供了這種組合如何運作的高級描述。在擴散模型中,影像被分解為更小的矩形「塊」。對於影片來說,這些補丁是三維的,因為它們會隨著時間的推移而持續存在。補丁可以被認為相當於大型語言模型中的「標記」:它們不是句子的組成部分,而是一組圖像的組成部分。模型的轉換器部分組織補丁,模型的擴散部分產生每個補丁的內容。
這種混合架構的另一個怪癖是,為了使視訊生成在計算上可行,創建補丁的過程使用降維步驟,這樣就不需要對每個幀的每個像素進行計算。
透過重述提高視訊保真度
為了忠實地捕捉使用者提示的本質,Sora 使用了DALL·E 3 中也可用的重述技術。本質上,它是自動提示工程的一種形式。
OpenAI Sora 有多好?
正如您從迄今為止提供的範例中看到的,Sora 似乎是一個令人印象深刻的工具,我們只是觸及了可能的表面。例如,請查看下面的剪輯,其中提供了與電影製作人和藝術家合作時可能發生的事情的範例:
索拉城市景觀範例
提示:美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙 玻利維亞電話號碼列表 熙攘攘的城市街道,跟著幾個人享受美麗的雪天並在附近的攤位購物。絢麗的櫻花花瓣隨著雪花隨風飄揚。
提示:穿越未來城市的街頭之旅,與自然和諧相處,同時又充滿賽博龐克/高科技。城市應該是乾淨的,有先進的未來電車、美麗的噴泉、隨處可見的巨型全息圖、到處都是機器人。讓影片是來自未來的人類導遊向一群外星外星人展示人類有能力建造的最酷、最輝煌的城市。
索拉動物例子
提示:兩隻黃金獵犬在山頂上播客。
提示:在海洋上舉行自行車比賽,運動員在無人機攝影機視野下騎著自行車,不同的動物。
初學者 AI 技能提升
從頭開始學習 AI 和 ChatGPT 的基礎知識。
索拉如何運作?
與DALL·E 3、StableDiffusion和Midjourney等文字到影像生成 AI 模型一樣,Sora 是一種擴散模型。這意味著它從由靜態雜訊組成的影片的每一幀開始,並使用機器學習逐漸將影像轉換為類似於提示中的描述的內容。 Sora 影片最長可達 60 秒。
解決時間一致性問題
Sora 的一個創新領域是它同時考慮多個視訊幀,這解決了物體移入和移出視野時保持物體一致的問題。在下面的影片中,請注意袋鼠的手多次移出鏡頭,當它返回時,手看起來與之前相同。
提示:卡通袋鼠跳迪斯可舞。
結合擴散模型和變壓器模型
Sora 將擴散模型與Transformer 架構結合起來,如 GPT 所使用的。
在結合這兩種模型類型時,Jack Qiao指出“擴散模型非常擅長生成低級紋理,但在全局合成方面較差,而變形金剛則存在相反的問題。”也就是說,您需要一個類似 GPT 的轉換器模型來確定視訊幀的高級佈局,並需要一個擴散模型來創建細節。
在一篇有關 Sora 實現的技術文章中,OpenAI 提供了這種組合如何運作的高級描述。在擴散模型中,影像被分解為更小的矩形「塊」。對於影片來說,這些補丁是三維的,因為它們會隨著時間的推移而持續存在。補丁可以被認為相當於大型語言模型中的「標記」:它們不是句子的組成部分,而是一組圖像的組成部分。模型的轉換器部分組織補丁,模型的擴散部分產生每個補丁的內容。
這種混合架構的另一個怪癖是,為了使視訊生成在計算上可行,創建補丁的過程使用降維步驟,這樣就不需要對每個幀的每個像素進行計算。
透過重述提高視訊保真度
為了忠實地捕捉使用者提示的本質,Sora 使用了DALL·E 3 中也可用的重述技術。本質上,它是自動提示工程的一種形式。
OpenAI Sora 有多好?
正如您從迄今為止提供的範例中看到的,Sora 似乎是一個令人印象深刻的工具,我們只是觸及了可能的表面。例如,請查看下面的剪輯,其中提供了與電影製作人和藝術家合作時可能發生的事情的範例: