亚洲精品日本_成人在线视屏_国产欧美日韩精品一区二区三区_久久成人精品视频_国产精品久久精品_日本wwwcom

 
 
規劃類政策解讀  政策解讀
規劃類行業新聞  行業新聞
規劃成果  規劃成果
產業調研成果 產業調研成果
招商策劃成果 招商策劃成果
概念規劃成果 概念規劃成果
地產策劃成果 地產策劃成果
投融資顧問成果 投融資顧問成果
園區規劃成果 園區規劃成果
產業規劃成果 產業規劃成果
企業戰略成果 企業戰略成果
首頁 > 走進中機院 > 中機院觀點 > 中機院觀點

60秒文生視頻火爆出圈,有望帶動算力和設備需求升級

來源:原創  時間:2024-02-20  點擊:1153
2024年2月16日,OpenAI發布文生成視頻模型Sora,可根據文字提示生成60秒視頻,輸出的視頻堪比影視CG效果。OpenAI Sora文生視頻一經發布就炸翻整個AI圈,也是ChatGPT掀起GenAI熱潮時隔一年后,OpenAI再次史詩級更新。

2024年2月16日,OpenAI發布文生成視頻模型Sora,可根據文字提示生成60秒視頻,輸出的視頻堪比影視CG效果。OpenAI Sora文生視頻一經發布就炸翻整個AI圈,也是ChatGPT掀起GenAI熱潮時隔一年后,OpenAI再次史詩級更新。


1、文生視頻及原理是什么?

文生視頻(Text-to-Video)是基于文本通過生成式AI生成視頻的模式。文生視頻技術的原理是通過模型學習和理解文本提示,并根據提示生成相應的視頻內容。模型的訓練數據通常來自大量的圖像和視頻數據集,包括圖像數據集(如ImageNet)和視頻數據集(如Webvid)。模型通常采用深度學習技術,如卷積神經網絡(CNN)和循環神經網絡(RNN),來對訓練數據進行學習和理解。在模型訓練完成后,輸入文本提示即可生成相應的視頻內容。


2、文生視頻訓練方法是什么?

為了訓練文生視頻模型,需要大量的圖像和視頻數據集,并采用深度學習技術對數據進行學習和理解。目前,主要的文生視頻模型訓練方法包括自監督學習、有監督學習和無監督學習。自監督學習是指使用無標簽數據進行訓練,有監督學習是指使用有標簽數據進行訓練,而無監督學習則是指使用未標記的數據進行訓練。這些方法都有其優缺點,需要根據具體應用場景進行選擇。


3、文生視頻經歷了幾個階段?

文生視頻發展經歷三個階段,自回歸和擴散模型成為主流。

60秒文生視頻火爆出圈,有望帶動算力和設備需求升級

第一階段,圖像拼接生成階段。

圖像拼接是將多個重疊的圖像對齊成一個大的組合,它代表了一個3D場景的一部分。拼接可以看作是場景重建的一種特殊情況,其中圖像僅通過平面單應性進行關聯。圖像拼接在運動檢測和跟蹤、增強現實、分辨率增強、視頻壓縮和圖像穩定等機器視覺領域有很大的應用。


第二階段,GAN/VAE/Flow-Based生成階段。

GAN通過生成器和判別器對抗訓練提升圖像生成能力。GANs(GAN,Generative Adversarial Networks)生成對抗網絡是擴散模型前的主流圖像生成模型,通過生成器和判別器進行對抗訓練來提升模型的圖像生成能力和圖像鑒別能力,使得生成式網絡的數據趨近真實數據,從而圖像趨近真實圖像。


第三階段,自回歸和擴散模型階段。

自回歸模型采用Transformer結構中的自注意力機制。自回歸模型(Auto-regressive Model)采用Transformer進行自回歸圖像生成。Transformer整體主要分為Encoder和Decoder兩大部分,能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關系,利用多頭自注意力機制進行編碼和解碼。采用該架構模型的文生圖通常將文本和圖像分別轉化成tokens序列,然后利用生成式的Transformer 架構從文本序列(和可選圖像序列)中預測圖像序列,最后使用圖像生成技術(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。


擴散模型是當前主流路徑,通過添加噪聲和反向降噪推斷生成圖像。擴散模型(Diffusion Model)是通過定義一個擴散步驟的馬爾可夫鏈,通過連續向數據添加隨機噪聲,直到得到一個純高斯噪聲數據,然后再學習逆擴散的過程,經過反向降噪推斷來生成圖像,通過系統地擾動數據中的分布,再恢復數據分布,逐步優化過程。


4、文生視頻應用于哪些領域?

文生視頻技術是一種新興的人工智能技術,隨著文生圖技術的精進與成熟,對于文生視頻的技術的發展和關注逐漸演變及增加,可以為影視、廣告、短視頻、游戲等領域提供創意和效率。


從影視行業來看,AI視頻工具讓創作者可以便捷地創建、編輯、調整內容,或將影響產業鏈的價值比例構成,如IP、創意的價值相對拍攝、剪輯、制作將有所提升。內容創作和剪輯工具也將迎來新變化。


從游戲行業來看,AI生成技術的成熟將增加素材的豐富度,對于有較大相關需求的游戲有積極影響。同時類比AI生圖技術,AI視頻技術的進步有望對各美工環節進一步提效,改進行業生產效率。

60秒文生視頻火爆出圈,有望帶動算力和設備需求升級

5、文生視頻代表企業都有誰?

清華CogVideo:首個開源的中文文本生成視頻模型,基于自回歸模型


CogVideo是由清華團隊2022年發布的基于預訓練的CogView2(文本生成圖像模型)9B-參數轉換器。CogVideo是當時最大的、首個開源的文本生成視頻模型,支持中文prompt,參數高達94億。CogVideo采用的Transformer結構,和CogView的幾乎一致,例如使用夾層范數(Sandwich LayerNorm)和PB-Relax來穩定訓練。


阿里達摩院:通義文生視頻大模型


通義-文本生成視頻大模型-英文-通用領域-v1.0是由阿里達摩院提供的、發布在阿里ModelScope平臺上的開源文生視頻大模型,目前仍在集成中,暫未開放公測。通義-文本生成視頻大模型僅支持英文輸入,基于多階段文本到視頻生成擴散模型。


OpenAI:全球人工智能引領者,ChatGPT和Sora發布者


2024年2月16日,OpenAI發布文生視頻模型Sora,并一次給出多達48個由Sora直接生成、未經修改的視頻,最長的時長可達60秒,遠高于現有主流模型的3-4秒的時長和15-16秒的極限時長,風格上涵蓋寫實、動畫、剪紙、3D、風景、微觀、細節特寫等多種。目前該模型正在紅隊測試階段,從而進行風險評估。


谷歌Phenaki:首個可生成長視頻的自回歸模型


Phenaki由Google Research開發制作,該模型是第一個能夠從開放域時間變量提示中生成視頻的模型,能夠根據一系列開放域文本提示生成可變長度的視頻。通過將視頻壓縮為離散的令牌的小型表示形式,詞例化程序使用時間上的因果注意力,允許處理可變長度的視頻。轉換器以預先計算的文本令牌為條件,使用雙向屏蔽轉換器使得文本生成視頻令牌,生成的視頻令牌隨后被取消標記化以創建實際視頻。


Runway Gen-1 & Gen-2:商用文生視頻的明星應用


Runway 是基于生成式AI的圖像和視頻編輯軟件供應商,是目前面向C端客戶商業化的公司,由Cristóbal Valenzuela,Alejandro Matamala 和Anastasis Germanidis創立于2018年,是福布斯AI50榜單最有前途的人工智能公司之一,其總部位于美國紐約。公司堅持在AIGC(人工智能生產內容)領域,細分領域從原來的圖片轉換到視頻的編輯與生成。Runway可以支持用戶進行圖像處理、文本生成圖像、更改視頻風格、文生視頻等多項服務。


6、文生視頻面臨難點是什么?

難點一:文生視頻更困難

第一,技術實現本身更困難。從本質看,視頻是連續的多幀圖像,然而文生圖到文生視頻并非簡單的圖片組合,而文生視頻在文生圖的基礎上增加了時間維度。


第二,文生視頻需突破瓶頸多。可用的文生視頻需具備一定的時長,優良的畫面質量,一定的創意邏輯性及還原指令要求能力。


難點二:計算難度大

第一,計算成本高。由于生成視頻模型復雜度提升及其時長、分辨率提高等因素,文生視頻對算力需求進一步加大。


第二,計算復雜性提升。文生視頻需要進行高維特征融合,模型復雜度顯著提升。


難點三:數據要求高

第一, 缺乏高質量配對數據集。視頻的合理性及連貫性體現模型的架構能力、創造力、理解能力。例如,當用戶輸入“一只大象在廚房做飯”這類文字指令時,模型需理解文字指令內容,并根據訓練數據庫選取畫面及對象組合,過程中可能出現缺乏相應素材、難以合理組合人物、難以合理架構場景等問題。文生視頻需要大量的文本-視頻配對數據,但當前缺乏相應數據集,數據標注工作量極高。


第二,缺乏具備多樣性的數據集。由于用戶的文本指令要求各異,缺乏多樣數據集使得模型無法生成預期效果。


難點四:技術融合難度大

多領域融合技術復雜性提升。文生視頻涉及自然語言處理、視覺處理、畫面合成等領域,跨學科多領域使其需攻克的技術難點增加。


7、文生視頻發展機遇是什么?

機遇一:跨時代文生視頻模型推出,將推動算力需求上升


通過文本生成高質量圖片對算力要求已經達到了一定程度。與其他視覺語言模型一樣,文生視頻模型通常在大型文本、視頻等對數據集上進行訓練。因此,大量工作側重于開發更易于訓練的更好、更通用的數據集,算力需求有望將持續上升。


機遇二:應用場景將帶動AI服務器更新換代


隨著AI應用場景的逐步落地,圖像、游戲、機器視覺等領域均迅猛發展,承擔服務器芯片基座、數據傳輸和連接部件功能的AI服務器PCB,迎來更新換代。AI服務器PCB區別于普通服務器的首先是層數增加。AI服務器PCB價值量是普通服務器價值量的5倍至6倍,隨著AI大模型和應用的落地,市場對AI服務器的需求日益增加,市場擴容在即。


機遇三:大模型推理側數據量將快速拉動光模塊需求


光模塊由光電子器件、功能電路和光接口等組成,光電子器件包括發射和接收兩部分。數據中心因為流量爆發帶來的光模塊需求仍將是光模塊發展的核心驅動力。隨著AIGC(人工智能生產內容)的快速發展,國內外大模型推理側數據量的快速上升,將進一步催化光模塊的大幅提升。



上一篇:鄉村振興推動農村產業融合發展的路徑探索
下一篇:數字賦能農業產業全鏈路建設應用——以浙江省金華市浦江縣葡萄產業為例
規劃首頁 | 業務領域 | 規劃收費標準 | 資源優勢及資質 | 咨詢業績 | 官網地圖
Copyright 2000-2020 中機產城規劃設計研究院 版權所有 北元律師事務所提供法律支持
地址:北京市豐臺區總部基地漢威國際廣場4區3號樓5層
全國免費咨詢熱線:400-666-8495
傳真:010-51667252-666
備案號:京ICP備08008382號-3
掃一掃關注
中機院
園區規劃
產業規劃
中機院微信
主站蜘蛛池模板: 欧美三级三级三级爽爽爽 | 91国色| 精品一区二区三区免费毛片 | 欧美日韩一区二区三区视频播 | 波多野吉衣 免费一区 | 人人干人人看 | 鲍莉| 国产一区在线免费观看 | 国产婷婷色综合AV蜜臀AV | 久久久这里有精品999 | 特黄aaaaa日本大片免费看 | 久久成人一区 | 私色综合网 | 色网站在线免费观看 | 一级毛片一 | 久久夜夜 | 国产一区欧美 | 激情久久久久 | a天堂资源在线观看 | 国产精品第一页在线 | 欧美成人免费在线视频 | 亚洲欧美日韩高清一区二区三区 | 欧美一区二区三区网站 | av一区二区三区四区 | 波多在线 | 在线观看亚洲网站 | 全部免费国产潢色一级 | 日韩 欧美 综合 | 中文字幕无线码一区二区三区 | 91高清在线观看 | 日韩v在线 | 欧美日韩亚洲一区 | 人人干人人模 | 成人瑟瑟 | 九九热国产精品视频 | 一级女性大黄生活片免费 | 国模无水印一区二区三区 | 亚洲欧洲中文日韩 | 亚洲一区二区三区久久 | 6全高清智能录播系统视频 精品九九 | 私房色播 |