馬斯克也要打造自己的視頻生成模型了??
就在最近,xAI收購(gòu)了一家視頻生成初創(chuàng)公司,這家僅4個(gè)人的公司過(guò)去兩年打造出了Hotshot這款產(chǎn)品。

據(jù)公告介紹,Hotshot至今已有3款視頻生成基礎(chǔ)模型。被收購(gòu)之后,目前已停止推出新的視頻創(chuàng)作功能,而且用戶(hù)過(guò)往創(chuàng)作的視頻截止下載時(shí)間為3月30日。
一看這架勢(shì),網(wǎng)友們紛紛想起了老馬在今年1月的一場(chǎng)直播活動(dòng)中擲下的豪言:
預(yù)計(jì)將在幾個(gè)月內(nèi)發(fā)布Grok視頻模型
而且就在Hotshot聯(lián)創(chuàng)&CEO公布上述消息之后,老馬也*時(shí)間跑來(lái)賣(mài)關(guān)子:
酷炫視頻AI即將到來(lái)!

期待值被拉滿(mǎn)的同時(shí),眾人也齊刷刷表達(dá)了對(duì)Hotshot團(tuán)隊(duì)的祝賀:
那么,這是一家怎樣的團(tuán)隊(duì)呢?為什么它能被馬斯克“看上”?
答案這就揭曉——
4人團(tuán)兩年打造“Sora”
概括而言,Hotshot之所以能入老馬的眼,原因顯然在于兩方面:
一是“小團(tuán)隊(duì)也有大能量”,據(jù)悉Hotshot團(tuán)隊(duì)一共只有4個(gè)人,但他們?cè)?3個(gè)月里連續(xù)訓(xùn)練出了3個(gè)視頻生成模型,且獲得了一定程度的用戶(hù)關(guān)注;二是雖然成立不久,但投資者中不乏Reddit聯(lián)合創(chuàng)始人Alexis Ohanian等大佬。
從Hotshot官網(wǎng)公布的信息來(lái)看,這個(gè)4人小團(tuán)隊(duì)在兩年時(shí)間里成功打造出了“Sora”模型。
4人中有兩位是聯(lián)合創(chuàng)始人。
聯(lián)創(chuàng)&CEOAakash Sastry(右邊),和另一位聯(lián)創(chuàng)&CTOJohn Mullan(左邊)早在2012年就相識(shí)了。
認(rèn)識(shí)之前,前者正在構(gòu)建一個(gè)視頻聊天應(yīng)用,后者正在嘗試打造視覺(jué)通訊應(yīng)用(visual communication apps)。
不過(guò),在看到Aakash Sastry的視頻聊天應(yīng)用失敗之后(本以為是很酷的想法,結(jié)果可能因?yàn)槔砟畛?,大家很害怕視頻通話(huà)),兩人一致意識(shí)到:
我們需要?jiǎng)?chuàng)造一個(gè)讓人們?cè)诰W(wǎng)上表達(dá)自己的同時(shí),也感到舒適和自由的環(huán)境。
于是,Hotshot逐漸誕生了。
2017年,兩人共同成立了一家公司——Natural Synthetics(Hotshot背后公司),開(kāi)始構(gòu)建各種不同的社交應(yīng)用。
到了2023年1月,他們正式在iOS應(yīng)用商店發(fā)布了Hotshot。
不過(guò)需要注意,Hotshot一開(kāi)始并不是做AI視頻生成,而是圖片生成。
基于開(kāi)源的圖片生成模型Stable Diffusion,Hotshot為用戶(hù)免費(fèi)提供個(gè)人、朋友甚至是名人的圖片。
直到后來(lái)逐漸被視頻生成吸引,因此他們又開(kāi)始訓(xùn)練視頻生成模型。
和之前類(lèi)似,一開(kāi)始他們也打算基于開(kāi)源模型構(gòu)建,不過(guò)后面意識(shí)到:1)基礎(chǔ)模型需要大幅改進(jìn);2)為了自由構(gòu)建引人入勝的用戶(hù)體驗(yàn),需要對(duì)底層模型擁有控制權(quán)。
于是,他們正式?jīng)Q定自研視頻模型。
在過(guò)去的13個(gè)月里,他們訓(xùn)練了3個(gè)不同的視頻模型:
*個(gè)Hotshot-XL:耗時(shí)3個(gè)月開(kāi)發(fā),每秒生成8幀視頻,開(kāi)源后至今每月約有2萬(wàn)名新的開(kāi)發(fā)者和藝術(shù)家使用;
第二個(gè)Hotshot Act-One:耗時(shí)5個(gè)月開(kāi)發(fā),生成3秒8fps的視頻,基于2億個(gè)公開(kāi)視頻訓(xùn)練而成;
第三個(gè)Hotshot:耗時(shí)4個(gè)月開(kāi)發(fā),生成最長(zhǎng)10秒的720p視頻,限文生視頻。
按照Hotshot發(fā)布時(shí)的說(shuō)法,在各種提示評(píng)估中,70%的情況下用戶(hù)更喜歡Hotshot的結(jié)果,而不是其他開(kāi)源文生視頻模型。

另外,從CEO Aakash Sastry公布的消息來(lái)看,Hotshot的投資者包括Stripe前高管Lachy Groom、Reddit聯(lián)合創(chuàng)始人Alexis Ohanian以及SV Angel在內(nèi)的風(fēng)險(xiǎn)投資機(jī)構(gòu)。
至于具體融資次數(shù)和規(guī)模,Hotshot尚未公開(kāi)披露,而且也不清楚整個(gè)Hotshot團(tuán)隊(duì)是否會(huì)集體加入xAI。

馬斯克想開(kāi)發(fā)自己的視頻生成模型?
事實(shí)上,早在今年1月,馬斯克在一場(chǎng)直播活動(dòng)中就透露了自研視頻生成模型的想法:
(指路原推文視頻15:02)

對(duì)于自家的Grok模型一直沒(méi)有視頻生成功能這事兒,老馬本人和用戶(hù)都不太滿(mǎn)意。
而要解決這個(gè)問(wèn)題,通常來(lái)說(shuō)有兩條路可走:
要么直接接入其他家模型,要么自研。
從Grok之前的一些傾向來(lái)看,他們主要選擇*種方案,比如其Grok-2的文生圖功能,就是通過(guò)與此前備受矚目的Flux深度融合實(shí)現(xiàn)。
然而現(xiàn)在,老馬明顯轉(zhuǎn)向了。
為了和OpenAI、谷歌等展開(kāi)長(zhǎng)期競(jìng)爭(zhēng),xAI最終也是走上了自研之路,開(kāi)始通過(guò)收購(gòu)進(jìn)一步布局。
不過(guò)不管怎樣,對(duì)于我們普通用戶(hù)來(lái)說(shuō),期待Grok的視頻生成功能就完事了!



192203/19








