我們擅長商業策略與用戶體驗的完美結合。
歡迎瀏覽我們的案例。
谷歌 AI 發布了一篇關于 Muse 的研究論文,這是一種新的文本至圖像生成技術,它基于掩碼生成(Masked Generative)Transformer,可以生成與 DALL-E 2和 Imagen 等競爭對手相媲美的高質量圖片,但是速度要快得多。
Muse 被訓練為預測隨機掩碼圖像的 token,它會使用業已訓練過的大型語言模型所生成的嵌入式文本。這項工作涉及在離散的 token 空間中進行掩碼建模。Muse 使用一個 9 億個參數的模型,稱為掩碼生產 transformer(masked generative transformer),以創造視覺效果,而不是采用像素空間擴散或自回歸模型。
谷歌聲稱,借助 TPUv4 芯片,可以在 0.5 秒內創建一個 256*256 的圖像,而使用 Imagen 則需要 9.1 秒,根據谷歌的說法,Imagen 使用的擴散模型提供了“前所未有的逼真程度”和“深度的語言理解”。TPU,即張量處理單元(Tensor Processing Unit),是谷歌開發的定制芯片,專門用作 AI 的加速器。
根據研究,谷歌 AI 已經訓練了一系列不同規模的 Muse 模型,參數從 6.32 億到 30 億不等,研究發現,預先訓練好的大型語言模型,對于生成逼真的高質量圖像至關重要。
Muse 的性能也超過了最先進的自回歸模型 Parti,因為它使用了并行解碼,在推理時間上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根據使用同等硬件的測試,比 Stable Diffusion v1.4 快 3 倍。
Muse 創建的視覺效果與輸入中的各種語義成分相對應,如名詞、動詞和形容詞。此外,它還展示了視覺風格和多對象特性的知識,如合成性(compositionality)和基數(cardinality)。
近年來,由于新的訓練方法和改進的深度學習架構,圖像生成模型有了長足的進步。這些模型有能力生成非常詳盡和逼真的圖像,在廣泛的行業和應用中,它們正在成為越來越強大的工具。
(碼上科技)