(資料圖)
近日,在第二屆全球媒體創新論壇上,上海人工智能實驗室、央廣電視總臺聯合發布“央視聽媒體大模型”。
據新民晚報報道,本次發布的央視聽大模型為首個專注于視聽媒體內容生產的AI大模型,集合了央廣電視總臺的海量視聽數據與上海AI實驗室的原創先進算法、大模型訓練基礎設施優勢?;凇皶ㄓ么竽P腕w系”,央視聽大模型將拓展視聽媒體的創意空間、提高創作效率并帶來交互方式的變革。
據悉,以大模型的多模態理解、交互和生成能力為基礎,媒體工作者將來有望在“聊天”中完成工作。目前,央視聽大模型具備了強大的視頻理解能力和視聽媒體問答能力,AI相當于擁有了感知真實世界的“眼睛”和“耳朵”。
同時,央視聽大模型可根據提供的視頻,創作諸如主持詞、新聞稿件,甚至詩歌等文字。媒體編輯可在大模型的協助下,一鍵為視頻生成風格各異的解說詞,當前生成內容已覆蓋美食、文化和科技等多個領域。
央視聽大模型可通過逐步呈現的視覺元素,理解并分析視頻。用戶通過與AI聊天對話的形式,深挖視頻蘊含信息,進一步完善輸出的內容——當它“看”到央視節目《中國詩詞大會》中“看圖猜詩詞”環節視頻,便可理解視頻內容并生成出李白的《望廬山瀑布》。
央視聽大模型還為用戶提供了強大的交互式圖像、視頻編輯與創作能力,使得新的內容生產方式變成可能。在央視聽大模型的界面中,用戶僅需使用簡單的光標和文字指令,即可快速修改或編輯圖像,實現“指哪改哪,畫隨口出”。
上海人工智能實驗室科研團隊介紹,央視聽大模型具備的視覺理解能力,源于跨模態互動技術的最新突破,將圖像/視頻視為另一種“語言”,并將視覺與語言對齊,降低人工智能視覺任務的門檻?;趯Χ嗄B數據的建模,央視聽大模型可感知圖像的風格與紋理筆觸,通過將用戶輸入的文本指令與圖像對齊,實現按照用戶需求生成畫面及風格一致的其他內容。
除了視頻內容,央視聽大模型還具備快速生成“數字人主播”的能力。使用較短的真人采集視頻即可生成對應的數字人。AI生成的數字人主播以“真人”形象呈現,不僅能根據既定文案和背景場景快速生成播報視頻,還可自動學習真人的語言及動作習慣,做到形象更逼真,表情更自然。
責任編輯:胡笑柯
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: