高書(shū)生,中央宣傳部文化體制改革和發(fā)展辦公室原一級巡視員、副主任。2003年以來(lái),參與文化體制改革總體文件和配套政策、文化產(chǎn)業(yè)振興規劃、文化產(chǎn)業(yè)促進(jìn)法、文化產(chǎn)業(yè)統計標準、金融支持文化產(chǎn)業(yè)、文化和科技融合、文化數字化和文化大數據等文件制定,發(fā)表多篇文章,出版《感悟文化改革發(fā)展》、《文化數字化:關(guān)鍵詞與路線(xiàn)圖》等著(zhù)作。
演講內容正文
(資料圖)
各位學(xué)界朋友,非常高興受邀參加開(kāi)幕式,今天我就文化數字化和文化元宇宙跟大家交流。
一、破題——從生產(chǎn)的角度探索文化元宇宙
首先我覺(jué)得開(kāi)幕式的主題很好,“開(kāi)啟文化元宇宙的新紀元”,我對這個(gè)主題的理解是從生產(chǎn)的角度探索文化元宇宙,這個(gè)意義非常大。因為目前這個(gè)階段我們談到“元宇宙”的時(shí)候,應該還是在消費層面,但今天這個(gè)標題是從生產(chǎn)的角度,不管是過(guò)去的PGC還是UGC一直到現在的AIGC,都是從不同的生產(chǎn)方式來(lái)講的,這一點(diǎn)還是非常有啟發(fā)性的。國家文化數字化戰略就是從供給側入手的,我們叫發(fā)力供給側,激活文化資源,推動(dòng)文化生產(chǎn)體系現代化。
就目前來(lái)說(shuō),在元宇宙的初級階段,主要還是從消費層面做,也應是數字化文化消費的新場(chǎng)景,而且是數字化文化體驗的一種形式。但我覺(jué)得再往前走,實(shí)際上已經(jīng)進(jìn)入到一個(gè)比較高的階段了,實(shí)現生產(chǎn)和消費同一,這樣來(lái)推動(dòng)文化元宇宙的發(fā)展會(huì )更好一些,這是我對今天開(kāi)幕式主題的理解。
二、數據——數字化時(shí)代的生產(chǎn)要素
現在大家都已經(jīng)認為數據是數字化時(shí)代的一個(gè)生產(chǎn)要素,但我覺(jué)得現在叫“要素”的多,叫“生產(chǎn)要素”的不是太多。
1、數據保真:下一步人工智能發(fā)展的充分必要條件
從目前非?;鸬腃hatGPT談起,ChatGPT給我們的啟示有兩點(diǎn),一個(gè)是數據如何保真,這個(gè)可能是大家非常關(guān)心的問(wèn)題??赡苁俏夜ぷ鲘徫坏脑?,我們更多還是從管理的角度考慮問(wèn)題,所以我們在想數據的保真可能是下一步人工智能發(fā)展一個(gè)非常重要的充分必要條件。如果說(shuō)數據不能做到保真,人工智能發(fā)展的方向可能就會(huì )出現一些不應有的失誤。
從各種討論文章當中大家也都看到了,目前ChatGPT訓練的數據集來(lái)源大體上分為六類(lèi),包括維基百科、書(shū)籍、期刊、互聯(lián)網(wǎng)的網(wǎng)站等等,訓練的數據集在GPT-3里面實(shí)際上總量應該有3000億的詞匯,有1750億的參數,這給我們的觸動(dòng)是非常大的,如果沒(méi)有這樣一個(gè)數據量訓練的話(huà),人工智能發(fā)展確實(shí)有很大制約。
這段時(shí)間大家都在測試,都是在試新鮮,看看新的聊天機器人水平到底有多高,在這個(gè)過(guò)程中,可能有些人已經(jīng)提出了一些問(wèn)題。第一個(gè)大家比較關(guān)心的問(wèn)題就是:互聯(lián)網(wǎng)上的數據并不都是準確的,當錯誤的數據量足夠大的時(shí)候,就會(huì )導致得出的結論也是錯誤的。有一個(gè)案例是基于GPT-3的醫療聊天機器人曾經(jīng)建議病人自殺,這可能是個(gè)案,但如果個(gè)案多的話(huà),就成了普遍性的了,歸根結底就是數據的保真問(wèn)題。而且現在所有的人工智能模型的學(xué)習都是基于一些歷史數據,還有一些社會(huì )學(xué)學(xué)者也在研究,有可能這些數據當中存在不必要的偏見(jiàn),這種偏見(jiàn)也會(huì )導致社會(huì )的排斥和歧視。所以說(shuō),扣好文化元宇宙第一??圩臃浅V匾?,我認為這是AIGC的充分必要條件,也是開(kāi)發(fā)人工智能非常重要的條件。
這方面,跟我們現在正在推動(dòng)實(shí)施的國家文化數字化戰略有相通的地方。也就是這些數據集到底從哪里來(lái),不光我們國人,國外也在問(wèn),在中文互聯(lián)網(wǎng)的數據質(zhì)量堪憂(yōu)的情況下,我們的數據到底應該從哪里來(lái)?我們認為應該從中華民族積淀了五千多年的文化資源中轉化而來(lái),這可能是我們下一步應該重點(diǎn)考慮的??赡苡腥苏f(shuō)你這個(gè)都是理論的東西,怎么變成現實(shí)?
其實(shí)在國家文化數字化戰略當中,已經(jīng)提出了非常明確的要求了。我國是文明古國,也是文化資源大國,這些年我們在推動(dòng)文化數字化過(guò)程中,特別是文化資源數字化過(guò)程中,也積攢了大量的文化資源數據,這些數據大多數都集中在公共文化機構。所以說(shuō)這次中辦國辦文件當中明確提出公共文化機構要向社會(huì )釋放數據,要依法向社會(huì )公眾開(kāi)放,讓大家都從這些數據當中提取具有歷史傳承價(jià)值的中華文化元素、符號和標識,并把它們轉化為文化生產(chǎn)要素,從而就成為文化元宇宙,以及文化創(chuàng )新和創(chuàng )造的文化素材,這在國家文化數字化戰略當中是非常明確的。
具體來(lái)說(shuō),我們現在數據量是非常大的,包括文化館、圖書(shū)館、美術(shù)館、博物館。我們尤其關(guān)注的一個(gè)點(diǎn)是地方志,地方志的數據也是非常珍貴的。根據中國地方志指導小組統計,到2020年,我們省、市、縣三級的地方志志書(shū)已經(jīng)完成了有5000多部,到2020年底公開(kāi)出版的已經(jīng)有4900多部,同時(shí)現在又增加了一些部門(mén)志、行業(yè)志和專(zhuān)題志,這個(gè)數量就更大了,有25000多部。
同時(shí)像鄉鎮志、村志,還有過(guò)去的舊志,應該說(shuō)這個(gè)量是非常大的。更重要的是這些年地方志的數字化已經(jīng)有了一個(gè)長(cháng)足的進(jìn)展,截止到2019年年底,省、市、縣三級光建成的數字方志館(數據庫)就有100多個(gè),我估計現在會(huì )更多,像新華智云說(shuō)已經(jīng)有25個(gè)省、自治區和直轄市的數字方志館。我們?yōu)槭裁从玫胤街灸?,因為地方志是中華民族積淀5000年文化資源的底部,如果我們把地方志做通了,可能很多東西都可以做的。
還有就是文化旅游部下面有一個(gè)中國民族民間文藝發(fā)展中心,業(yè)內人認為這是一個(gè)文藝長(cháng)城工程,大概是從“六五”時(shí)期開(kāi)始做的,花用了三十年時(shí)間,動(dòng)員了三十多萬(wàn)人的力量,最后收集到民族、民間的文藝資料是非常多的,總量應該是在50億漢字左右,包括民歌、民間故事等等?,F在已經(jīng)出了很多書(shū),也在推動(dòng)進(jìn)一步的數字化。還有一些中央新聞單位的數據量也是非常大的,例如人民日報、新華社、中央電視臺、中央人民廣播電臺,還有國際臺。我們出版業(yè)的數據也非常多,期刊里面有知網(wǎng)、萬(wàn)方、維普等,圖書(shū)領(lǐng)域綜合性的有國家數字圖書(shū)館,還有一些專(zhuān)業(yè)專(zhuān)題性的數據庫也非常多。
同時(shí),我們民間的數據量也非常大,為什么說(shuō)是民間的,實(shí)際上從1983年、1984年開(kāi)始,錢(qián)鐘書(shū)老先生曾經(jīng)開(kāi)辟了一項事業(yè),就是對中國古典文獻做數字化,他在世的時(shí)候做了17年,去世以后這項工程又持續了二十多年,他們有個(gè)公司叫“掃葉”,現在積累的漢字數總量在20億左右,其中漢字庫是目前我們看到的最全的。我們知道《康熙字典》最多是4萬(wàn)多字,現在據說(shuō)他們已經(jīng)達到了將近8萬(wàn)個(gè)漢字,收錄了36萬(wàn)人,比《中國人名大辭典》多出5倍,這里面有作品庫、地名庫,還有一些工具庫、圖片庫、地圖庫等等,這個(gè)量也是非常大的。包括我們中華書(shū)局也在做相應古籍的整理,這個(gè)量也是很大的。
再看看有些地市級也在做大量的數據庫,包括陜西渭南有一個(gè)“兩河一山”文化數字記憶項目,他們積攢的數據庫就有十個(gè),包括重點(diǎn)文物保護、古代的書(shū)院、民間傳說(shuō)、詩(shī)詞歌賦、歷史文化名城、名鎮、名村、名人數據庫、非遺數據庫、古籍目錄數據庫、傳統戲曲劇目劇本數據庫,還有紅色文化資源數據庫,有10個(gè)數據庫,量還是非常非常大的。所以說(shuō),我們現在在推動(dòng)實(shí)施國家文化數字化戰略過(guò)程中的一項重要任務(wù),就是關(guān)聯(lián)形成中華文化數據庫,這對整個(gè)人工智能的發(fā)展,通過(guò)人工智能創(chuàng )造生產(chǎn)更多面向大眾的文化數字內容而言,是一個(gè)基礎性的工程。
我們現在講數據驅動(dòng),這個(gè)數據應該是具有文化內涵的數據,現在數據量非常大,但還沒(méi)有去做標注、標引,那文化內涵是體現不出來(lái)的。我們過(guò)去經(jīng)常說(shuō)一句話(huà)“基礎不牢,地動(dòng)山搖”,現在我們許多產(chǎn)業(yè)項目、在推廣的很多東西,包括互聯(lián)網(wǎng)大廠(chǎng)在做的一些事,總的感覺(jué)是在沙漠上蓋高樓,地基不穩,什么事都做不大。所以為什么人家說(shuō),ChatGPT沒(méi)有在中國產(chǎn)生,我覺(jué)得這就是因為我們基礎不牢。
2、數據標注:把數據的采集、加工和數據服務(wù)變成一種經(jīng)常性的工作
第二個(gè)啟示,就是數據的標注。有專(zhuān)家向ChatGPT提出:“請模仿杜甫寫(xiě)一首詩(shī)”,結果并不是很理想,因為呈現并不好。有的專(zhuān)家分析,在它的語(yǔ)料庫中沒(méi)有對漢語(yǔ)的韻律、字節做標注和訓練,這可能是非常重要的原因。我們有了數據但不去做標注,那人工智能也發(fā)展不起來(lái)。對于數據的標注,我們這次在國家文化數字化戰略當中有了一個(gè)明確的要求,就是希望各級各類(lèi)文化機構,要把數據的采集、加工和數據服務(wù)變成一種經(jīng)常性的工作。
數據的標注主要是從三個(gè)方面著(zhù)手,第一要對數據進(jìn)行分類(lèi),我們現在按照聯(lián)合國教科文組織分的六大類(lèi)別,包括自然和文化遺產(chǎn)、表演和慶?;顒?dòng)、視覺(jué)藝術(shù)和手工藝、圖書(shū)和出版、視聽(tīng)和互動(dòng)傳媒、設計與創(chuàng )意服務(wù)六大類(lèi)別,然后在這個(gè)基礎上,每個(gè)類(lèi)別里都有一些專(zhuān)題的知識圖譜,我們就可以依據它來(lái)做編目。分類(lèi)和編目,實(shí)際上對數據定下坐標了,最后我們還要對數據的特征進(jìn)行描述,即數據的標簽化。
在這方面,我們國家這幾年有了長(cháng)足的進(jìn)展,例如百度在全國有七個(gè)已經(jīng)建成的數據標注基地,我去看過(guò)其中一個(gè)在山西太原的基地,當時(shí)我還沒(méi)有什么感覺(jué),去年突然間發(fā)現這是一個(gè)非常非常大的產(chǎn)業(yè)。山西太原這個(gè)基地是入駐在山西的綜改示范區,到2022年的5月份,辦公面積已經(jīng)超過(guò)19000平米,有5000名數據標注師,有53家代理商入駐,從2018年進(jìn)駐到2020年5月份,累計的產(chǎn)值已經(jīng)超過(guò)5個(gè)億,累計培育孵化了41家的數據標注企業(yè)。
文化領(lǐng)域的里面也有,同時(shí)我也參觀(guān)了中國知網(wǎng)在太原的數據加工基地,他們是對期刊和報紙,包括一些論文做標注,而且這個(gè)量也是非常大的。剛才我們說(shuō)太原的百度基地,每年的營(yíng)收應該在1個(gè)億左右,中國知網(wǎng)的太原數字出版數據加工基地營(yíng)收也是在一年1個(gè)億左右,這個(gè)量也是非常大。因此我們今年就想,在全國建設國家文化大數據標識基地,在標注的基礎上再賦標識符(ISLI碼),使具有文化內涵的數據,真正能夠在國家文化專(zhuān)網(wǎng)互聯(lián)互通,這是一項基礎性工作。
在這兒,我想多解釋幾句,我們用的標識是我國提案創(chuàng )建的國際標準,叫ISLI,就是國際信息和文獻領(lǐng)域關(guān)聯(lián)標識符的國際標準。我們現在文化數字化采用的是標識解析,這跟互聯(lián)網(wǎng)的域名解析有很大的區別。區別在哪里呢?我們的域名解析是把域名變成了IP地址,用IP尋址的方式來(lái)解析。文化數字化用標識解析,用我們國家提案并創(chuàng )建的國際標準,為每一個(gè)數據賦標識碼,然后我們自己有一套解析系統。它跟域名解析最大的區別是,我們標注的標識碼后面都包含兩個(gè)主要內容,一個(gè)是數據的元數據信息,一個(gè)是數據的訪(fǎng)問(wèn)地址。
這樣的話(huà),這個(gè)國際標準就發(fā)揮它的四大功能:第一就是標識,標識編碼由十進(jìn)制的數字和三個(gè)字段構成的;第二用這個(gè)碼構建數據和數據之間的關(guān)聯(lián)關(guān)系,這一點(diǎn)非常重要,這也是國際信息和文獻領(lǐng)域當中唯一一個(gè)具有關(guān)聯(lián)功能的國際標準;第三就是它的解析功能;第四是鑒權功能,驗證用戶(hù)是不是擁有訪(fǎng)問(wèn)系統的權利,也即版權的認證,這些問(wèn)題我們全解決了,在數字化時(shí)代,所有數據涉及到的版權問(wèn)題,用標識解析就可以解決。
這樣就達到了三個(gè)目的:第一是數據的互聯(lián)互通,因為它有地址和元數據;第二是數據的分布式存儲,現在的文化機構最大的問(wèn)題是擔心自己的數據被別人盜取,所以我們一方面先用了國家文化專(zhuān)網(wǎng),跟互聯(lián)網(wǎng)是物理隔離的,同時(shí)我們也采用了標識解析,可以實(shí)現物理分布、邏輯關(guān)聯(lián),即誰(shuí)的數據還是在誰(shuí)的服務(wù)器里,或者數據中心里面,但是由于它可以互聯(lián)互通,別人知道你有數據,然后可以進(jìn)行交易,通過(guò)授權使用用這個(gè)數據來(lái)做加工;最后一個(gè)是數據的確權,每個(gè)數據都有唯一的身份證,而且是伴隨著(zhù)這個(gè)數據的全生命周期,從采集、加工、生產(chǎn)、交易到最后數據的呈現全過(guò)程,以及它和其它的數據融為一體之后所產(chǎn)生的新的文化數字內容,這個(gè)過(guò)程中每個(gè)數據都可溯源,這是標識解析解決的非常重要的問(wèn)題。
最后我想這樣一個(gè)標識解析,對于文化元宇宙下一步的發(fā)展很有啟發(fā)意義。我們認為文化元宇宙的核心要素就是三個(gè):第一是數字身份,第二是數字貨幣,第三是數字資產(chǎn)。在這個(gè)過(guò)程中,如果把電視機作為元宇宙的入口,把電視機的機頂盒變成元宇宙的發(fā)射器,用剛才說(shuō)的國際標準的標識符作為數字身份,而且國際注冊機構已經(jīng)授權中國公共關(guān)系協(xié)會(huì )文化大數據委員會(huì )作為中國區的注冊機構,ISLI的DRA扮演元宇宙“戶(hù)籍警”的角色。
數據身份認定之后,給個(gè)人機構以及對數據和內容都可以做標識,那整個(gè)元宇宙發(fā)展的“底座”就有了,不會(huì )像過(guò)去那樣先發(fā)展后治理的模式。在這個(gè)基礎上,我們就可以發(fā)展一種主權鏈。在中辦國辦文件里面明確提出推動(dòng)標識解析與區塊鏈、大數據等技術(shù)融合發(fā)展,在這個(gè)基礎上依托我國主導的國際標準,它的手段就是依托國家文化大數據標識注冊中心,實(shí)現這個(gè)標識解析體系和當下在發(fā)展的各種聯(lián)盟鏈對接。用這樣一套系統,給各個(gè)基于區塊鏈的聯(lián)盟鏈做背書(shū),也就是說(shuō)我們可以扮演一種公鏈的角色,從而推動(dòng)整個(gè)區塊鏈技術(shù)向前一步。
最后我建議我們在研究過(guò)程中,對文化元宇宙還是要考慮它的治理成本,千萬(wàn)不能再重蹈互聯(lián)網(wǎng)“先發(fā)展、后治理”的覆轍,成本太高了。
?
責任編輯:李楠
分享到:版權聲明:凡注明來(lái)源“流媒體網(wǎng)”的文章,版權均屬流媒體網(wǎng)所有,轉載需注明出處。非本站出處的文章為轉載,觀(guān)點(diǎn)供業(yè)內參考,不代表本站觀(guān)點(diǎn)。文中圖片均來(lái)源于網(wǎng)絡(luò )收集整理,僅供學(xué)習交流,版權歸原作者所有。如涉及侵權,請及時(shí)聯(lián)系我們刪除!