生成式人工智能(Generative AI)是人工智能領(lǐng)域的一個重要分支,它通過學(xué)習(xí)海量數(shù)據(jù)中的模式與規(guī)律,具備自主生成全新、原創(chuàng)內(nèi)容的能力,例如文本、圖像、音頻、代碼乃至視頻。其核心技術(shù),如大型語言模型(LLM)和擴散模型,賦予了機器前所未有的“創(chuàng)造”潛力,正深刻改變著內(nèi)容創(chuàng)作、科學(xué)研究、產(chǎn)品設(shè)計等諸多領(lǐng)域。
正是這種強大的生成能力,也伴生了一系列亟待關(guān)注與規(guī)范的挑戰(zhàn)。專家們指出,對生成式人工智能,特別是其訓(xùn)練所依賴的公共數(shù)據(jù)進行規(guī)范,主要出于以下幾方面核心考量:
確保數(shù)據(jù)來源的合法性與倫理正當(dāng)性。生成式模型的訓(xùn)練需要消耗天文數(shù)字級的文本、圖像等數(shù)據(jù),其中大量源自公開的互聯(lián)網(wǎng)。這些數(shù)據(jù)可能包含受版權(quán)保護的作品、個人隱私信息或未經(jīng)授權(quán)的敏感內(nèi)容。若不加以規(guī)范,模型的訓(xùn)練與輸出可能構(gòu)成對知識產(chǎn)權(quán)、個人隱私的侵害,其生成內(nèi)容也可能傳播偏見、虛假信息或有害內(nèi)容,對社會信任和穩(wěn)定構(gòu)成威脅。
保障模型的公平性、安全性與可靠性。公共數(shù)據(jù)中可能隱含并固化現(xiàn)實社會存在的歧視、偏見與不平等。如果模型不加甄別地學(xué)習(xí)這些數(shù)據(jù),其輸出結(jié)果會進一步放大社會不公。模型可能被惡意利用,生成深度偽造(Deepfake)內(nèi)容用于欺詐,或生成危及公共安全的指導(dǎo)信息。規(guī)范數(shù)據(jù)使用和模型開發(fā)流程,是建立安全護欄、防范濫用風(fēng)險的關(guān)鍵。
再次,維護健康的創(chuàng)新生態(tài)與市場秩序。缺乏規(guī)制的數(shù)據(jù)獲取和使用可能導(dǎo)致“數(shù)據(jù)壟斷”或“數(shù)據(jù)污染”,阻礙行業(yè)的公平競爭與良性發(fā)展。明確的數(shù)據(jù)使用規(guī)則和透明度要求,有助于保護創(chuàng)新者的合法權(quán)益,引導(dǎo)技術(shù)向善,促進生成式AI產(chǎn)業(yè)的長期、可持續(xù)發(fā)展。
履行國家數(shù)據(jù)安全與社會治理責(zé)任。公共數(shù)據(jù)是國家重要的戰(zhàn)略資源。對用于訓(xùn)練人工智能的公共數(shù)據(jù)進行必要的安全評估與合規(guī)管理,是保護國家安全、公共利益以及公民個人權(quán)益的必然要求,也是全球范圍內(nèi)數(shù)字治理的重要趨勢。
對生成式人工智能及其公共數(shù)據(jù)基礎(chǔ)進行科學(xué)、審慎的規(guī)范,并非限制技術(shù)創(chuàng)新,而是為其長遠(yuǎn)健康發(fā)展奠定堅實的倫理與法治基石。這需要技術(shù)開發(fā)者、立法者、行業(yè)組織與社會公眾的協(xié)同努力,共同探索一條既能釋放人工智能巨大潛能,又能有效管控其風(fēng)險的治理路徑,確保技術(shù)發(fā)展真正造福于人類社會的整體進步。