對話多位相關(guān)從業(yè)人士,,AIGC監(jiān)管迎來新時代,?
2023-09-27 13:42:18 來源: OFweek維科網(wǎng).銀杏科技
2023年7月13日,國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合發(fā)布《生成式人工智能服務管理暫行辦法》(以下簡稱“《辦法》”),。
《辦法》針對從去年起成為科技圈頂流的生成式人工智能行業(yè)提出了監(jiān)管辦法,。
2022年11月,,ChatGPT發(fā)布之后,生成式人工智能迅速席卷整個互聯(lián)網(wǎng)行業(yè),。各大互聯(lián)網(wǎng)企業(yè)紛紛入局,,截至目前,國內(nèi)發(fā)布的10億參數(shù)規(guī)模以上的大模型就有超過100個,,應用領域涵蓋搜索,、對話、協(xié)助創(chuàng)作,、媒體生成,、教育、翻譯等,。
艾媒咨詢預測,,預計2023年中國AIGC核心市場規(guī)模將達79.3億元,2028年將達2767.4億元,。
但自從ChatGPT一夜爆紅以來,,由人工智能生成的虛假和錯誤信息屢見不鮮。同時生成式人工智能的出現(xiàn),,也嚴重沖擊了創(chuàng)作領域原有的生態(tài),,版權(quán)問題也讓全世界的立法機構(gòu)也陷入了難題。
《辦法》的出臺會解決這些問題嗎,?對生成式人工智能行業(yè)有什么樣的影響,?業(yè)內(nèi)如何看待此次《辦法》的出臺?
《銀杏科技》對話了多位相關(guān)從業(yè)人士,,他們分別是高級算法工程師,、自然語言處理高級研究員孫科、連續(xù)創(chuàng)業(yè)者譚偉,、偉君律師事務所律師錢川,。
他們表示,《辦法》的出臺一方面降低訓練模型的門檻,,促進了行業(yè)創(chuàng)新,,同時還明確了算法的安全主體責任,要求企業(yè)在應用開發(fā)期間就針對算法進行安全評估,。
對于“裸奔”了數(shù)個月的生成式人工智能行業(yè)來說,,《辦法》出臺意味著行業(yè)將迎來一個全新的發(fā)展階段,。
以下為部分對話實錄:
問:對于開發(fā)者來說,《辦法》的出臺有什么樣的影響,?
孫科:《辦法》出臺之后,,企業(yè)在開發(fā)產(chǎn)品的過程中需要提前做好規(guī)劃以應對生成式人工智能產(chǎn)品較長的開發(fā)流程和更多的合規(guī)控制點。
如果只是做ChatGPT這樣的聊天應用,,除了算法備案之外,,還需要遵守《網(wǎng)絡安全法》、《數(shù)據(jù)安全法》,、《個人信息保護法》等多項法規(guī),,此外還需要ICP經(jīng)營許可證、軟件著作權(quán),、網(wǎng)絡文化經(jīng)營許可證,、增值電信業(yè)務經(jīng)營許可證等審批,如果要在其他領域還需要完成相應的許可和備案,。
生成式人工智能的開發(fā)涉及到多個不同的環(huán)節(jié),,企業(yè)內(nèi)部也需要對相應的環(huán)節(jié)進行規(guī)劃以滿足合規(guī)要求。
問:《辦法》為什么要求將算法備案,?具體要備案哪些信息,?
孫科:算法備案制度本質(zhì)是監(jiān)管部門事前設置算法問責的問責點,用以確認算法推薦服務提供者是否履行了法律規(guī)定的各項義務,,是否在算法的設計,、運行和結(jié)果輸出層面有主觀過錯。
在具體實施上可能也會采取與推薦算法,、深度合成算法類似的“大廠先行”模式,,由互聯(lián)網(wǎng)大廠率先普及。生成式人工智能算法備案可能也并不需要公開算法機制,,但同一App,,甚至同一應用場景下的不同算法需要分別進行備案。
雖然在《辦法》中沒有明確細則,,但參考此前的經(jīng)驗,,企業(yè)需要將名稱、服務形式,、應用領域,、算法類型、算法自評估報告,、擬公示內(nèi)容等信息進行備案,,向監(jiān)管主體提示算法可能存在的濫用、惡意利用,、漏洞,、違法和不良信息生成,、傳播等違法違規(guī)的風險,并在服務網(wǎng)站和程序頁面上注明備案號和公示鏈接,。
另外,生成的內(nèi)容也需要進行標注,。
問:對于創(chuàng)業(yè)者,,《辦法》的出臺會帶來什么樣的新機遇嗎?
譚偉:創(chuàng)業(yè)者可以將大模型必備的大量計算和數(shù)據(jù)資源成本降低不少,?!掇k法》提出,將推動生成式人工智能基礎設施和公共訓練數(shù)據(jù)資源平臺建設,、促進算力資源協(xié)同共享,,提升算力資源利用效能。推動公共數(shù)據(jù)分類分級有序開放,,擴展高質(zhì)量的公共訓練數(shù)據(jù)資源,。
和其他領域相比,人工智能,,尤其是大模型生成式人工智能領域完全是一個重資產(chǎn)行業(yè),,沒有算力、沒有數(shù)據(jù)就沒有產(chǎn)品,。
以目前行業(yè)內(nèi)較為熱門的開源大數(shù)據(jù)模型BLOOM為例,,這個高達1760億參數(shù)的大模型的訓練需要使用384個GPU,將花費3.5個月時間,,僅硬件成本就高達576萬美元,。如果將訓練時間縮短至24天,則需要1024個GPU,,硬件成本超過1530萬美元,。
《辦法》的出臺一方面能夠降低計算和數(shù)據(jù)成本,另一方面利好共享算力服務提供商,。
問:您的創(chuàng)業(yè)項目針對的是大模型的算力基礎設施,,《辦法》會帶來什么樣的影響?
譚偉:對于大模型創(chuàng)業(yè)企業(yè),,硬件成本就能勸退大多數(shù)團隊了,。我計劃組建一個類似于Folding@home的分布式計算網(wǎng)絡來支持大模型的訓練。
這是世界上最大的分布式計算項目,,針對分子生物領域進行計算,,它并不依靠強大的超級計算機進行計算,主要的貢獻者是成千上萬的個人電腦和游戲機,。
每部參與的電腦都安裝了一個在后臺運行的客戶端程序,,在系統(tǒng)不忙碌的時候調(diào)用中央處理器運行模擬工作?,F(xiàn)時世界上絕大部分的個人電腦,在一般的情況下都很少用盡本身的計算能力,。
Folding@home就是使用這些本來都浪費了的運算力量,。Folding@home是第一臺千萬億次級計算機,每秒能夠執(zhí)行一百萬億次運算,,最近還成為了第一臺超大規(guī)模計算機,,每秒可執(zhí)行十億億次運算。
類似的分布式計算項目其實不少,,但針對大模型訓練的并不多,,《辦法》的出臺是一個入局的好機會。
問:為什么《辦法》并沒有強調(diào)生成式人工智能涉及到的版權(quán)問題,?生成作品的知識產(chǎn)權(quán)應該歸屬于誰,?
錢川:《辦法》并未在知識產(chǎn)權(quán)方面對生成式人工智能進行過多限制,還是希望能夠鼓勵企業(yè)在該領域的創(chuàng)新,,開發(fā)出自主可控的生成式人工智能產(chǎn)品,,避免“不管就亂,一管就死”,。
就目前情況而言,,生成作品的知識產(chǎn)權(quán)問題暫時沒有一個完善的解決方案。大多數(shù)國家依然按照以往的規(guī)定來界定生成作品的版權(quán),。
著作權(quán)法意義上的作品應滿足以下四個條件:由人類創(chuàng)作,,具有獨創(chuàng)性,是蘊含一定思想內(nèi)容的表達形式,,且不屬于法律法規(guī),、通用數(shù)表、公式等著作權(quán)法排除對象,。
完全由人工智能獨立創(chuàng)作或按照自然人輸入的提示詞生成的作品,,是無法在法律上被稱為 “作品”的。人工智能并未被界定為人類,,不享有人權(quán),,當然也不擁有版權(quán),更不用說歸屬與誰了,。
問:訓練人工智能時使用了他人公開在互聯(lián)網(wǎng)上的作品,,創(chuàng)造出AI孫燕姿、AI畢加索,,此類行為是否侵犯了知識產(chǎn)權(quán),?
錢川:訓練人工智能使用的數(shù)據(jù)知識產(chǎn)權(quán)保護暫時沒有成功案例。目前只有具有數(shù)據(jù)產(chǎn)權(quán)的數(shù)據(jù)庫可能會受到保護。
一方面,,數(shù)據(jù)產(chǎn)權(quán)的保護辦法我們還在探索當中,,今年年初的數(shù)據(jù)二十條規(guī)定就是一個初步的方案。另一方面,,目前國家知識產(chǎn)權(quán)局和深圳,、上海已經(jīng)開始研究數(shù)據(jù)的確權(quán)工作,但具體如何確權(quán)還需實踐,。