【析理論道】
數(shù)據(jù)作為數(shù)字時代的“新石油”,不僅是傳統(tǒng)產(chǎn)業(yè)、新興產(chǎn)業(yè)發(fā)展的重要支撐,同時也是人工智能科技創(chuàng)新的關鍵創(chuàng)新資源。
現(xiàn)階段,人工智能產(chǎn)業(yè)發(fā)展面臨的最突出、最迫切的困境,便是訓練數(shù)據(jù)供給不足。隨著網(wǎng)絡空間已公開數(shù)據(jù)資源趨于“消耗殆盡”,人工智能產(chǎn)業(yè)愈發(fā)需要專業(yè)化程度高、領域屬性強的高質(zhì)量數(shù)據(jù)來提升算法模型性能。因此,建構我國人工智能法治保障體系的一項核心目標,便是形成多元化的訓練數(shù)據(jù)供給體系,以滿足不同規(guī)模企業(yè)的訓練數(shù)據(jù)使用需求,推動算法模型性能朝著專業(yè)化方向升級。而構建多元化的人工智能訓練數(shù)據(jù)供給體系是一項系統(tǒng)性工程,只有通過持續(xù)拓寬數(shù)據(jù)采集渠道、擴大數(shù)據(jù)流動范圍、提高數(shù)據(jù)質(zhì)量要求,才能為人工智能產(chǎn)業(yè)注入源源不斷的創(chuàng)新動力,實現(xiàn)高質(zhì)量發(fā)展。
健全多源頭數(shù)據(jù)采集機制,拓展數(shù)據(jù)廣度。在實踐中,人工智能企業(yè)獲取訓練數(shù)據(jù)的方式主要包括網(wǎng)絡爬蟲抓取已公開數(shù)據(jù)、使用開源數(shù)據(jù)集、購買數(shù)據(jù)產(chǎn)品等。整體而言,數(shù)據(jù)采集方式較為單一,難以滿足相關產(chǎn)業(yè)對訓練數(shù)據(jù)質(zhì)量的基本需求。若想擴展訓練數(shù)據(jù)獲取廣度,需要在以下兩個層面實現(xiàn)數(shù)據(jù)采集機制的延伸:一是在數(shù)據(jù)采集行為合法性方面,以類型化列舉、監(jiān)管實踐指南等方式明確訓練數(shù)據(jù)來源合法性的常見類型,以消除企業(yè)業(yè)務合規(guī)擔憂;二是在數(shù)據(jù)市場供給形式方面,深入探索公共數(shù)據(jù)的開放利用模式,降低中小企業(yè)獲取高質(zhì)量訓練數(shù)據(jù)的市場門檻,整合數(shù)據(jù)交易基礎制度,拓展可交易數(shù)據(jù)產(chǎn)品的質(zhì)量和類型。具體而言,公共服務部門在長期社會公共服務過程中積累了海量高質(zhì)量數(shù)據(jù),但由于數(shù)據(jù)安全和數(shù)據(jù)使用收益歸屬不明等現(xiàn)實因素,此類公共數(shù)據(jù)面向人工智能產(chǎn)業(yè)的開放使用制度還需進一步深入探索。以交通部門為例,實時路況數(shù)據(jù)不僅可以提供實時交通擁堵情況報告,在人工智能技術加持下,還可以預測性地分析未來時間段交通流量情況、交通事故發(fā)生概率等??蒲袡C構也積累了大量專業(yè)性較強的科學數(shù)據(jù),如醫(yī)學研究機構的臨床病例數(shù)據(jù),經(jīng)由科學化整理和標準化處理,能夠在醫(yī)療影像診斷、傳染病防控等領域發(fā)揮重要作用。這些潛在的數(shù)據(jù)“富礦”,仍有待配套的法律制度予以松綁和深挖,進而形成層次化的數(shù)據(jù)采集渠道。
建構高質(zhì)量數(shù)據(jù)標注機制,挖掘數(shù)據(jù)深度。對于訓練數(shù)據(jù),既有數(shù)量上的要求,更有質(zhì)量上的要求。訓練數(shù)據(jù)的精確性、一致性、時效性等技術指標,直接影響著人工智能性能能否提升。以醫(yī)療影像識別為例,若是存在訓練數(shù)據(jù)將正常細胞標識為癌變細胞、同一細胞多次標注為不同信息內(nèi)容等情況,那么這些質(zhì)量堪憂的訓練數(shù)據(jù)只會“污染”人工智能性能,進而嚴重危害患者生命健康。國家網(wǎng)信辦等七部門2023年發(fā)布的《生成式人工智能服務管理暫行辦法》也專門要求在人工智能技術研發(fā)過程中,服務提供者應當制定符合本法要求的“清晰、具體、可操作的標注規(guī)則”。因此,合理科學的數(shù)據(jù)標注規(guī)則是保障訓練數(shù)據(jù)質(zhì)量和避免算法歧視的重要環(huán)節(jié)。在數(shù)據(jù)標注方式上,應當以“人機協(xié)作標注”為主要方式。技術研發(fā)者和服務提供者雖然可以通過批量自動化處理系統(tǒng)對各類數(shù)據(jù)資源進行高效批注,但潛在誤差標注風險難以有效控制。相對地,采用人工批注模式,除了成本高昂之外,還可能在不經(jīng)意間滲透標注人員的個人倫理觀,產(chǎn)生潛在科技倫理風險。因此,理想的數(shù)據(jù)標注方式應是人機協(xié)作,以此填補上述數(shù)據(jù)標注方式的短板,提升數(shù)據(jù)標注結果的準確性、完整性和中立性。
完善數(shù)據(jù)跨境傳輸機制,豐富數(shù)據(jù)類型。人工智能訓練數(shù)據(jù)的高質(zhì)量供給,離不開數(shù)據(jù)跨境傳輸制度的支撐。不同國家、不同地區(qū)的數(shù)據(jù)資源具有多元化的本地特征,這類數(shù)據(jù)資源能夠優(yōu)化人工智能算法模型,提升人工智能產(chǎn)品和服務的通用性。近年來,我國數(shù)據(jù)跨境傳輸?shù)姆煞ㄒ?guī)相繼出臺,確立了以“安全評估、個人信息出境標準合同、個人信息保護認證以及特殊機制”為內(nèi)容的數(shù)據(jù)跨境傳輸治理框架。同時,《促進和規(guī)范數(shù)據(jù)跨境流動規(guī)定》進一步解綁了基于學術合作、跨國生產(chǎn)制造、市場營銷等活動進行數(shù)據(jù)跨境傳輸?shù)南拗茥l件。為了更好推動訓練數(shù)據(jù)的跨境流動,需要遵循發(fā)展與安全并重的治理邏輯。從長遠來看,數(shù)據(jù)資源本地化不利于人工智能產(chǎn)業(yè)的創(chuàng)新發(fā)展,也不利于數(shù)據(jù)要素的市場化配置。數(shù)據(jù)跨境傳輸制度的建構是為了實現(xiàn)又好又快的跨境傳輸數(shù)據(jù),在數(shù)據(jù)資源的“一進一出”中,充分獲取全球范圍內(nèi)的高質(zhì)量訓練數(shù)據(jù)資源。在促進產(chǎn)業(yè)發(fā)展的同時,還需要確保數(shù)據(jù)出境安全,積極探索多邊、雙邊數(shù)據(jù)跨境合作機制,提升我國在數(shù)據(jù)跨境傳輸國際規(guī)則制定中的話語權,以構建網(wǎng)絡空間命運共同體為導向,實現(xiàn)訓練數(shù)據(jù)安全有序流動。
出臺數(shù)據(jù)供給配套政策,暢通數(shù)據(jù)流動。在財政支持政策方面,不同規(guī)模的科技企業(yè)獲取訓練數(shù)據(jù)的能力并不相同,為了降低人工智能產(chǎn)業(yè)的市場門檻,有必要通過設立專項資金、實施稅收優(yōu)惠政策等手段降低中小企業(yè)獲取高質(zhì)量訓練數(shù)據(jù)的實際難度。針對在特定領域具有卓越表現(xiàn)的中小企業(yè)、科研機構予以專項扶持,特別是涉及先進標注算法、數(shù)據(jù)整合技術等事項,可以通過專項資金助力企業(yè)購置更先進的設備、擴充專業(yè)人才隊伍。在技術標準體系方面,統(tǒng)一的技術標準是確保訓練數(shù)據(jù)質(zhì)量、規(guī)范數(shù)據(jù)供給的重要工具。在訓練數(shù)據(jù)采集、標注環(huán)節(jié),設置統(tǒng)一的技術標準體系能夠有效降低后續(xù)數(shù)據(jù)分析、數(shù)據(jù)挖掘等環(huán)節(jié)的研發(fā)成本。同時,科學客觀的技術標準也能針對科技倫理事項輔助確立更為統(tǒng)一的標注規(guī)則。在基礎設施平臺建設方面,為了緩解各行業(yè)、各領域數(shù)據(jù)流動范圍狹窄、流動類型有限等“數(shù)據(jù)孤島”現(xiàn)象,需要政府部門推動建設面向訓練數(shù)據(jù)供給的數(shù)字基礎設施以及公共算法訓練平臺。通過這些基礎設施和公共平臺,將涵蓋經(jīng)濟、地理、交通等各個領域的數(shù)據(jù)資源進行匯總,從而有效提高訓練數(shù)據(jù)的總體數(shù)量和質(zhì)量。
(作者:趙精武,系北京航空航天大學法學院副教授、北京科技創(chuàng)新中心研究基地副主任)
