鍵.png)
使用這些基本 REST API 最佳實踐構(gòu)建出色的 API
Data-centric Artificial Intelligence(DCAI)可以概括為數(shù)據(jù)工程,主要探索如何高效地構(gòu)建高質(zhì)量、大規(guī)模的數(shù)據(jù)集。顯而易見,數(shù)據(jù)工程并不是一個新概念,而是一個“被冷落”的舊概念。傳統(tǒng)的機器學(xué)習(xí)開發(fā)流程可以歸為下圖的流程:
我們可以簡單將機器學(xué)習(xí)開發(fā)劃為3個方面的主要工作:
現(xiàn)在普遍的,AI以模型為中心(Model-centric),對于機器學(xué)習(xí)的開發(fā)者,數(shù)據(jù)樣本很經(jīng)常是固定的,特征工程及模型優(yōu)化是重中之重,從見效、技術(shù)亮點都是妥妥的主角。而數(shù)據(jù)工程(或稱為Data-centric)的工作經(jīng)常是臟活累活,對模型的重要性經(jīng)常被忽視,相關(guān)的技術(shù)發(fā)展也比較少。
可能是隨著深度學(xué)習(xí)端對端學(xué)習(xí)弱化了對特征工程的依賴,以及越來崇尚的大模型的暴力美學(xué),數(shù)據(jù)對模型效果也得到更多的重視了,畢竟Garbage in, garbage out!
過去,人工智能主要關(guān)注設(shè)計模型,但這種方法過度依賴固定數(shù)據(jù)集,難以實現(xiàn)更好的模型行為。現(xiàn)在,人們更加注重提高數(shù)據(jù)的質(zhì)量和數(shù)量,同時保持模型的相對固定。這種轉(zhuǎn)變已經(jīng)取得了一些成功,例如大型語言模型的進步和ChatGPT等應(yīng)用。以數(shù)據(jù)為中心的方法具有許多優(yōu)點,包括提高準確性、縮短開發(fā)時間、增強方法和一致性以及提高可擴展性。此外,以數(shù)據(jù)為中心的人工智能并沒有降低以模型為中心的人工智能的價值,這兩種范式是互補交織的,可以相互促進發(fā)展。在生產(chǎn)環(huán)境中,數(shù)據(jù)和模型往往在一個不斷變化的環(huán)境中交替發(fā)展。
我們將以數(shù)據(jù)為中心的人工智能分為三個目標:訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護。
訓(xùn)練數(shù)據(jù)為機器學(xué)習(xí)模型提供了基礎(chǔ),因為模型性能在很大程度上受其質(zhì)量和數(shù)量的影響。訓(xùn)練數(shù)據(jù)開發(fā)的目的是收集和生成豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)來支持機器學(xué)習(xí)模型的訓(xùn)練,包括五個子目標,分別為:1)數(shù)據(jù)收集,2)數(shù)據(jù)標注,3)數(shù)據(jù)準備,4)數(shù)據(jù)縮減,5)數(shù)據(jù)增強。最后我們將討論管道搜索,這是一種新興趨勢,旨在連接這些步驟并搜索最有效的端到端解決方案。
創(chuàng)建和處理訓(xùn)練數(shù)據(jù)的基本步驟,如圖4所示。
圖4 訓(xùn)練數(shù)據(jù)開發(fā)通用流程概覽
表2總結(jié)了訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法。
表2 訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法
3.1.1 數(shù)據(jù)收集
數(shù)據(jù)收集是從各種來源收集和獲取數(shù)據(jù)的過程,從根本上決定了數(shù)據(jù)的質(zhì)量和數(shù)量。這個過程嚴重依賴于領(lǐng)域知識。隨著數(shù)據(jù)可用性的增加,高效利用現(xiàn)有數(shù)據(jù)集的策略的發(fā)展出現(xiàn)了激增。
領(lǐng)域知識的作用。深入了解應(yīng)用領(lǐng)域或行業(yè)對于收集相關(guān)和代表性數(shù)據(jù)至關(guān)重要。在構(gòu)建推薦系統(tǒng)時,需要根據(jù)應(yīng)用領(lǐng)域決定收集哪些用戶/項目特征。領(lǐng)域知識有助于使數(shù)據(jù)與利益相關(guān)者的意圖保持一致,并確保數(shù)據(jù)的相關(guān)性和代表性。
高效的數(shù)據(jù)收集策略。高效數(shù)據(jù)收集策略包括利用現(xiàn)有數(shù)據(jù),通過發(fā)現(xiàn)、集成和合成的方法,提高數(shù)據(jù)收集效率。與傳統(tǒng)的手動收集方法相比,這些方法更省時。數(shù)據(jù)集發(fā)現(xiàn)通過匯集現(xiàn)有數(shù)據(jù)集,根據(jù)人類查詢識別相關(guān)和有用的數(shù)據(jù)集。數(shù)據(jù)集成將不同來源的數(shù)據(jù)集整合成一個統(tǒng)一的數(shù)據(jù)集。原始數(shù)據(jù)合成通過合成包含所需模式的數(shù)據(jù)集,例如在異常檢測場景中,合成異常模式以提高數(shù)據(jù)收集效率。這些策略有助于提高數(shù)據(jù)收集效率,減少人工工作量。
挑戰(zhàn)。數(shù)據(jù)收集工作面臨著諸多嚴峻的挑戰(zhàn),包括數(shù)據(jù)集的多樣性、對齊的困難、合成數(shù)據(jù)所需的領(lǐng)域知識,以及法律、倫理和物流方面的限制。從零開始收集數(shù)據(jù)可能會遇到知情同意、數(shù)據(jù)隱私和數(shù)據(jù)安全等問題所帶來的阻礙。因此,研究人員和實踐者必須充分了解并認真對待這些挑戰(zhàn)。
3.1.2 數(shù)據(jù)標注
數(shù)據(jù)標注是將一個或多個描述性標簽或標記分配給數(shù)據(jù)集的過程,使算法能夠從標記的數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測。傳統(tǒng)上,這是一個耗時且資源密集的手動過程,特別是對于大型數(shù)據(jù)集。最近,提出了更有效的標注方法來減少人力。
數(shù)據(jù)標注的必要性。數(shù)據(jù)標注在訓(xùn)練模型以準確反映人類意圖方面至關(guān)重要。無監(jiān)督學(xué)習(xí)技術(shù)在部分領(lǐng)域取得了成功,但為了獲得更好的性能,通常仍需使用人類標簽來微調(diào)大型語言模型和異常檢測器。因此,標注數(shù)據(jù)對于教導(dǎo)模型與人類對齊和表現(xiàn)至關(guān)重要。
高效的標注策略。高效標注策略包括眾包標注、半監(jiān)督標注、主動學(xué)習(xí)、數(shù)據(jù)編程和遠程監(jiān)督。眾包標注將任務(wù)分解給大量非專業(yè)注釋者,通過迭代完善任務(wù)設(shè)計、要求多個工作人員注釋相同樣本并推斷共識標簽、或利用算法提高標簽質(zhì)量來提高效率。半監(jiān)督學(xué)習(xí)利用少量帶標簽的數(shù)據(jù)來推斷未標注數(shù)據(jù)的標簽,如自訓(xùn)練、訓(xùn)練多個分類器并找到共識標簽、基于圖的半監(jiān)督學(xué)習(xí)標注技術(shù)或基于人類反饋的強化學(xué)習(xí)過程。主動學(xué)習(xí)是一種迭代式標注過程,需要人類不斷提供信息以自適應(yīng)地選擇查詢。數(shù)據(jù)編程是一種基于人類設(shè)計標注函數(shù)的弱監(jiān)督方法,通常需要最少的人類參與。遠程監(jiān)管通過利用外部資源來分配標簽,如關(guān)系提取。這些策略可以組合為混合策略,以提高標注效率。
挑戰(zhàn)。數(shù)據(jù)標注面臨的主要挑戰(zhàn)包括如何在標注質(zhì)量、數(shù)量和經(jīng)濟成本之間找到平衡,以及如何應(yīng)對標注的主觀性和倫理問題。當預(yù)算緊張時,需要采取更高效的標注策略,并利用領(lǐng)域知識來平衡人力和標注質(zhì)量/數(shù)量。此外,設(shè)計者需要確保指示清晰,以避免注釋者誤解,導(dǎo)致標注噪音。最后,數(shù)據(jù)隱私和偏見等倫理問題在標注任務(wù)分發(fā)給大量人群時尤為突出。
3.1.3 數(shù)據(jù)準備
數(shù)據(jù)準備涉及清理和轉(zhuǎn)換原始數(shù)據(jù),以適應(yīng)模型訓(xùn)練的格式。通常,這個過程需要大量的工程工作,需要繁瑣的試錯。為了實現(xiàn)這個過程的自動化,最先進的方法通常采用搜索算法來發(fā)現(xiàn)最有效的策略。
數(shù)據(jù)準備的必要性。原始數(shù)據(jù)通常不適合模型訓(xùn)練,需要清理和轉(zhuǎn)換。數(shù)據(jù)準備占數(shù)據(jù)科學(xué)家工作的約80%,因為原始數(shù)據(jù)可能存在噪聲、不一致性和無關(guān)信息,導(dǎo)致模型結(jié)果不準確和有偏。此外,敏感信息可能引入偏見,原始特征值也可能影響模型性能。
代表性方法。數(shù)據(jù)清理、特征提取和特征轉(zhuǎn)換。數(shù)據(jù)清理包括識別和糾正數(shù)據(jù)集中的錯誤、不一致和不準確,包括傳統(tǒng)編程方法和基于學(xué)習(xí)的方法。傳統(tǒng)方法使用編程自動化,但基于學(xué)習(xí)的方法如訓(xùn)練回歸模型預(yù)測缺失值、通過抽樣估計重復(fù)項和糾正標簽錯誤,提高了準確性和效率。當代數(shù)據(jù)清理方法關(guān)注提高最終模型性能,例如采用搜索算法自動識別最佳清理策略。特征提取是從原始數(shù)據(jù)中提取相關(guān)特征的重要步驟,包括深度學(xué)習(xí)和傳統(tǒng)方法。深度學(xué)習(xí)通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重來自動提取特征,需要較少的領(lǐng)域知識。特征變換是指將原始特征轉(zhuǎn)換為新特征集的過程,通常可以提高模型性能,如歸一化、標準化、對數(shù)變換和多項式變換等。這些方法可以以不同的方式組合以改善模型性能。
挑戰(zhàn)。清洗和轉(zhuǎn)換數(shù)據(jù)是一項挑戰(zhàn),因為不同數(shù)據(jù)集的特性各異。即使數(shù)據(jù)類型相同,特征值和潛在問題也可能非常多樣化。研究人員和數(shù)據(jù)科學(xué)家需要投入大量時間和精力來清洗數(shù)據(jù)。雖然基于學(xué)習(xí)的方法可以自動搜索最佳準備策略,但設(shè)計適當?shù)乃阉骺臻g仍然困難,且搜索過程耗時。
3.1.4 數(shù)據(jù)縮減
數(shù)據(jù)縮減的目標是在保留其基本信息的同時降低給定數(shù)據(jù)集的復(fù)雜性。這通常可以通過降低特征大小或樣本大小來實現(xiàn)。
數(shù)據(jù)縮減的必要性。數(shù)據(jù)縮減在提高訓(xùn)練效率方面至關(guān)重要,可減少樣本數(shù)量和特征大小,緩解內(nèi)存和計算約束,以及數(shù)據(jù)不平衡問題。壓縮特征可降低過擬合風險,提高模型部署速度和可解釋性。總體而言,數(shù)據(jù)縮減技術(shù)有助于提高模型準確性、效率和可解釋性。
減少特征規(guī)模的方法。從特征的角度,可以進行特征選擇和降維。特征選擇是從一組特征中選擇與預(yù)期任務(wù)最相關(guān)的子集的過程,分為過濾、包裝和嵌入式方法。主動特征選擇還考慮了人類知識,逐步選擇最合適的特征。特征選擇降低了復(fù)雜性,產(chǎn)生更清潔和更易理解的數(shù)據(jù),同時保留了特征的語義。降維是將高維特征轉(zhuǎn)化為低維空間的過程,旨在保留最具代表性的信息。方法包括線性和非線性技術(shù)。
減少樣本量的方法。實例選擇是減少樣本量或平衡數(shù)據(jù)分布的常用方法,可分為包裝和過濾兩種方法。實例選擇技術(shù)還可通過欠采樣多數(shù)類來緩解數(shù)據(jù)不平衡問題,如隨機欠采樣。強化學(xué)習(xí)也被用于學(xué)習(xí)最佳欠采樣策略。
挑戰(zhàn)。數(shù)據(jù)縮減面臨兩大挑戰(zhàn):一是選擇最具代表性或低維空間中的最小信息損失數(shù)據(jù)不易;二是可能放大數(shù)據(jù)偏差,引發(fā)公平性問題。盡管基于學(xué)習(xí)的方法可部分解決,但處理大數(shù)據(jù)集時需大量計算資源。實現(xiàn)高準確率和效率的雙重目標具挑戰(zhàn)性,公平性感知的數(shù)據(jù)縮減是重要但未充分探索的研究方向。
3.1.5 數(shù)據(jù)增強
數(shù)據(jù)增強是通過人為地創(chuàng)建現(xiàn)有數(shù)據(jù)的變體來增加數(shù)據(jù)的大小和多樣性的技術(shù),這通常可以提高模型性能。值得注意的是,盡管數(shù)據(jù)增強和數(shù)據(jù)縮減似乎具有相互矛盾的目標,但它們可以相互結(jié)合使用。數(shù)據(jù)縮減的重點是消除冗余信息,而數(shù)據(jù)增強的目的是增強數(shù)據(jù)的多樣性。
數(shù)據(jù)增強的必要性。現(xiàn)代機器學(xué)習(xí),特別是深度學(xué)習(xí),需要大量數(shù)據(jù)才能學(xué)習(xí)。收集大型數(shù)據(jù)集,尤其是帶注釋的數(shù)據(jù)集,耗時費力。數(shù)據(jù)增強通過生成變異的類似數(shù)據(jù)點,使模型暴露于更多訓(xùn)練示例中,提高準確度、泛化能力和魯棒性,尤其在可用數(shù)據(jù)有限的應(yīng)用中。數(shù)據(jù)增強還可緩解類不平衡問題。
常見的增強方法。數(shù)據(jù)增強方法分為基礎(chǔ)操作和合成數(shù)據(jù)增強。基礎(chǔ)操作通過修改原始數(shù)據(jù)生成新樣本,如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和模糊,以及使用Mixup和AutoAugment等方法。合成數(shù)據(jù)增強通過生成模型學(xué)習(xí)數(shù)據(jù)分布,如GAN、變分自編碼器和擴散模型,以生成新的訓(xùn)練樣本。這些方法有助于提高模型的泛化能力和性能。
類別不均衡。類別不平衡是機器學(xué)習(xí)的挑戰(zhàn),多數(shù)類別樣本數(shù)量遠超少數(shù)類別。數(shù)據(jù)增強技術(shù)如SMOTE和ADASYN可平衡數(shù)據(jù)分布,通過生成合成樣本增加少數(shù)類別樣本數(shù)量。AutoSMOTE是強化學(xué)習(xí)算法,可搜索最佳過采樣策略。
挑戰(zhàn)。數(shù)據(jù)增強的關(guān)鍵挑戰(zhàn)在于沒有一種策略適用于所有場景,不同數(shù)據(jù)類型可能需要不同策略。例如,圖數(shù)據(jù)無法直接應(yīng)用普通Mixup策略。即使數(shù)據(jù)類型相同,最優(yōu)策略也可能不同。基于搜索的算法可以識別最佳策略,但會增加計算和存儲成本。需要更有效和高效的技術(shù)來克服這些挑戰(zhàn)。
3.1.6 數(shù)據(jù)管道
現(xiàn)實世界中的數(shù)據(jù)管道通常包含多個步驟,每個步驟對應(yīng)不同的子目標。盡管在單個任務(wù)方面取得了進展,但整個管道作為一個整體運行,不同步驟之間可能存在交互。管道搜索是一種自動搜索最佳組合的方法,如AutoSklearn、D3M、AlphaD3M、Deepline和ClusterP3S等算法。然而,管道搜索面臨計算開銷大的挑戰(zhàn),需要更有效的搜索策略,以使其在現(xiàn)實場景中得到更廣泛的應(yīng)用。
在評估人工智能系統(tǒng)時,除了性能指標,還需要考慮模型的穩(wěn)健性、泛化性和決策制定的理由。推理數(shù)據(jù)開發(fā)的目標是創(chuàng)建新穎的評價集,以便更精細地了解模型或通過工程數(shù)據(jù)輸入觸發(fā)模型的特定功能。這項工作有三個子目標:1)分布內(nèi)評估,2)分布外評估,3)提示工程。推理數(shù)據(jù)開發(fā)的任務(wù)相對開放,因為它們通常旨在評估或解鎖模型的多種功能,如圖5所示。表3中總結(jié)了相關(guān)任務(wù)和方法。
圖5 推理數(shù)據(jù)開發(fā)概覽
表3 推理數(shù)據(jù)開發(fā)相關(guān)的任務(wù)和方法
3.2.1 分布內(nèi)評估
分布內(nèi)評估數(shù)據(jù)構(gòu)建的目的是生成符合訓(xùn)練數(shù)據(jù)的樣本。
分布內(nèi)評估的必要性。分布內(nèi)評估是評估訓(xùn)練模型質(zhì)量的直接方法,需要更精細的評估以避免偏差和錯誤。這包括識別和校準未被充分代表的子群體,以及在部署前理解決策邊界和檢查模型倫理,特別是在高風險應(yīng)用中。
數(shù)據(jù)切片。數(shù)據(jù)切片是將數(shù)據(jù)集劃分為相關(guān)亞人群,分別評估模型在每個亞人群上的性能。常見的切片方法包括使用預(yù)定義的標準,如年齡、性別或種族。實際應(yīng)用中的數(shù)據(jù)可能很復(fù)雜,需要適當設(shè)計分區(qū)標準。為了減少人力投入,人們開發(fā)了自動切片方法,如SliceFinder、SliceLine、GEORGE和Multiaccuracy,這些方法可以識別出重要的數(shù)據(jù)切片,提高模型性能。
算法追索權(quán)。算法追索權(quán)是一種通過生成假設(shè)樣本來翻轉(zhuǎn)模型決策以獲得更優(yōu)結(jié)果的方法。它對于理解決策邊界和檢測個體之間的潛在偏見非常有價值。現(xiàn)有方法主要分為白盒和黑盒兩種,白盒方法需要訪問評估模型,黑盒方法不需要訪問模型。由于推理的目標標簽通常由人類輸入,這些方法都要求最小限度的人類參與。
挑戰(zhàn)。構(gòu)建分布式評估集的主要挑戰(zhàn)在于識別目標樣本,特別是在數(shù)據(jù)切片的情況下,隨著數(shù)據(jù)點的增加,可能的數(shù)據(jù)子集數(shù)量呈指數(shù)級增長。同時,在可用信息有限的情況下,確定最接近的資源也需要付出巨大努力。
3.2.2 分布外評估
分布外評估數(shù)據(jù)是指一組樣本遵循與訓(xùn)練數(shù)據(jù)中觀察到的分布不同的分布的。
分布外評估的必要性。現(xiàn)代機器學(xué)習(xí)技術(shù)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在實際部署中,數(shù)據(jù)分布可能不同。分布外評估主要評估模型在數(shù)據(jù)分布不同的情況下的泛化能力,發(fā)現(xiàn)模型的遷移性,增強其在意外情況下的表現(xiàn)信心,并提供關(guān)于模型魯棒性的重要見解。這有助于確定模型是否適合實際部署。
生成對抗式樣本。對抗樣本是故意修改的輸入數(shù)據(jù),導(dǎo)致模型錯誤預(yù)測。手動擾動包括添加噪聲和模糊等,自動化方法有四類:白盒攻擊、物理世界攻擊、黑盒攻擊和中毒攻擊。評估對抗樣本有助于理解模型的魯棒性,避免不良后果。
生成具有分布偏移的樣本。生成具有分布偏移的樣本用于在不同分布上評估模型。數(shù)據(jù)收集和構(gòu)建評估集是兩種方法。合成分布變化包括協(xié)變量偏移、標簽偏移和一般分布偏移。有偏數(shù)據(jù)采樣和基于學(xué)習(xí)的方法可用于生成具有分布偏移的樣本,以評估模型的遷移能力。
挑戰(zhàn)。生成分布外樣本面臨兩個挑戰(zhàn):生成高質(zhì)量的樣本和評估樣本質(zhì)量。生成模型可能受限于訓(xùn)練數(shù)據(jù)不具代表性,或遇到模式崩潰問題。評估樣本質(zhì)量困難,因為常用度量標準可能不適用。已有多種評估指標被提出。創(chuàng)建高質(zhì)量的分布外數(shù)據(jù)是一項復(fù)雜而艱巨的任務(wù),需要精心設(shè)計。
3.2.3??提示工程
隨著大型語言模型的出現(xiàn),通過微調(diào)輸入來獲取知識并完成任務(wù)已成為可能。提示工程是一種新興任務(wù),旨在設(shè)計和構(gòu)建高質(zhì)量的提示,以實現(xiàn)最有效的性能。提示工程通過微調(diào)輸入數(shù)據(jù)而不是模型本身來改變傳統(tǒng)的工作流程。一種方法是通過創(chuàng)建模板進行手動提示工程,但可能不足以發(fā)現(xiàn)復(fù)雜任務(wù)的最佳提示。因此,已經(jīng)研究了自動提示工程,包括從外部語料庫中挖掘模板和用種子提示進行改述。提示工程的主要障礙在于缺乏一致表現(xiàn)良好的通用提示模板,不同的模板可能導(dǎo)致不同的結(jié)果。因此,有必要進行進一步的研究,以深入了解模型對提示的反應(yīng),并為提示設(shè)計過程提供指導(dǎo)。
在現(xiàn)實應(yīng)用中,數(shù)據(jù)并非一次生成,而是不斷更新的,需要進行連續(xù)的維護。數(shù)據(jù)維護的目的是在動態(tài)環(huán)境中確保數(shù)據(jù)的質(zhì)量和可靠性。它涉及三個基本子目標:1)數(shù)據(jù)理解,旨在提供復(fù)雜數(shù)據(jù)的可視化和評估,使人類能夠獲得有價值的見解;2)數(shù)據(jù)質(zhì)量保證,旨在制定定量測量和質(zhì)量改進策略來監(jiān)控和修復(fù)數(shù)據(jù);3)數(shù)據(jù)存儲和檢索,旨在設(shè)計高效的算法,通過合理分配資源和高效率處理查詢來提供所需的數(shù)據(jù)。數(shù)據(jù)維護在以數(shù)據(jù)為中心的人工智能框架中起著基礎(chǔ)和支持作用,確保訓(xùn)練和推斷中的數(shù)據(jù)準確可靠。本節(jié)概述了對數(shù)據(jù)維護的需求、代表性方法(如圖6所示)和挑戰(zhàn)。如圖6所示。表4總結(jié)了相關(guān)任務(wù)和方法。
圖6 數(shù)據(jù)維護概覽
表4 數(shù)據(jù)維護相關(guān)的任務(wù)和方法
3.3.1 數(shù)據(jù)理解
為了確保正確的維護,首先必須了解數(shù)據(jù)。
數(shù)據(jù)理解技術(shù)的必要性。現(xiàn)實世界數(shù)據(jù)量大且復(fù)雜,人類難以理解和分析。數(shù)據(jù)理解技術(shù)至關(guān)重要原因有三:1)總結(jié)和簡化數(shù)據(jù),使其更易于管理;2)將高維數(shù)據(jù)可視化,以適應(yīng)人類感知;3)了解數(shù)據(jù)資產(chǎn)的價值,以及每個數(shù)據(jù)樣本對性能的貢獻。
數(shù)據(jù)可視化。數(shù)據(jù)可視化利用人類對圖形的偏好,幫助理解復(fù)雜數(shù)據(jù)。可視化總結(jié)、可視化聚類和可視化推薦。可視化總結(jié)通過圖表濃縮原始數(shù)據(jù),幫助人們洞察數(shù)據(jù)。選擇合適的可視化格式是關(guān)鍵,徑向圖和線性圖是常見格式,但選擇需權(quán)衡數(shù)據(jù)表示的忠實性和易用性。可視化聚類通過降維和自動聚類方法將高維數(shù)據(jù)可視化。可視化推薦系統(tǒng)根據(jù)預(yù)定義規(guī)則或機器學(xué)習(xí)技術(shù),為用戶推薦最合適的可視化格式。協(xié)作可視化技術(shù)使用戶能提供反饋,實現(xiàn)更自適應(yīng)的用戶體驗。
數(shù)據(jù)評估。數(shù)據(jù)評估旨在了解數(shù)據(jù)點如何影響最終性能,為利益相關(guān)者提供寶貴見解,并有助于數(shù)據(jù)市場交易。研究人員通過估計數(shù)據(jù)點的Shapley值來分配權(quán)重,增強其在多個數(shù)據(jù)集和模型中的魯棒性。由于計算Shapley值可能非常昂貴,上述方法采用基于學(xué)習(xí)算法進行高效估算。
挑戰(zhàn)。兩個主要挑戰(zhàn):一是選擇最佳數(shù)據(jù)可視化格式和算法,如聚類算法,需人類輸入,增加復(fù)雜性;二是開發(fā)高效的數(shù)據(jù)估價算法,如計算Shapley值,計算成本高,且Shapley值可能僅提供有限的數(shù)據(jù)價值角度。
3.3.2 數(shù)據(jù)質(zhì)量保證
為了確保可靠的數(shù)據(jù)供應(yīng),維護數(shù)據(jù)質(zhì)量至關(guān)重要。
數(shù)據(jù)質(zhì)量保證的必要性。在動態(tài)環(huán)境中,持續(xù)監(jiān)控并改進數(shù)據(jù)質(zhì)量至關(guān)重要。實際應(yīng)用中的數(shù)據(jù)可能包含異常數(shù)據(jù)點,因此需要建立定量測量來評估數(shù)據(jù)質(zhì)量。如果模型受到低質(zhì)量數(shù)據(jù)的影響,應(yīng)實施質(zhì)量改進策略以提高數(shù)據(jù)質(zhì)量,進而提高模型性能。
質(zhì)量評估。質(zhì)量評估包括客觀和主觀評估。客觀評估使用數(shù)據(jù)固有屬性,如準確性、時效性、一致性和完整性,來衡量數(shù)據(jù)質(zhì)量,僅需要最小限度的人為參與。主觀評估則從人的角度評估數(shù)據(jù)質(zhì)量,通常針對特定應(yīng)用,需要外部專家進行分析,包括可信度、可理解度和可訪問性等指標,通常通過用戶研究和問卷調(diào)查進行評估。雖然主觀評估可能不會直接有益于模型訓(xùn)練,但它們可以促進組織內(nèi)部的輕松協(xié)作,并提供長期利益。
質(zhì)量改進。質(zhì)量改進策略包括制定戰(zhàn)略以提高數(shù)據(jù)管道各階段的數(shù)據(jù)質(zhì)量。初始方法使用程序化自動化,如完整性約束、拒絕約束和條件函數(shù)依賴,強制執(zhí)行質(zhì)量約束。基于機器學(xué)習(xí)的自動化方法被開發(fā)以提高數(shù)據(jù)質(zhì)量,如數(shù)據(jù)驗證模塊使用訓(xùn)練集訓(xùn)練模型以識別潛在問題。管道自動化方法也被開發(fā)用于系統(tǒng)地策劃數(shù)據(jù),如數(shù)據(jù)集成和數(shù)據(jù)清理。協(xié)作方法鼓勵專業(yè)人士參與數(shù)據(jù)改進,如自動駕駛和視頻內(nèi)容審查中的標注數(shù)據(jù)。UniProt創(chuàng)建了提交系統(tǒng)來利用集體智慧改進數(shù)據(jù)。所有方法都需要部分人的參與,因為人類必須提供信息。
挑戰(zhàn)。數(shù)據(jù)質(zhì)量面臨兩個挑戰(zhàn):選擇合適的評估指標和實施質(zhì)量改進。單一指標可能不足以應(yīng)對不斷變化的環(huán)境,需要仔細考慮。盡管自動化是關(guān)鍵,但人工參與可能也是必要的。因此,必須仔細設(shè)計評估指標和改進策略。
3.3.3 數(shù)據(jù)存儲和檢索
數(shù)據(jù)存儲和檢索系統(tǒng)在為構(gòu)建AI系統(tǒng)提供必要數(shù)據(jù)方面發(fā)揮著不可或缺的作用。為了加快數(shù)據(jù)獲取的過程,已經(jīng)提出了各種有效的策略。
數(shù)據(jù)存儲與檢索的必要性。隨著數(shù)據(jù)量指數(shù)增長,強大的可擴展數(shù)據(jù)管理系統(tǒng)對于支持AI模型訓(xùn)練至關(guān)重要。這包括:1)存儲和合并來自不同來源的數(shù)據(jù),需要仔細管理內(nèi)存和計算資源;2)設(shè)計快速獲取數(shù)據(jù)的查詢策略以確保數(shù)據(jù)的及時和準確處理。
資源分配。資源分配是優(yōu)化數(shù)據(jù)管理系統(tǒng)的關(guān)鍵。吞吐量和延遲是重要指標,可通過參數(shù)調(diào)優(yōu)技術(shù)進行優(yōu)化。早期的調(diào)優(yōu)方法依賴經(jīng)驗和行業(yè)最佳實踐,而基于學(xué)習(xí)的策略如Starfish和OtterTune可自動選擇參數(shù),提高資源分配的靈活性。
查詢加速。可以通過高效索引選擇和查詢重寫策略來實現(xiàn)。查詢索引選擇的目標是減少磁盤訪問次數(shù)。策略是創(chuàng)建索引方案并記錄查詢執(zhí)行成本,然后使用貪婪算法或動態(tài)規(guī)劃選擇策略。基于學(xué)習(xí)的自動化策略從人類專家那里收集索引數(shù)據(jù),并訓(xùn)練機器學(xué)習(xí)模型來預(yù)測適當?shù)乃饕呗裕蛘呤褂脧娀瘜W(xué)習(xí)來搜索最佳策略。查詢重寫旨在通過識別輸入查詢中的重復(fù)子查詢來減少工作負載。基于規(guī)則的策略使用預(yù)定義規(guī)則重寫查詢,例如DBridge。基于學(xué)習(xí)的方法使用監(jiān)督學(xué)習(xí)或強化學(xué)習(xí)來預(yù)測查詢重寫規(guī)則。
挑戰(zhàn)。現(xiàn)有數(shù)據(jù)存儲和檢索方法主要優(yōu)化特定部分,如資源分配和查詢加速。然而,整個數(shù)據(jù)管理系統(tǒng)復(fù)雜,需處理各種格式和結(jié)構(gòu)的大量數(shù)據(jù),端到端優(yōu)化具挑戰(zhàn)性。此外,數(shù)據(jù)存儲和檢索還需考慮數(shù)據(jù)訪問控制和系統(tǒng)維護等關(guān)鍵方面。
以數(shù)據(jù)為中心的人工智能涉及數(shù)據(jù)生命周期各階段的任務(wù),根據(jù)是否需要人類參與分為自動化和協(xié)作兩大類。每種方法都有不同的自動化程度或需要不同程度的人類參與,如圖7所示。自動化任務(wù)涉及編程自動化、基于學(xué)習(xí)的自動化和流水線自動化,以提高效率和準確性。協(xié)作任務(wù)需要不同程度的人工參與,包括完全參與、部分參與和最低參與。這種分類有助于理解不同方法如何應(yīng)用于不同的以數(shù)據(jù)為中心的目標,并實現(xiàn)效率和效果的權(quán)衡。
本文章轉(zhuǎn)載微信公眾號@算法進階