久久不卡免费视频,精品免费视频一卡2卡三卡4卡不卡,天天做天天玩天天爽天天

Data-centric Artificial Intelligence（DCAI）可以概括為數(shù)據(jù)工程，主要探索如何高效地構(gòu)建高質(zhì)量、大規(guī)模的數(shù)據(jù)集。顯而易見，數(shù)據(jù)工程并不是一個新概念，而是一個“被冷落”的舊概念。傳統(tǒng)的機器學(xué)習(xí)開發(fā)流程可以歸為下圖的流程：

我們可以簡單將機器學(xué)習(xí)開發(fā)劃為3個方面的主要工作：

數(shù)據(jù)工程：主要有數(shù)據(jù)清洗，數(shù)據(jù)轉(zhuǎn)換，樣本準備，標簽標注，樣本選擇等。
特征工程：特征設(shè)計衍生，特征選擇等；
模型訓(xùn)練：模型選擇，模型結(jié)構(gòu)，調(diào)參，模型評估等；

現(xiàn)在普遍的，AI以模型為中心（Model-centric），對于機器學(xué)習(xí)的開發(fā)者，數(shù)據(jù)樣本很經(jīng)常是固定的，特征工程及模型優(yōu)化是重中之重，從見效、技術(shù)亮點都是妥妥的主角。而數(shù)據(jù)工程（或稱為Data-centric）的工作經(jīng)常是臟活累活，對模型的重要性經(jīng)常被忽視，相關(guān)的技術(shù)發(fā)展也比較少。

可能是隨著深度學(xué)習(xí)端對端學(xué)習(xí)弱化了對特征工程的依賴，以及越來崇尚的大模型的暴力美學(xué)，數(shù)據(jù)對模型效果也得到更多的重視了，畢竟Garbage in, garbage out！

1 Why DCAI ？

過去，人工智能主要關(guān)注設(shè)計模型，但這種方法過度依賴固定數(shù)據(jù)集，難以實現(xiàn)更好的模型行為。現(xiàn)在，人們更加注重提高數(shù)據(jù)的質(zhì)量和數(shù)量，同時保持模型的相對固定。這種轉(zhuǎn)變已經(jīng)取得了一些成功，例如大型語言模型的進步和ChatGPT等應(yīng)用。以數(shù)據(jù)為中心的方法具有許多優(yōu)點，包括提高準確性、縮短開發(fā)時間、增強方法和一致性以及提高可擴展性。此外，以數(shù)據(jù)為中心的人工智能并沒有降低以模型為中心的人工智能的價值，這兩種范式是互補交織的，可以相互促進發(fā)展。在生產(chǎn)環(huán)境中，數(shù)據(jù)和模型往往在一個不斷變化的環(huán)境中交替發(fā)展。

2 基本概念

Artificial Intelligence （AI）：人工智能是一個廣泛且跨學(xué)科的領(lǐng)域，它試圖使計算機具備人類智能以解決復(fù)雜任務(wù)。人工智能的主導(dǎo)技術(shù)是機器學(xué)習(xí)，它利用數(shù)據(jù)訓(xùn)練預(yù)測模型以完成某些任務(wù)。
Data：數(shù)據(jù)是一個非常普遍的概念，用于描述傳遞信息的值集合。在人工智能的上下文中，數(shù)據(jù)用于訓(xùn)練機器學(xué)習(xí)模型或作為模型輸入以進行預(yù)測。數(shù)據(jù)可以以各種格式出現(xiàn)，例如表格數(shù)據(jù)、圖像、文本、音頻和視頻。
Training Data：訓(xùn)練數(shù)據(jù)是機器學(xué)習(xí)模型訓(xùn)練階段所使用的數(shù)據(jù)。模型利用訓(xùn)練數(shù)據(jù)來調(diào)整其參數(shù)并進行預(yù)測。
Inference Data：推理數(shù)據(jù)是機器學(xué)習(xí)模型推理階段使用的數(shù)據(jù)。一方面，它可以評估訓(xùn)練后的模型性能。另一方面，調(diào)整推理數(shù)據(jù)可以幫助獲得期望的輸出，例如調(diào)整語言模型的提示。
Data Maintenance：數(shù)據(jù)維護是指維護數(shù)據(jù)質(zhì)量和可靠性的過程，通常涉及高效的算法、工具和基礎(chǔ)設(shè)施來理解和調(diào)試數(shù)據(jù)。數(shù)據(jù)維護在人工智能中起著至關(guān)重要的作用，因為它確保訓(xùn)練和推理數(shù)據(jù)的準確性和一致性。
Data-centric AI：以數(shù)據(jù)為中心的人工智能是指一個為人工智能系統(tǒng)開發(fā)、迭代和維護數(shù)據(jù)的框架。以數(shù)據(jù)為中心的人工智能涉及構(gòu)建有效訓(xùn)練數(shù)據(jù)、設(shè)計適當?shù)耐茢鄶?shù)據(jù)和維護數(shù)據(jù)的任務(wù)和方法。

3 以數(shù)據(jù)為中心的人工智能任務(wù)

我們將以數(shù)據(jù)為中心的人工智能分為三個目標：訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護。

3.1 訓(xùn)練數(shù)據(jù)開發(fā)

訓(xùn)練數(shù)據(jù)為機器學(xué)習(xí)模型提供了基礎(chǔ)，因為模型性能在很大程度上受其質(zhì)量和數(shù)量的影響。訓(xùn)練數(shù)據(jù)開發(fā)的目的是收集和生成豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)來支持機器學(xué)習(xí)模型的訓(xùn)練，包括五個子目標，分別為：1）數(shù)據(jù)收集，2）數(shù)據(jù)標注，3）數(shù)據(jù)準備，4）數(shù)據(jù)縮減，5）數(shù)據(jù)增強。最后我們將討論管道搜索，這是一種新興趨勢，旨在連接這些步驟并搜索最有效的端到端解決方案。

創(chuàng)建和處理訓(xùn)練數(shù)據(jù)的基本步驟，如圖4所示。

圖4 訓(xùn)練數(shù)據(jù)開發(fā)通用流程概覽

表2總結(jié)了訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法。

表2 訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法

3.1.1 數(shù)據(jù)收集

數(shù)據(jù)收集是從各種來源收集和獲取數(shù)據(jù)的過程，從根本上決定了數(shù)據(jù)的質(zhì)量和數(shù)量。這個過程嚴重依賴于領(lǐng)域知識。隨著數(shù)據(jù)可用性的增加，高效利用現(xiàn)有數(shù)據(jù)集的策略的發(fā)展出現(xiàn)了激增。

領(lǐng)域知識的作用。深入了解應(yīng)用領(lǐng)域或行業(yè)對于收集相關(guān)和代表性數(shù)據(jù)至關(guān)重要。在構(gòu)建推薦系統(tǒng)時，需要根據(jù)應(yīng)用領(lǐng)域決定收集哪些用戶/項目特征。領(lǐng)域知識有助于使數(shù)據(jù)與利益相關(guān)者的意圖保持一致，并確保數(shù)據(jù)的相關(guān)性和代表性。

高效的數(shù)據(jù)收集策略。高效數(shù)據(jù)收集策略包括利用現(xiàn)有數(shù)據(jù)，通過發(fā)現(xiàn)、集成和合成的方法，提高數(shù)據(jù)收集效率。與傳統(tǒng)的手動收集方法相比，這些方法更省時。數(shù)據(jù)集發(fā)現(xiàn)通過匯集現(xiàn)有數(shù)據(jù)集，根據(jù)人類查詢識別相關(guān)和有用的數(shù)據(jù)集。數(shù)據(jù)集成將不同來源的數(shù)據(jù)集整合成一個統(tǒng)一的數(shù)據(jù)集。原始數(shù)據(jù)合成通過合成包含所需模式的數(shù)據(jù)集，例如在異常檢測場景中，合成異常模式以提高數(shù)據(jù)收集效率。這些策略有助于提高數(shù)據(jù)收集效率，減少人工工作量。

挑戰(zhàn)。數(shù)據(jù)收集工作面臨著諸多嚴峻的挑戰(zhàn)，包括數(shù)據(jù)集的多樣性、對齊的困難、合成數(shù)據(jù)所需的領(lǐng)域知識，以及法律、倫理和物流方面的限制。從零開始收集數(shù)據(jù)可能會遇到知情同意、數(shù)據(jù)隱私和數(shù)據(jù)安全等問題所帶來的阻礙。因此，研究人員和實踐者必須充分了解并認真對待這些挑戰(zhàn)。

3.1.2 數(shù)據(jù)標注

數(shù)據(jù)標注是將一個或多個描述性標簽或標記分配給數(shù)據(jù)集的過程，使算法能夠從標記的數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測。傳統(tǒng)上，這是一個耗時且資源密集的手動過程，特別是對于大型數(shù)據(jù)集。最近，提出了更有效的標注方法來減少人力。

數(shù)據(jù)標注的必要性。數(shù)據(jù)標注在訓(xùn)練模型以準確反映人類意圖方面至關(guān)重要。無監(jiān)督學(xué)習(xí)技術(shù)在部分領(lǐng)域取得了成功，但為了獲得更好的性能，通常仍需使用人類標簽來微調(diào)大型語言模型和異常檢測器。因此，標注數(shù)據(jù)對于教導(dǎo)模型與人類對齊和表現(xiàn)至關(guān)重要。

高效的標注策略。高效標注策略包括眾包標注、半監(jiān)督標注、主動學(xué)習(xí)、數(shù)據(jù)編程和遠程監(jiān)督。眾包標注將任務(wù)分解給大量非專業(yè)注釋者，通過迭代完善任務(wù)設(shè)計、要求多個工作人員注釋相同樣本并推斷共識標簽、或利用算法提高標簽質(zhì)量來提高效率。半監(jiān)督學(xué)習(xí)利用少量帶標簽的數(shù)據(jù)來推斷未標注數(shù)據(jù)的標簽，如自訓(xùn)練、訓(xùn)練多個分類器并找到共識標簽、基于圖的半監(jiān)督學(xué)習(xí)標注技術(shù)或基于人類反饋的強化學(xué)習(xí)過程。主動學(xué)習(xí)是一種迭代式標注過程，需要人類不斷提供信息以自適應(yīng)地選擇查詢。數(shù)據(jù)編程是一種基于人類設(shè)計標注函數(shù)的弱監(jiān)督方法，通常需要最少的人類參與。遠程監(jiān)管通過利用外部資源來分配標簽，如關(guān)系提取。這些策略可以組合為混合策略，以提高標注效率。

挑戰(zhàn)。數(shù)據(jù)標注面臨的主要挑戰(zhàn)包括如何在標注質(zhì)量、數(shù)量和經(jīng)濟成本之間找到平衡，以及如何應(yīng)對標注的主觀性和倫理問題。當預(yù)算緊張時，需要采取更高效的標注策略，并利用領(lǐng)域知識來平衡人力和標注質(zhì)量/數(shù)量。此外，設(shè)計者需要確保指示清晰，以避免注釋者誤解，導(dǎo)致標注噪音。最后，數(shù)據(jù)隱私和偏見等倫理問題在標注任務(wù)分發(fā)給大量人群時尤為突出。

3.1.3 數(shù)據(jù)準備

數(shù)據(jù)準備涉及清理和轉(zhuǎn)換原始數(shù)據(jù)，以適應(yīng)模型訓(xùn)練的格式。通常，這個過程需要大量的工程工作，需要繁瑣的試錯。為了實現(xiàn)這個過程的自動化，最先進的方法通常采用搜索算法來發(fā)現(xiàn)最有效的策略。

數(shù)據(jù)準備的必要性。原始數(shù)據(jù)通常不適合模型訓(xùn)練，需要清理和轉(zhuǎn)換。數(shù)據(jù)準備占數(shù)據(jù)科學(xué)家工作的約80%，因為原始數(shù)據(jù)可能存在噪聲、不一致性和無關(guān)信息，導(dǎo)致模型結(jié)果不準確和有偏。此外，敏感信息可能引入偏見，原始特征值也可能影響模型性能。

代表性方法。數(shù)據(jù)清理、特征提取和特征轉(zhuǎn)換。數(shù)據(jù)清理包括識別和糾正數(shù)據(jù)集中的錯誤、不一致和不準確，包括傳統(tǒng)編程方法和基于學(xué)習(xí)的方法。傳統(tǒng)方法使用編程自動化，但基于學(xué)習(xí)的方法如訓(xùn)練回歸模型預(yù)測缺失值、通過抽樣估計重復(fù)項和糾正標簽錯誤，提高了準確性和效率。當代數(shù)據(jù)清理方法關(guān)注提高最終模型性能，例如采用搜索算法自動識別最佳清理策略。特征提取是從原始數(shù)據(jù)中提取相關(guān)特征的重要步驟，包括深度學(xué)習(xí)和傳統(tǒng)方法。深度學(xué)習(xí)通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重來自動提取特征，需要較少的領(lǐng)域知識。特征變換是指將原始特征轉(zhuǎn)換為新特征集的過程，通常可以提高模型性能，如歸一化、標準化、對數(shù)變換和多項式變換等。這些方法可以以不同的方式組合以改善模型性能。

挑戰(zhàn)。清洗和轉(zhuǎn)換數(shù)據(jù)是一項挑戰(zhàn)，因為不同數(shù)據(jù)集的特性各異。即使數(shù)據(jù)類型相同，特征值和潛在問題也可能非常多樣化。研究人員和數(shù)據(jù)科學(xué)家需要投入大量時間和精力來清洗數(shù)據(jù)。雖然基于學(xué)習(xí)的方法可以自動搜索最佳準備策略，但設(shè)計適當?shù)乃阉骺臻g仍然困難，且搜索過程耗時。

3.1.4 數(shù)據(jù)縮減

數(shù)據(jù)縮減的目標是在保留其基本信息的同時降低給定數(shù)據(jù)集的復(fù)雜性。這通常可以通過降低特征大小或樣本大小來實現(xiàn)。

數(shù)據(jù)縮減的必要性。數(shù)據(jù)縮減在提高訓(xùn)練效率方面至關(guān)重要，可減少樣本數(shù)量和特征大小，緩解內(nèi)存和計算約束，以及數(shù)據(jù)不平衡問題。壓縮特征可降低過擬合風險，提高模型部署速度和可解釋性。總體而言，數(shù)據(jù)縮減技術(shù)有助于提高模型準確性、效率和可解釋性。

減少特征規(guī)模的方法。從特征的角度，可以進行特征選擇和降維。特征選擇是從一組特征中選擇與預(yù)期任務(wù)最相關(guān)的子集的過程，分為過濾、包裝和嵌入式方法。主動特征選擇還考慮了人類知識，逐步選擇最合適的特征。特征選擇降低了復(fù)雜性，產(chǎn)生更清潔和更易理解的數(shù)據(jù)，同時保留了特征的語義。降維是將高維特征轉(zhuǎn)化為低維空間的過程，旨在保留最具代表性的信息。方法包括線性和非線性技術(shù)。

減少樣本量的方法。實例選擇是減少樣本量或平衡數(shù)據(jù)分布的常用方法，可分為包裝和過濾兩種方法。實例選擇技術(shù)還可通過欠采樣多數(shù)類來緩解數(shù)據(jù)不平衡問題，如隨機欠采樣。強化學(xué)習(xí)也被用于學(xué)習(xí)最佳欠采樣策略。

挑戰(zhàn)。數(shù)據(jù)縮減面臨兩大挑戰(zhàn)：一是選擇最具代表性或低維空間中的最小信息損失數(shù)據(jù)不易；二是可能放大數(shù)據(jù)偏差，引發(fā)公平性問題。盡管基于學(xué)習(xí)的方法可部分解決，但處理大數(shù)據(jù)集時需大量計算資源。實現(xiàn)高準確率和效率的雙重目標具挑戰(zhàn)性，公平性感知的數(shù)據(jù)縮減是重要但未充分探索的研究方向。

3.1.5 數(shù)據(jù)增強

數(shù)據(jù)增強是通過人為地創(chuàng)建現(xiàn)有數(shù)據(jù)的變體來增加數(shù)據(jù)的大小和多樣性的技術(shù)，這通常可以提高模型性能。值得注意的是，盡管數(shù)據(jù)增強和數(shù)據(jù)縮減似乎具有相互矛盾的目標，但它們可以相互結(jié)合使用。數(shù)據(jù)縮減的重點是消除冗余信息，而數(shù)據(jù)增強的目的是增強數(shù)據(jù)的多樣性。

數(shù)據(jù)增強的必要性。現(xiàn)代機器學(xué)習(xí)，特別是深度學(xué)習(xí)，需要大量數(shù)據(jù)才能學(xué)習(xí)。收集大型數(shù)據(jù)集，尤其是帶注釋的數(shù)據(jù)集，耗時費力。數(shù)據(jù)增強通過生成變異的類似數(shù)據(jù)點，使模型暴露于更多訓(xùn)練示例中，提高準確度、泛化能力和魯棒性，尤其在可用數(shù)據(jù)有限的應(yīng)用中。數(shù)據(jù)增強還可緩解類不平衡問題。

常見的增強方法。數(shù)據(jù)增強方法分為基礎(chǔ)操作和合成數(shù)據(jù)增強。基礎(chǔ)操作通過修改原始數(shù)據(jù)生成新樣本，如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和模糊，以及使用Mixup和AutoAugment等方法。合成數(shù)據(jù)增強通過生成模型學(xué)習(xí)數(shù)據(jù)分布，如GAN、變分自編碼器和擴散模型，以生成新的訓(xùn)練樣本。這些方法有助于提高模型的泛化能力和性能。

類別不均衡。類別不平衡是機器學(xué)習(xí)的挑戰(zhàn)，多數(shù)類別樣本數(shù)量遠超少數(shù)類別。數(shù)據(jù)增強技術(shù)如SMOTE和ADASYN可平衡數(shù)據(jù)分布，通過生成合成樣本增加少數(shù)類別樣本數(shù)量。AutoSMOTE是強化學(xué)習(xí)算法，可搜索最佳過采樣策略。

挑戰(zhàn)。數(shù)據(jù)增強的關(guān)鍵挑戰(zhàn)在于沒有一種策略適用于所有場景，不同數(shù)據(jù)類型可能需要不同策略。例如，圖數(shù)據(jù)無法直接應(yīng)用普通Mixup策略。即使數(shù)據(jù)類型相同，最優(yōu)策略也可能不同。基于搜索的算法可以識別最佳策略，但會增加計算和存儲成本。需要更有效和高效的技術(shù)來克服這些挑戰(zhàn)。

3.1.6 數(shù)據(jù)管道

現(xiàn)實世界中的數(shù)據(jù)管道通常包含多個步驟，每個步驟對應(yīng)不同的子目標。盡管在單個任務(wù)方面取得了進展，但整個管道作為一個整體運行，不同步驟之間可能存在交互。管道搜索是一種自動搜索最佳組合的方法，如AutoSklearn、D3M、AlphaD3M、Deepline和ClusterP3S等算法。然而，管道搜索面臨計算開銷大的挑戰(zhàn)，需要更有效的搜索策略，以使其在現(xiàn)實場景中得到更廣泛的應(yīng)用。

3.2 推理數(shù)據(jù)開發(fā)

在評估人工智能系統(tǒng)時，除了性能指標，還需要考慮模型的穩(wěn)健性、泛化性和決策制定的理由。推理數(shù)據(jù)開發(fā)的目標是創(chuàng)建新穎的評價集，以便更精細地了解模型或通過工程數(shù)據(jù)輸入觸發(fā)模型的特定功能。這項工作有三個子目標：1）分布內(nèi)評估，2）分布外評估，3）提示工程。推理數(shù)據(jù)開發(fā)的任務(wù)相對開放，因為它們通常旨在評估或解鎖模型的多種功能，如圖5所示。表3中總結(jié)了相關(guān)任務(wù)和方法。

圖5 推理數(shù)據(jù)開發(fā)概覽

表3 推理數(shù)據(jù)開發(fā)相關(guān)的任務(wù)和方法

3.2.1 分布內(nèi)評估

分布內(nèi)評估數(shù)據(jù)構(gòu)建的目的是生成符合訓(xùn)練數(shù)據(jù)的樣本。

分布內(nèi)評估的必要性。分布內(nèi)評估是評估訓(xùn)練模型質(zhì)量的直接方法，需要更精細的評估以避免偏差和錯誤。這包括識別和校準未被充分代表的子群體，以及在部署前理解決策邊界和檢查模型倫理，特別是在高風險應(yīng)用中。

數(shù)據(jù)切片。數(shù)據(jù)切片是將數(shù)據(jù)集劃分為相關(guān)亞人群，分別評估模型在每個亞人群上的性能。常見的切片方法包括使用預(yù)定義的標準，如年齡、性別或種族。實際應(yīng)用中的數(shù)據(jù)可能很復(fù)雜，需要適當設(shè)計分區(qū)標準。為了減少人力投入，人們開發(fā)了自動切片方法，如SliceFinder、SliceLine、GEORGE和Multiaccuracy，這些方法可以識別出重要的數(shù)據(jù)切片，提高模型性能。

算法追索權(quán)。算法追索權(quán)是一種通過生成假設(shè)樣本來翻轉(zhuǎn)模型決策以獲得更優(yōu)結(jié)果的方法。它對于理解決策邊界和檢測個體之間的潛在偏見非常有價值。現(xiàn)有方法主要分為白盒和黑盒兩種，白盒方法需要訪問評估模型，黑盒方法不需要訪問模型。由于推理的目標標簽通常由人類輸入，這些方法都要求最小限度的人類參與。

挑戰(zhàn)。構(gòu)建分布式評估集的主要挑戰(zhàn)在于識別目標樣本，特別是在數(shù)據(jù)切片的情況下，隨著數(shù)據(jù)點的增加，可能的數(shù)據(jù)子集數(shù)量呈指數(shù)級增長。同時，在可用信息有限的情況下，確定最接近的資源也需要付出巨大努力。

3.2.2 分布外評估

分布外評估數(shù)據(jù)是指一組樣本遵循與訓(xùn)練數(shù)據(jù)中觀察到的分布不同的分布的。

分布外評估的必要性。現(xiàn)代機器學(xué)習(xí)技術(shù)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，但在實際部署中，數(shù)據(jù)分布可能不同。分布外評估主要評估模型在數(shù)據(jù)分布不同的情況下的泛化能力，發(fā)現(xiàn)模型的遷移性，增強其在意外情況下的表現(xiàn)信心，并提供關(guān)于模型魯棒性的重要見解。這有助于確定模型是否適合實際部署。

生成對抗式樣本。對抗樣本是故意修改的輸入數(shù)據(jù)，導(dǎo)致模型錯誤預(yù)測。手動擾動包括添加噪聲和模糊等，自動化方法有四類：白盒攻擊、物理世界攻擊、黑盒攻擊和中毒攻擊。評估對抗樣本有助于理解模型的魯棒性，避免不良后果。

生成具有分布偏移的樣本。生成具有分布偏移的樣本用于在不同分布上評估模型。數(shù)據(jù)收集和構(gòu)建評估集是兩種方法。合成分布變化包括協(xié)變量偏移、標簽偏移和一般分布偏移。有偏數(shù)據(jù)采樣和基于學(xué)習(xí)的方法可用于生成具有分布偏移的樣本，以評估模型的遷移能力。

挑戰(zhàn)。生成分布外樣本面臨兩個挑戰(zhàn)：生成高質(zhì)量的樣本和評估樣本質(zhì)量。生成模型可能受限于訓(xùn)練數(shù)據(jù)不具代表性，或遇到模式崩潰問題。評估樣本質(zhì)量困難，因為常用度量標準可能不適用。已有多種評估指標被提出。創(chuàng)建高質(zhì)量的分布外數(shù)據(jù)是一項復(fù)雜而艱巨的任務(wù)，需要精心設(shè)計。

3.2.3??提示工程

隨著大型語言模型的出現(xiàn)，通過微調(diào)輸入來獲取知識并完成任務(wù)已成為可能。提示工程是一種新興任務(wù)，旨在設(shè)計和構(gòu)建高質(zhì)量的提示，以實現(xiàn)最有效的性能。提示工程通過微調(diào)輸入數(shù)據(jù)而不是模型本身來改變傳統(tǒng)的工作流程。一種方法是通過創(chuàng)建模板進行手動提示工程，但可能不足以發(fā)現(xiàn)復(fù)雜任務(wù)的最佳提示。因此，已經(jīng)研究了自動提示工程，包括從外部語料庫中挖掘模板和用種子提示進行改述。提示工程的主要障礙在于缺乏一致表現(xiàn)良好的通用提示模板，不同的模板可能導(dǎo)致不同的結(jié)果。因此，有必要進行進一步的研究，以深入了解模型對提示的反應(yīng)，并為提示設(shè)計過程提供指導(dǎo)。

3.3 數(shù)據(jù)維護

在現(xiàn)實應(yīng)用中，數(shù)據(jù)并非一次生成，而是不斷更新的，需要進行連續(xù)的維護。數(shù)據(jù)維護的目的是在動態(tài)環(huán)境中確保數(shù)據(jù)的質(zhì)量和可靠性。它涉及三個基本子目標：1）數(shù)據(jù)理解，旨在提供復(fù)雜數(shù)據(jù)的可視化和評估，使人類能夠獲得有價值的見解；2）數(shù)據(jù)質(zhì)量保證，旨在制定定量測量和質(zhì)量改進策略來監(jiān)控和修復(fù)數(shù)據(jù)；3）數(shù)據(jù)存儲和檢索，旨在設(shè)計高效的算法，通過合理分配資源和高效率處理查詢來提供所需的數(shù)據(jù)。數(shù)據(jù)維護在以數(shù)據(jù)為中心的人工智能框架中起著基礎(chǔ)和支持作用，確保訓(xùn)練和推斷中的數(shù)據(jù)準確可靠。本節(jié)概述了對數(shù)據(jù)維護的需求、代表性方法（如圖6所示）和挑戰(zhàn)。如圖6所示。表4總結(jié)了相關(guān)任務(wù)和方法。

圖6 數(shù)據(jù)維護概覽

表4 數(shù)據(jù)維護相關(guān)的任務(wù)和方法

3.3.1 數(shù)據(jù)理解

為了確保正確的維護，首先必須了解數(shù)據(jù)。

數(shù)據(jù)理解技術(shù)的必要性。現(xiàn)實世界數(shù)據(jù)量大且復(fù)雜，人類難以理解和分析。數(shù)據(jù)理解技術(shù)至關(guān)重要原因有三：1）總結(jié)和簡化數(shù)據(jù)，使其更易于管理；2）將高維數(shù)據(jù)可視化，以適應(yīng)人類感知；3）了解數(shù)據(jù)資產(chǎn)的價值，以及每個數(shù)據(jù)樣本對性能的貢獻。

數(shù)據(jù)可視化。數(shù)據(jù)可視化利用人類對圖形的偏好，幫助理解復(fù)雜數(shù)據(jù)。可視化總結(jié)、可視化聚類和可視化推薦。可視化總結(jié)通過圖表濃縮原始數(shù)據(jù)，幫助人們洞察數(shù)據(jù)。選擇合適的可視化格式是關(guān)鍵，徑向圖和線性圖是常見格式，但選擇需權(quán)衡數(shù)據(jù)表示的忠實性和易用性。可視化聚類通過降維和自動聚類方法將高維數(shù)據(jù)可視化。可視化推薦系統(tǒng)根據(jù)預(yù)定義規(guī)則或機器學(xué)習(xí)技術(shù)，為用戶推薦最合適的可視化格式。協(xié)作可視化技術(shù)使用戶能提供反饋，實現(xiàn)更自適應(yīng)的用戶體驗。

數(shù)據(jù)評估。數(shù)據(jù)評估旨在了解數(shù)據(jù)點如何影響最終性能，為利益相關(guān)者提供寶貴見解，并有助于數(shù)據(jù)市場交易。研究人員通過估計數(shù)據(jù)點的Shapley值來分配權(quán)重，增強其在多個數(shù)據(jù)集和模型中的魯棒性。由于計算Shapley值可能非常昂貴，上述方法采用基于學(xué)習(xí)算法進行高效估算。

挑戰(zhàn)。兩個主要挑戰(zhàn)：一是選擇最佳數(shù)據(jù)可視化格式和算法，如聚類算法，需人類輸入，增加復(fù)雜性；二是開發(fā)高效的數(shù)據(jù)估價算法，如計算Shapley值，計算成本高，且Shapley值可能僅提供有限的數(shù)據(jù)價值角度。

3.3.2 數(shù)據(jù)質(zhì)量保證

為了確保可靠的數(shù)據(jù)供應(yīng)，維護數(shù)據(jù)質(zhì)量至關(guān)重要。

數(shù)據(jù)質(zhì)量保證的必要性。在動態(tài)環(huán)境中，持續(xù)監(jiān)控并改進數(shù)據(jù)質(zhì)量至關(guān)重要。實際應(yīng)用中的數(shù)據(jù)可能包含異常數(shù)據(jù)點，因此需要建立定量測量來評估數(shù)據(jù)質(zhì)量。如果模型受到低質(zhì)量數(shù)據(jù)的影響，應(yīng)實施質(zhì)量改進策略以提高數(shù)據(jù)質(zhì)量，進而提高模型性能。

質(zhì)量評估。質(zhì)量評估包括客觀和主觀評估。客觀評估使用數(shù)據(jù)固有屬性，如準確性、時效性、一致性和完整性，來衡量數(shù)據(jù)質(zhì)量，僅需要最小限度的人為參與。主觀評估則從人的角度評估數(shù)據(jù)質(zhì)量，通常針對特定應(yīng)用，需要外部專家進行分析，包括可信度、可理解度和可訪問性等指標，通常通過用戶研究和問卷調(diào)查進行評估。雖然主觀評估可能不會直接有益于模型訓(xùn)練，但它們可以促進組織內(nèi)部的輕松協(xié)作，并提供長期利益。

質(zhì)量改進。質(zhì)量改進策略包括制定戰(zhàn)略以提高數(shù)據(jù)管道各階段的數(shù)據(jù)質(zhì)量。初始方法使用程序化自動化，如完整性約束、拒絕約束和條件函數(shù)依賴，強制執(zhí)行質(zhì)量約束。基于機器學(xué)習(xí)的自動化方法被開發(fā)以提高數(shù)據(jù)質(zhì)量，如數(shù)據(jù)驗證模塊使用訓(xùn)練集訓(xùn)練模型以識別潛在問題。管道自動化方法也被開發(fā)用于系統(tǒng)地策劃數(shù)據(jù)，如數(shù)據(jù)集成和數(shù)據(jù)清理。協(xié)作方法鼓勵專業(yè)人士參與數(shù)據(jù)改進，如自動駕駛和視頻內(nèi)容審查中的標注數(shù)據(jù)。UniProt創(chuàng)建了提交系統(tǒng)來利用集體智慧改進數(shù)據(jù)。所有方法都需要部分人的參與，因為人類必須提供信息。

挑戰(zhàn)。數(shù)據(jù)質(zhì)量面臨兩個挑戰(zhàn)：選擇合適的評估指標和實施質(zhì)量改進。單一指標可能不足以應(yīng)對不斷變化的環(huán)境，需要仔細考慮。盡管自動化是關(guān)鍵，但人工參與可能也是必要的。因此，必須仔細設(shè)計評估指標和改進策略。

3.3.3 數(shù)據(jù)存儲和檢索

數(shù)據(jù)存儲和檢索系統(tǒng)在為構(gòu)建AI系統(tǒng)提供必要數(shù)據(jù)方面發(fā)揮著不可或缺的作用。為了加快數(shù)據(jù)獲取的過程，已經(jīng)提出了各種有效的策略。

數(shù)據(jù)存儲與檢索的必要性。隨著數(shù)據(jù)量指數(shù)增長，強大的可擴展數(shù)據(jù)管理系統(tǒng)對于支持AI模型訓(xùn)練至關(guān)重要。這包括：1）存儲和合并來自不同來源的數(shù)據(jù)，需要仔細管理內(nèi)存和計算資源；2）設(shè)計快速獲取數(shù)據(jù)的查詢策略以確保數(shù)據(jù)的及時和準確處理。

資源分配。資源分配是優(yōu)化數(shù)據(jù)管理系統(tǒng)的關(guān)鍵。吞吐量和延遲是重要指標，可通過參數(shù)調(diào)優(yōu)技術(shù)進行優(yōu)化。早期的調(diào)優(yōu)方法依賴經(jīng)驗和行業(yè)最佳實踐，而基于學(xué)習(xí)的策略如Starfish和OtterTune可自動選擇參數(shù)，提高資源分配的靈活性。

查詢加速。可以通過高效索引選擇和查詢重寫策略來實現(xiàn)。查詢索引選擇的目標是減少磁盤訪問次數(shù)。策略是創(chuàng)建索引方案并記錄查詢執(zhí)行成本，然后使用貪婪算法或動態(tài)規(guī)劃選擇策略。基于學(xué)習(xí)的自動化策略從人類專家那里收集索引數(shù)據(jù)，并訓(xùn)練機器學(xué)習(xí)模型來預(yù)測適當?shù)乃饕呗裕蛘呤褂脧娀瘜W(xué)習(xí)來搜索最佳策略。查詢重寫旨在通過識別輸入查詢中的重復(fù)子查詢來減少工作負載。基于規(guī)則的策略使用預(yù)定義規(guī)則重寫查詢，例如DBridge。基于學(xué)習(xí)的方法使用監(jiān)督學(xué)習(xí)或強化學(xué)習(xí)來預(yù)測查詢重寫規(guī)則。

挑戰(zhàn)。現(xiàn)有數(shù)據(jù)存儲和檢索方法主要優(yōu)化特定部分，如資源分配和查詢加速。然而，整個數(shù)據(jù)管理系統(tǒng)復(fù)雜，需處理各種格式和結(jié)構(gòu)的大量數(shù)據(jù)，端到端優(yōu)化具挑戰(zhàn)性。此外，數(shù)據(jù)存儲和檢索還需考慮數(shù)據(jù)訪問控制和系統(tǒng)維護等關(guān)鍵方面。

4 以數(shù)據(jù)為中心的AI的自動化程度

以數(shù)據(jù)為中心的人工智能涉及數(shù)據(jù)生命周期各階段的任務(wù)，根據(jù)是否需要人類參與分為自動化和協(xié)作兩大類。每種方法都有不同的自動化程度或需要不同程度的人類參與，如圖7所示。自動化任務(wù)涉及編程自動化、基于學(xué)習(xí)的自動化和流水線自動化，以提高效率和準確性。協(xié)作任務(wù)需要不同程度的人工參與，包括完全參與、部分參與和最低參與。這種分類有助于理解不同方法如何應(yīng)用于不同的以數(shù)據(jù)為中心的目標，并實現(xiàn)效率和效果的權(quán)衡。

4.1 自動化任務(wù)

編程自動化：使用程序自動處理數(shù)據(jù)。這些程序通常基于一些啟發(fā)式算法和統(tǒng)計信息進行設(shè)計。
基于學(xué)習(xí)的自動化：通過優(yōu)化學(xué)習(xí)自動化策略，例如最小化目標函數(shù)。這個層面的方法通常更加靈活和自適應(yīng)，但需要額外的成本來學(xué)習(xí)。
流水線自動化：整合和調(diào)整多個任務(wù)中的一系列策略，這有助于識別全局最優(yōu)策略。然而，調(diào)整可能會產(chǎn)生更高的成本。

4.2 不同程度的人工參與

完全參與：人類完全控制過程。該方法協(xié)助人類做出決策。需要完全參與的方法通常能很好地符合人類的意圖，但成本很高。
部分參與：該方法控制著過程。然而，人類需要大量或持續(xù)地提供信息，例如通過提供大量反饋或頻繁互動。
最低參與：該方法完全控制整個過程，只在需要時咨詢?nèi)祟悺Ｈ祟愔挥性诒惶崾净蛞髸r才參與。當遇到大量數(shù)據(jù)和有限的人力預(yù)算時，屬于這種程度的方法通常更理想。

本文章轉(zhuǎn)載微信公眾號@算法進階