LLMOps 重點：操作大型語言模型的實用指南

urrifat77 · Post by **urrifat77** » Tue Dec 03, 2024 6:36 am

常，我們會在幾秒鐘內開始收到回應。然而，在這種無縫互動的背後隱藏著一系列複雜而有序的步驟，使 ChatGPT 能夠提供這樣的體驗。

這一系列步驟的自動執行，稱為大型語言模型操作（LLMOps），保證提示不僅到達模型，而且得到高效、準確、可靠的處理。這確保了在合理的時間內提供精心設計的回應。

在本文中，我們將透過大型語言模型 (LLM) 服務（例如 ChatGPT）追蹤提示的旅程，從而深入研究 LLMOps 範例。我們將研究關鍵階段，包括即時預處理、模型選擇、回應生成，以及經常被忽視但至關重要的方面，例如負載平衡、監控和持續整合。

什麼是 LLMOps？
LLMOps 確實是著名的機器學習操作(MLOps) 的演變，專為應對法學碩士提出的具體挑戰而量身定制。 MLOps 以通用機器學習模型的生命週期管理為中心，而 LLMOps 則融合了與這些類型的模型獨特相關的方面。

至關重要的是要理解，每當我們與 OpenAI 或 Google 的模型互動時，無論是透過 Web 介面還是程式碼中的 API 呼叫，LLMOps 對我們來說都是透明的。在這種情況下，我們說這些模型是作為服務提供的。

另一方面，如果我們的目標是為特定用例提供模型而不依賴外部提供者（例如公司員工的助手），那麼 LLMOps 的責任就落在我們身上。

無論我們的新模型的功能如何，其作為服務的成功將在很大程度上取決於強大且可靠的 LLMOps 基礎設施的存在。您！

LLMOps 的起源
早期的法學碩士（例如 GPT-2）於 2018 年推出。

由於法學碩士令人印象深刻的模型功能，多種利用法學碩士的應用程式已經出現。例子包括客戶服務聊天機器人、語言翻譯服務以及寫作和編碼助理等。

開發由法學碩士支援的生產就緒應用程式提出了一系列獨特的挑戰，與傳統機器學習模型中遇到的挑戰不同。為了應對這些挑戰，開發了用於管理 LLM 申請生命週期的新穎工具和最佳實踐，從而產生了「LLMOps」概念。

為什麼選擇 LLMOps？
出於多種原因，當部署為服務時，LLMOps 對於有效管理這些複雜模型至關重要：

1. 法學碩士不僅在處理的資料多米尼加共和國電話號碼列表量方面很大，而且在參數數量方面也很大。 LLMOps 確保基礎架構能夠在儲存和頻寬方面支援這些模型。

2. 在最短的時間內收到準確的回覆對使用者來說至關重要。 LLMOps 確保在合理的時間內提供回應，從而保持類人互動的流暢性。

3. LLMOps 下的持續監控不僅僅是追蹤基礎架構中的操作方面或故障。它還需要仔細追蹤模型的行為，以了解其決策過程並在未來的迭代中進一步改進模型。

4. 由於需要資源，運行法學碩士可能會很昂貴。 LLMOps 引入了經濟高效的策略，以確保在不影響性能的情況下以最佳方式使用資源。

LLM 服務的幕後花絮
要了解 LLMOps，重要的是要熟悉作為服務提供的 LLM 的「幕後」。這是提示被提供給模型後直到產生回應為止所遵循的路徑。以下架構代表了此工作流程：

LLMOps 工作流程：通用 LLM 即服務的幕後步驟。

LLMOps 工作流程：通用 LLM 即服務的幕後步驟。使用者輸入（綠色）在輸入到模型之前會經歷一些步驟。同樣，模型輸出（紅色）在顯示給使用者之前會經歷多次轉換。

正如我們從上面的模式中可以觀察到的，提示在到達模型之前經歷了幾個步驟。雖然步驟的數量可能會有所不同，但有一些基本步驟可以確保輸入被清楚地理解並且模型的響應與上下文相關。讓我們分解一下這些步驟：

1. 預處理
此步驟準備使用者的提示，以便模型能夠理解和處理它。它包括標記化，其中提示被分割成稱為標記的較小的單元。此步驟還涉及資料標準化，其中包括刪除或轉換雜訊資料（例如特殊字元）、修正拼字錯誤以及標準化文字。

最後，在編碼過程中，標記被轉換為模型可以理解的數字形式。這是透過使用嵌入來完成的，嵌入將每個標記表示為高維空間中的向量。

2. 接地
這涉及根據先前的對話輪次或外部知識來源將提示置於上下文中，以確保模型的反應是連貫的且上下文適當的。此外，實體識別和連結可協助系統識別提示中的實體（例如名稱、地點和日期），並將它們與相關上下文相關聯。

3. 負責任的人工智慧
為了確保 LLM 的使用有良好的目的，有些服務會對使用者的提示實施健全性檢查。通常，會根據安全和合規準則評估提示，特別是在涉及敏感資訊、不適當內容、偏見或潛在錯誤訊息的情況下。

只有經過這些步驟，提示才最終轉發給模型處理。模型產生回應後，在顯示給使用者之前，回應可能會再次重做「接地」和「負責任的 AI」上的步驟，以及額外的後處理步驟：

4. 後處理
由於前面提到的向量嵌入，模型產生的反應是數字形式的。因此，解碼過程對於將這些數位資料轉換回人類可讀的文字至關重要。解碼之後，需要一個細化步驟來完善回應的語法、風格或可讀性。

最後，將回應顯示給使用者。 LLMOps 基礎架構負責對使用者透明地執行這些步驟。

延遲
到目前為止，我們已經看到 LLMOps 基礎架構從使用者發送提示到收到回應需要執行相當多的步驟。此時，一個合理的問題可能是：這些步驟需要多長時間？

使用 ChatGPT 時，反應時間通常幾乎是立即的。此響應時間稱為延遲。延遲是關鍵的效能指標，尤其是在面向使用者的應用程式中，回應時間會顯著影響使用者體驗。根據我們的用例，選擇適當的延遲至關重要。