什麼是多模態人工智慧?

Advancing Forum Analytics at China Data
Post Reply
urrifat77
Posts: 33
Joined: Tue Dec 03, 2024 6:20 am

什麼是多模態人工智慧?

Post by urrifat77 »

2022 年 11 月,OpenAI 推出 ChatGPT。僅僅幾天的時間,它就以其前所未有的能力席捲了世界。生成式人工智慧革命已經開始,每個人都在問同一個問題:下一步是什麼?

當時,ChatGPT 和許多其他由大型語言模型 (LLM) 提供支援的生成式 AI 工具旨在處理使用者的文字輸入並產生文字輸出。換句話說,它們被認為是單模式人工智慧工具。

然而,這只是開始。我們只是觸及了法學碩士所能做的事情的皮毛。 ChatGPT 推出僅一年後,行業的進步簡直令人震驚,這使得定位可能性的前沿變得非常困難,正如我們在關於ChatGPT 和生成人工智能的長期影響的另一篇文章中分析的那樣。

今天,如果我們要回答「下一步是什麼?」的問題。最好的答案可能是多模式學習。這是正在進行的人工智慧革命中最有前途的趨勢之一。多模式生成人工智慧模型能夠組合各種類型的輸入並創建可能還包括多種類型輸出的輸出。

在本指南中,我們將帶您了解多模式人工智慧的概念。我們將了解多模態人工智慧的定義、其核心概念、底層技術和應用,以及如何在現實場景中實現它們。準備好迎接多式聯運了嗎?讓我們開始吧!

了解多模態人工智慧
雖然最先進的生成式人工智慧工具仍然無法像人類一樣思考,但它們正在提供突破性的成果,讓我們更接近通用人工智慧 (AGI) 的門檻。這個術語指的是一種假設的人工智慧系統,它可以像人類一樣理解、學習和應用知識來完成廣泛的任務。

在關於如何實現AGI的爭論中,我們需要解決的一個中心問題是人類如何學習。這引導我們了解人腦的工作原理。長話短說,我們的大腦依靠我們的五種感官從周圍環境中收集各種資訊。然後,這些資訊被儲存在我們的記憶中,經過處理以學習新的見解,並用於做出決策。

第一個現代生成人工智慧模型,如 ChatGPT,被認為是單模態的;也就是說,他們只能將一種類型的資料作為輸入並產生相同類型的輸出。特別是,這些模型大多數都是為了處理文字提示並產生文字回應而設計的。

這是有道理的,因為這些模型需要大量資料進行訓練,而文字不僅是一種可以輕鬆儲存和處理的資料類型,而且也很容易獲得。毫不奇怪,像 ChatGPT 這樣的工具的大部分訓練資料都來自網路上的不同來源。我們在ChatGPT文章中什麼是解釋了所有這些技術細節,我們直接向 ChatGPT 提出問題。

然而,閱讀只是人類學習新事物的多種方式之一,而對於許多任務來說,這並不是最有效的方式。

多模態學習是人工智慧的一個子領域,它試圖透過使用大量文字以及其他資料類型(也稱為感官數據,例如圖像、視訊或音訊記錄)訓練機器來增強機器的學習能力。這使得模型能夠學習文字描述及其相關圖像、視訊或音訊之間的新模式和相關性。

多模態學習正在為智慧型系統釋放新的可能性。訓練過程中多種資料類型的組合使得多模態人工智慧模型適合接收多種輸入類型並產生多種類型的輸出。例如, ChatGPT 的基礎模型GPT-4可以接受圖像和文字輸入並產生文字輸出,以及 OpenAI 最近發布的Sora文字到視訊模型。

多模態人工智慧的核心概念
多模式生成人工智慧模型為最先進的法學碩士增添了新的複雜性。這些模型是基於一種稱為 Transformer 的神經架構。 Transformer 由Google研究人員開發,依靠編碼器-解碼器架構和注意力機制來實現資料的高效處理。

這是一個相當複雜的過程,可能很難理解。如果您想了解有關 LLM 和 Transformers 如何工作的更多詳細信息,我們強烈建議您閱讀我們的Transformers 如何工作指南,或者,如果您想親自動手並學習如何逐步創建 LLM,請查看我們的Large語言模型( LLM)概念課程。

資料來源:數據營

資料來源:數據營

多模態人工智慧依靠資料融合技術來整合不同的資料類型,並建立對底層資料更完整、更準確的理解。最終目標是透過結合不同數據模式提供的補充資訊來做出更好的預測。

單模態與多模態人工智慧。資料來源:ResearchGate

單模態與多模態人工智慧。資料來源:ResearchGate

可以實施多種資料融合技術來解決多模式挑戰。根據融合發生的處理階段,我們可以將資料融合技術分為三類:

早期融合。它涉及將不同的模態編碼到模型中以創建公共表示空間。此過程產生單一模態不變的輸出,該輸出封裝了來自所有模態的語義資訊。
中期融合。它涉及結合不同預處理階段的模式。這是透過在專門為資料融合目的而設計的神經網路中創建特殊層來實現的。
後期融合。它涉及創建多個模型來處理不同的模式,並將每個模型的輸出組合到新的演算法層中。
沒有一種資料融合技術適合所有類型的場景。相反,所選的技術將取決於手頭上的多模式任務。因此,可能需要反覆試驗才能找到最合適的多模式人工智慧管道。

推動多模式人工智慧的技術
多模態人工智慧是人工智慧多個子領域知識累積的結果。近年來,人工智慧從業者和學者在以多種格式和模式儲存和處理資料方面取得了令人矚目的進展。

下面,您可以找到推動多模式人工智慧繁榮的領域清單:

深度學習
深度學習是人工智慧的一個子領域,它採用一種稱為人工神經網路的演算法來解決複雜的任務。目前的生成式人工智慧革命是由深度學習模型推動的,特別是 Transformer,它是一種神經架構。

多模式人工智慧的未來也將取決於該領域的新進展。特別是,非常需要研究來尋找增強變壓器功能的新方法以及新的資料融合技術。

查看我們的Python 深度學習軌道,以進一步加深您在這個前景廣闊的領域的學習。

自然語言處理(NLP)
NLP 是人工智慧的關鍵技術,彌合了人類交流和電腦理解之間的差距。它是一個多學科領域,使電腦能夠解釋、分析和生成人類語言,從而實現人與機器之間的無縫互動。

由於與機器通訊的主要方式是透過文本,因此 NLP 對於確保生成式 AI 模型(包括多模態模型)的高效能至關重要也就不足為奇了。

對自然語言處理有興趣?查看我們的Python 自然語言處理軌道,以獲得將非結構化資料轉換為有價值的見解所需的核心 NLP 技能。

電腦視覺
影像分析,也稱為電腦視覺,包括一組電腦可以「看到」和理解影像的技術。該領域的進步促進了多模式人工智慧模型的開發,這些模型可以將圖像和視訊作為輸入和輸出進行處理。

如果您有興趣進一步研究這個引人入勝的主題,請查看我們的Python 影像處理技能軌道,將影像處理技能納入您的資料科學工具箱。

音訊處理
一些最先進的生成式人工智慧模型能夠處理音訊檔案作為輸入和輸出。音訊處理的可能性範圍從解釋語音訊息到同聲翻譯和音樂創作。

請參閱我們的Python 口語語言處理課程,了解如何使用 Python 從原始音訊檔案載入、轉換和轉錄語音。

多模態人工智慧的應用
多模態學習使機器能夠獲得新的“感官”,從而提高其準確性和解釋能力。

增強型生成人工智慧
第一代生成式人工智慧模型大多是文字到 阿塞拜疆電話號碼列表 文字的,能夠處理使用者的文字提示並提供文字答案。多模式模型,如GPT-4 Turbo、Google Gemini或DALL-E,具有新的可能性,可改善輸入和輸出端的使用者體驗。無論是接受多種模式的提示還是產生各種格式的內容,多模式人工智慧代理的可能性似乎是無限的。

自動駕駛汽車
自動駕駛汽車嚴重依賴多模式人工智慧。這些汽車配備了多個感測器來處理來自周圍環境的各種格式的資訊。多模態學習對於這些車輛以有效且高效的方式結合這些來源以即時做出智慧決策至關重要。

生物醫學
來自生物樣本庫、電子健康記錄、臨床成像和醫療感測器以及基因組數據的生物醫學數據的可用性不斷增加,正在推動醫學領域多模式人工智慧模型的創建。這些模型能夠處理多種方式的各種資料來源,幫助我們揭開人類健康和疾病的奧秘,並做出明智的臨床決策。

地球科學與氣候變遷
地面感測器、無人機、衛星數據和其他測量技術的快速擴展正在增強我們了解地球的能力。多模態人工智慧對於準確結合這些資訊並創建新的應用程式和工具至關重要,這些應用程式和工具可以幫助我們完成各種任務,例如溫室氣體排放監測、極端氣候事件預測和精準農業。

實施多模式人工智慧解決方案的挑戰
多模式人工智慧的繁榮為企業、政府和個人帶來了無限的可能性。然而,與任何新興技術一樣,在日常營運中實施它們可能具有挑戰性。

首先,您需要找到符合您特定需求的用例。從概念到部署並不總是那麼容易,特別是如果您缺乏正確理解多模式人工智慧背後的技術細節的人。然而,考慮到當前的數據素養技能差距,找到合適的人來將模型投入生產可能會很困難且成本高昂,因為公司願意支付高額費用來吸引如此有限的人才。

最後,在談論生成式人工智慧時,必須提到負擔能力。這些模型,尤其是多模式模型,需要大量的計算資源才能運行,而這意味著金錢。因此,在採用任何生成式人工智慧解決方案之前,評估您想要投資的資源非常重要。

多模式人工智慧的風險
與任何新技術一樣,我們必須使用多模式人工智慧模型來克服幾個潛在的陷阱:


Image

缺乏透明度。演算法不透明是與生成人工智慧相關的主要問題之一。這也適用於多模式人工智慧。由於它們的複雜性,這些模式通常被標記為「黑盒子」模型,這使得無法監控它們的推理和內部工作原理。
多模式人工智慧壟斷。鑑於開發、培訓和營運多式聯運模式需要大量資源,市場高度集中於一群擁有必要專業知識和資源的大型科技公司。幸運的是,越來越多的開源法學碩士正在進入市場,使開發人員、人工智慧研究人員和社會更容易理解和操作法學碩士。
偏見和歧視。根據用於訓練多模式人工智慧模型的數據,它們可能包含偏見,從而導致不公平的決策,而這些決策往往會加劇歧視,特別是針對少數群體的歧視。正如已經提到的,透明度對於更好地理解和解決潛在偏見至關重要。
隱私問題。多模式人工智慧模型使用來自多種來源和格式的大量資料進行訓練。在許多情況下,它可能包含個人資料。這可能會導致與資料隱私和安全相關的問題和風險。
道德考慮。多模式人工智慧有時會導致對我們的生活產生嚴重影響的決策,對我們的基本權利產生重大影響。我們在另一篇文章中探討了生成式人工智慧的道德規範。
環境考慮。研究人員和環境監管機構對與訓練和運行生成人工智慧模型相關的環境足跡表示擔憂。專有多模式人工智慧模型的所有者很少發布有關模型消耗的能源和資源的信息,也很少發布相關的環境足跡的信息,這對於這些工具的快速採用來說是一個極大的問題。
多模式人工智慧的未來
多模式人工智慧無疑是生成式人工智慧革命的下一個前沿。多模態學習領域的快速發展正在推動用於各種目的的新模型和應用程式的創建。我們正處於這場革命的開始。隨著新技術的發展以結合更多新的模式,多模式人工智慧的範圍將會擴大。

然而,權力越大,責任越大。多模式人工智慧帶來了嚴重的風險和挑戰,需要解決這些風險和挑戰,以確保公平和永續的未來。
Post Reply