生成式人工智能如何重新定義圖像搜索

沃卡惠
行業(yè)資訊
2023-09-28 09:24:41
112

近幾個月來，生成式人工智能憑借其創(chuàng)造獨特的文本、聲音和圖像的能力引起了人們的極大興趣。但生成式人工智能的力量并不局限于創(chuàng)造新的數(shù)據(jù)。

生成式人工智能的底層技術(shù)（例如Transformer和擴散模型）可以為許多其他應(yīng)用提供動力，其中包括信息的搜索和發(fā)現(xiàn)。特別是，生成式人工智能可以徹底改變圖像搜索，使人們能夠以以前不可能的方式瀏覽視覺信息。

生成式人工智能如何重新定義圖像搜索

以下是人們需要知道的關(guān)于生成式人工智能如何重新定義圖像搜索體驗的內(nèi)容。

圖像和文本嵌入

傳統(tǒng)的圖像搜索依賴于圖像附帶的文本描述、標記和其他元數(shù)據(jù)，這將用戶的搜索選項限制為已經(jīng)明確附加到圖像中的信息。上傳圖像的人必須認真考慮輸入的搜索查詢類型，以確保他們的圖像被他人發(fā)現(xiàn)。而在搜索圖像時，查詢信息的用戶必須嘗試想象圖像上傳者可能在圖像中添加了什么樣的描述。

俗話說，“一圖勝千言”。然而對于圖像的描述來說，可以編寫的內(nèi)容是有限的。當然，根據(jù)人們查看圖像的方式，可以采用很多方式進行描述。而人們有時根據(jù)圖中的物體進行搜索，有時根據(jù)風格、光線、位置等特征搜索圖像。不幸的是，圖像很少伴隨著如此豐富的信息。很多人上傳的許多圖像幾乎沒有附帶任何信息，這使得它們很難在搜索中被發(fā)現(xiàn)。

這就是人工智能圖像搜索發(fā)揮重要作用的地方。人工智能圖像搜索有不同的方法，不同的公司有自己的專有技術(shù)。然而，有些技術(shù)是這些公司所共有的。

人工智能圖像搜索以及許多其他深度學(xué)習(xí)系統(tǒng)的核心是嵌入，嵌入是不同數(shù)據(jù)類型的數(shù)值表示。例如，512×512分辨率的圖像包含大約26萬個像素(或特征)。嵌入模型試圖通過對數(shù)百萬張圖像進行訓(xùn)練來學(xué)習(xí)視覺數(shù)據(jù)的低維表示。圖像嵌入可以有許多有用的應(yīng)用，包括壓縮圖像、生成新圖像或比較不同圖像的視覺屬性。

同樣的機制適用于文本等其他形式。文本嵌入模型是文本摘錄內(nèi)容的低維表示。文本嵌入有許多應(yīng)用，包括用于大型語言模型（LLM）的相似性搜索和檢索增強。

生成式人工智能如何重新定義圖像搜索

人工智能圖像搜索的工作原理

但是，當圖像和文本嵌入一起訓(xùn)練時，事情變得更加有趣。像LAION這樣的開源數(shù)據(jù)集包含數(shù)以百萬計的圖像及其相應(yīng)的文本描述。當文本和圖像嵌入在這些圖像/標題對進行聯(lián)合訓(xùn)練或微調(diào)時，它們會學(xué)習(xí)視覺和文本信息之間的關(guān)聯(lián)。這就是深度學(xué)習(xí)技術(shù)背后的思想，例如對比圖像語言預(yù)訓(xùn)練(CLIP)。

對比圖像語言預(yù)訓(xùn)練（CLIP）模型學(xué)習(xí)文本和圖像的聯(lián)合嵌入

現(xiàn)在，有了可以從文本轉(zhuǎn)換為視覺嵌入的工具。當為這個聯(lián)合模型提供文本描述時，它將創(chuàng)建文本嵌入及其相應(yīng)的圖像嵌入。然后，可以將圖像嵌入與數(shù)據(jù)庫中的圖像進行比較，并檢索與它最密切相關(guān)的圖像。這基本上就是人工智能圖像搜索的工作原理。

這種機制的美妙之處在于，用戶將能夠基于圖像視覺特征的文本描述檢索圖像，即使這一描述沒有在其元數(shù)據(jù)中注冊。你可以使用豐富的搜索詞，這在以前是不可能實現(xiàn)的，例如“郁郁蔥蔥的森林籠罩著晨霧，燦爛的陽光透過高大的松林，草地上生長著一些蘑菇。”

生成式人工智能如何重新定義圖像搜索

在上面的例子中，人工智能搜索返回了一組圖像，其視覺特征與這個查詢相匹配。其中很多的文字描述都沒有包含查詢的關(guān)鍵詞。但它們的嵌入與查詢的嵌入相似。如果沒有人工智能圖像搜索，要找到合適的圖像就會困難得多。

從發(fā)現(xiàn)到創(chuàng)造

有時，人們尋找的圖像并不存在，甚至通過人工智能搜索也無法找到它。在這種情況下，生成式人工智能可以通過兩種方式之一幫助用戶實現(xiàn)預(yù)期的結(jié)果。

第一種方法是根據(jù)用戶的查詢從頭創(chuàng)建一個新圖像。在這種情況下，文本到圖像生成模型(例如Stable Diffusion或DALL-E)為用戶的查詢創(chuàng)建嵌入，并使用它創(chuàng)建圖像。生成模型利用對比圖像語言預(yù)訓(xùn)練（CLIP）等聯(lián)合嵌入模型和其他架構(gòu)(例如Transformer或擴散模型)將嵌入的數(shù)值轉(zhuǎn)換為令人驚嘆的圖像。

DALL-E使用對比圖像語言預(yù)訓(xùn)練（CLIP）和擴散從文本生成圖像

第二種方法是采用現(xiàn)有的圖像，并使用生成模型根據(jù)自己的喜好進行編輯。例如，在返回松林的圖片中，草地上的蘑菇是缺失的。用戶可以使用其中一張認為合適的圖像作為起點，并使用生成模型將蘑菇添加到其中。

生成式人工智能如何重新定義圖像搜索

生成式人工智能創(chuàng)造了一個全新的范例，模糊了發(fā)現(xiàn)和創(chuàng)造力之間的界限。而在單一界面中，用戶可以查找圖像、編輯圖像或創(chuàng)建全新的圖像。

上一篇：物聯(lián)網(wǎng)(IoT)意味著什么？

下一篇：人工智能會成為設(shè)施管理的顛覆者嗎？是好是壞？