国产成人精品亚洲一区,日韩精品一区二区中文视频,国产亚洲一区二区三区久久

AI大模型的語(yǔ)言不平等：英語(yǔ)最便宜，其它語(yǔ)言要貴得多

發(fā)布日期： 2023-07-31 09:11:25 來(lái)源：鳳凰網(wǎng)

【資料圖】

IT之家 7 月 31 日消息，用戶(hù)所使用的語(yǔ)言對(duì)于大型語(yǔ)言模型（LLM）的費(fèi)用有很大的影響，可能造成英語(yǔ)使用者和其它語(yǔ)言使用者之間的人工智能鴻溝。最近的一項(xiàng)研究顯示，由于 OpenAI 等服務(wù)所采用的的服務(wù)器成本衡量和計(jì)費(fèi)的方式，英語(yǔ)輸入和輸出的費(fèi)用要比其他語(yǔ)言低得多，其中簡(jiǎn)體中文的費(fèi)用大約是英語(yǔ)的兩倍，西班牙語(yǔ)是英語(yǔ)的 1.5 倍，而緬甸的撣語(yǔ)則是英語(yǔ)的 15 倍。

IT之家注意到，推特用戶(hù) Dylan Patel（@dlan522p）分享了一張照片，展示了牛津大學(xué)進(jìn)行的一項(xiàng)研究，該研究發(fā)現(xiàn)，讓一個(gè) LLM 處理一句緬甸語(yǔ)句子需要 198 個(gè)詞元（tokens），而同樣的句子用英語(yǔ)寫(xiě)只需要 17 個(gè)詞元。詞元代表了通過(guò) API（如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2）訪(fǎng)問(wèn) LLM 所需的計(jì)算力成本，這意味著緬甸語(yǔ)句子使用這種服務(wù)的成本比英語(yǔ)句子高出 11 倍。

詞元化模型（即人工智能公司將用戶(hù)輸入轉(zhuǎn)換為計(jì)算成本的方式）意味著，除了英語(yǔ)之外的其他語(yǔ)言使用和訓(xùn)練模型要貴得多。這是因?yàn)橄裰形倪@樣的語(yǔ)言有著不同、更復(fù)雜的結(jié)構(gòu)（無(wú)論是從語(yǔ)法還是字符數(shù)量上），導(dǎo)致它們需要更高的詞元化率。例如，根據(jù) OpenAI 的 GPT3 分詞器，“你的愛(ài)意（your affection）”的詞元，在英語(yǔ)中只需要兩個(gè)詞元，但在簡(jiǎn)體中文中需要八個(gè)詞元。盡管簡(jiǎn)體中文文本只有 4 個(gè)字符（你的愛(ài)意），而英文有 14 個(gè)字符。

關(guān)鍵詞：