首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

國產(chǎn)大模型DeepSeek-V3開源:6710億參數(shù)自研 MoE,性能和 GPT-4o 不分伯仲

2024年12月27日 09:22  IT之家  作 者:故淵

“深度求索”官方公眾號昨日(12 月 26 日)發(fā)布博文,宣布上線并同步開源 DeepSeek-V3 模型,用戶可以登錄官網(wǎng) chat.deepseek.com,與最新版 V3 模型對話。

援引博文介紹,DeepSeek-V3 是一個 6710 億參數(shù)的專家混合(MoE,使用多個專家網(wǎng)絡將問題空間劃分為同質(zhì)區(qū)域)模型,激活參數(shù) 370 億,在 14.8 萬億 token 上進行了預訓練。

多項評測成績超越 Qwen2.5-72B 和 Llama-3.1-405B 等開源模型,性能比肩 GPT-4o 和 Claude-3.5-Sonnet 等世界頂尖閉源模型。

該模型在知識、長文本、代碼、數(shù)學和中文等方面均取得顯著進步,尤其在算法代碼和數(shù)學方面表現(xiàn)突出,生成速度提升至 60 TPS,相比 V2.5 提升了 3 倍。

官方開源了原生 FP8 權重,并提供 BF16 轉(zhuǎn)換腳本,方便社區(qū)適配和應用。SGLang、LMDeploy、TensorRT-LLM 和 MindIE 已支持 V3 模型推理。

DeepSeek-V3 更新上線的同時,DeepSeek 還調(diào)整了 API 服務價格,模型 API 服務定價也將調(diào)整為每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元。

官方還決定為全新模型設置長達 45 天的優(yōu)惠價格體驗期:即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服務價格仍然會是大家熟悉的每百萬輸入 tokens 0.1 元(緩存命中)/ 1 元(緩存未命中),每百萬輸出 tokens 2 元,已經(jīng)注冊的老用戶和在此期間內(nèi)注冊的新用戶均可享受以上優(yōu)惠價格。

 

編 輯:章芳
飛象網(wǎng)版權及免責聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3.如因作品內(nèi)容、版權和其它問題,請在相關作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中國移動副總經(jīng)理張冬:5G揚帆開新篇,數(shù)智遠航啟新程
精彩專題
2024通信業(yè)年終盤點
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像