網(wǎng)絡(luò)空間安全防御全國(guó)重點(diǎn)實(shí)驗(yàn)室 | 侯銳研究員團(tuán)隊(duì)大模型方面研究論文被IEEE S&P 2025接收
轉(zhuǎn)載自《信息網(wǎng)絡(luò)安全雜志》
第46屆 IEEE Symposium on Security and Privacy(IEEE S&P 2025)于2025年5月12日至15日在美國(guó)舊金山舉行。網(wǎng)絡(luò)空間安全防御全國(guó)重點(diǎn)實(shí)驗(yàn)室侯銳研究員團(tuán)隊(duì)關(guān)于大語(yǔ)言模型隱私推理的最新研究成果在大會(huì)上成功發(fā)表。IEEE S&P 自1980年創(chuàng)辦以來(lái),一直被公認(rèn)為計(jì)算機(jī)安全領(lǐng)域的頂級(jí)國(guó)際會(huì)議,同時(shí)也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際學(xué)術(shù)會(huì)議(CCF-A)。本屆會(huì)議共收到投稿1740篇,最終接收257篇,錄用率為14.8%。

論文題為《Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity》,第一作者為博士生顏廣,通訊作者為侯銳研究員和張玉會(huì)副研究員,合作作者包括郭紫苜、趙路坦、陳小軍、王文浩、王晨(清華大學(xué))、孟丹。該研究聚焦于隱私保護(hù)下的大語(yǔ)言模型推理加速這一前沿難題,創(chuàng)新性地利用推理過(guò)程中的激活稀疏性降低計(jì)算與通信開(kāi)銷,為實(shí)現(xiàn)高效、安全的大模型推理提供了新的系統(tǒng)設(shè)計(jì)思路,拓展了隱私計(jì)算在人工智能基礎(chǔ)設(shè)施中的應(yīng)用邊界。
研究背景:當(dāng)前,大語(yǔ)言模型推理通常依賴云端執(zhí)行,要求用戶上傳私有數(shù)據(jù),存在顯著隱私風(fēng)險(xiǎn)。盡管密碼學(xué)方案能夠在密態(tài)數(shù)據(jù)下實(shí)現(xiàn)推理,保障用戶隱私,但常伴隨巨大的計(jì)算和通信開(kāi)銷,導(dǎo)致較高推理延遲。
論文簡(jiǎn)介:論文提出了新型隱私推理系統(tǒng)Comet,利用大語(yǔ)言模型在推理過(guò)程中的激活稀疏性來(lái)降低密態(tài)計(jì)算和通信開(kāi)銷。具體而言,Comet 通過(guò)稀疏性預(yù)測(cè)器識(shí)別推理中未激活的神經(jīng)元,并設(shè)計(jì)安全協(xié)議跳過(guò)其計(jì)算和通信,從而加速推理。同時(shí),該系統(tǒng)還設(shè)計(jì)了新的KV cache管理策略,通過(guò)緩存填充和預(yù)取,確保稀疏推理與KV cache之間的高效協(xié)同。實(shí)驗(yàn)結(jié)果表明,Comet在多個(gè)主流模型與推理任務(wù)中均顯著減少了推理延遲和通信負(fù)載,其推理速度較現(xiàn)有系統(tǒng)提升了1.87至2.63倍,通信開(kāi)銷減少了1.94至2.64倍,表現(xiàn)出良好的通用性與實(shí)際部署潛力。

Comet系統(tǒng)架構(gòu)
論文信息:Guang Yan, Yuhui Zhang, Zimu Guo, Lutan Zhao, Xiaojun Chen, Chen Wang, Wenhao Wang, Dan Meng, Rui Hou. Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity. IEEE Symposium on Security and Privacy (S&P), 2025.