近日,山東大學計算機學院體系結構與嵌入式系統(tǒng)研究中心提交的研究論文ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation被國際軟件工程測試與分析領域頂級會議ACM SIGSOFT International Symposium on Software Testing and Analysis(ISSTA 2025)正式錄用。山東大學計算機科學與技術學院本科生薛鵬宇、吳林昊為論文第一作者,山東大學助理教授楊振為通訊作者。該論文的第一作者及通訊作者單位均為山東大學,該論文亦是山東大學在ISSTA會議上的首篇錄用論文。
論文針對當前主流大模型代碼翻譯研究普遍停留在函數(shù)級、片段級別、難以反映真實軟件開發(fā)任務的局限,首次提出了面向類級別的代碼翻譯評測集ClassEval-T。該評測集在構建過程中共投入360人時,支持Python、Java、C++三種主流語言和94項實際開發(fā)任務,并配備完備的高覆蓋率測試用例(語句覆蓋率達99.7%,分支覆蓋率達98.2%)。在此基礎上,論文進一步設計了三種具備工程實踐意義的翻譯策略(整體式、最小依賴式、獨立式),系統(tǒng)評估了八個當前主流大模型(涵蓋GPT 4o、Claude 3.5、DeepSeek V3等)在類級翻譯中的表現(xiàn)差異,并對1243個失敗樣本進行了人工錯誤分類與機制分析。
實驗結果顯示,大模型在類級代碼翻譯中普遍面臨準確率大幅下降、依賴項識別困難、語法/語義錯誤頻發(fā)等挑戰(zhàn)。相關研究不僅揭示了現(xiàn)有大模型在實用軟件遷移中的瓶頸,也為后續(xù)模型設計與評測基準建設提供了新的視角與方法。
研究不僅填補了當前類級別代碼翻譯評測標準缺失的空白,也為推動代碼翻譯研究向工程化、倉庫級任務演進提供了理論支撐與實驗基礎,具有重要的學術價值和工程實踐意義。目前項目代碼已開源(https://github.com/wLinHoo/ClassEval-T),為該領域的研究和實踐提供助力。
ACM SIGSOFT International Symposium on Software Testing and Analysis是軟件工程測試與分析領域最具影響力的國際會議,為中國計算機學會(CCF)推薦的軟件工程四大A類會議之一。該會議關注自動測試、程序分析、軟件質(zhì)量保障等關鍵技術,本屆ISSTA共收到550篇高水平投稿,最終錄用107篇,錄用率僅為19.4%。會議將于2025年6月在挪威特隆赫姆舉行。