二进制逆向是软件理解、漏洞发现、恶意软件调查和固件审计的基础。然而,由于编译过程中语义信息的不可逆损失,这一过程始终充满挑战。近年来,机器学习、大型语言模型(LLMs)和智能AI系统的进步加速了AI增强的二进制逆向的应用。然而,相关研究在逆向领域、工件表示、学习方法和评估实践中变得越来越分散。本文首次对AI增强的二进制逆向进行全面的知识系统化。
我们分析了自2015年以来发表的144篇研究论文,并根据推理任务将其组织为22个二进制逆向领域。我们进一步提出了一个统一的分类法,涵盖传统和AI增强的逆向流程。该分类法连接了传统分析技术、二进制派生工件、表示策略、学习范式和下游推理任务,同时澄清了LLMs和智能AI系统的新兴角色。通过建立共同的词汇和结构化框架,我们提供了对过去十年该领域演变的整体视角。
我们的研究揭示了看似不同的方法背后的共同结构,突出持续存在的技术挑战和评估差距,并识别出未来研究的有前景机会。这些见解集体阐明了该领域的当前状态,并为下一代可靠和可扩展的AI增强二进制逆向系统奠定了基础。
博主点评: 本文为AI增强的二进制逆向提供了全面的结构化视角,强调了当前技术的分散性和未来发展的潜力。通过系统化研究,推动了该领域的标准化与进步。未来的研究可以集中在解决评估差距和技术挑战上,以实现更高效的逆向分析工具。