NeFut Logo NeFut
EN 管理员登录

[AI学术] 超维计算:提升结构化查询的表格数据嵌入技术

发布于:2026-06-15 22:00 最后更新:2026-06-16 12:15
#algorithm #AI #Open Source

在数据分析和集成流程中,表格数据嵌入已成为关键技术,支持实体注释、模式匹配、列类型检测及表格搜索等任务。现有方法通常将行、列或整个表格嵌入到向量空间中,并依赖最近邻搜索来获取候选匹配。然而,当前嵌入方法的一个根本限制是缺乏可解释的相似度评分:查询与其最近邻之间的具体相似值没有内在意义,使得无法判断该邻居是否真实匹配,或仅是包含无效答案的语料库中最不相似的项目。这种无法设定原则性检索阈值的缺陷,削弱了实际应用的有效性,尤其是在零匹配检测方面。

本文探讨使用超维计算(HDC),特别是全息降维表示(HRR)模型,作为表格行嵌入的框架,以便在向量空间中回答结构化选择-投影查询。通过利用HDC运算的代数特性,我们推导出等值和非等值检索谓词的封闭形式期望相似度值,随着维度的增加,这些值会收敛到可解释的数值,并用来识别合适的检索阈值。

我们在两个真实世界数据集上评估HDC与图基线EmbDI的表现,涵盖不同的表格大小和谓词长度。结果表明,HDC在所有配置中都与EmbDI的行检索表现相匹配或超越,并且在处理非等值谓词时表现更为稳健;在足够维度下实现了完美的属性投影准确性,并通过其原则性阈值独特地支持零匹配谓词的可靠识别。

博主点评: 本文通过引入超维计算为表格数据嵌入提供了新思路,解决了传统方法中相似度评分不可解释的问题,提升了查询的可靠性和准确性。这一研究为数据检索领域开辟了新的可能性,值得关注与深入研究。

原文链接: https://arxiv.org/abs/2606.13871

[h] 返回首页