据 1M AI News 监测,微软在 Hugging Face 开源多语言文本嵌入模型家族 harrier-oss-v1,包含 270M、0.6B 和 27B 三档。模型卡显示,这一系列采用 decoder-only 架构、last-token pooling 和 L2 归一化,最长支持 32768 token,可用于检索、聚类、语义相似度、分类、双语挖掘和重排序。
Multilingual MTEB v2 是业内常用的多语言文本嵌入基准,主要测试检索、分类、聚类和语义相似度等任务。微软模型卡称,三档模型在该基准上的分数分别为 66.5、69.0 和 74.3,其中 27B 版在发布当日登上榜首。270M 和 0.6B 版本还额外使用更大嵌入模型进行知识蒸馏,三款模型均以 MIT 许可证发布。
币须知道