人工智能 | Embedding

TPBoreas 2024-08-09 16:31:01 阅读 52

Embedding是什么

Embedding是一种将离散的符或对象映射到连续向量空间技术。在自然语言处理领域中,Embedding常用于将单词或句子为向量形式,以便计算机可以更好地理解和处理文本数据。

通过使用Embedding,我们可以将每个单词或句子表示为一个固定长度的向量,其中每个维度代表了某种语义特征。这种连续向量表示可以捕捉到单词之间的语义关系,例如相似性和相关性。通过将文本转换为向量表示,我们可以在机器学习和深度学习模型中使用这些向量进行文本分类、情感分析、机器翻译等任务。

Embedding的生成可以通过不同的方法实现,如Word2Vec、GloVe和BERT等。这些方法利用了大规模文本数据的统计信息或上下文关系来学习单词或句子的向量表示。这些向量表示可以在训练过程中被学习到,也可以使用预训练好的模型进行迁移学习

参考学习网址

数元灵夺得全球权威Embedding评测榜单开源模型第一名,开放大模型“知识外挂”,赋能AI Native应用开发 - 知乎近日,北京数元灵科技有限公司开源了语义向量(Embedding)模型:DMeta-Embedding,目前位列 MTEB 中文场景开源模型第一(总榜第一名百川只提供 API 服务,暂未开源模型),并在 Pair Classification Average 单项…

icon-default.png?t=N7T8

https://zhuanlan.zhihu.com/p/680400660DmetaSoul 的中文Embedding模型,该模型<code>号称在 MTEB 中文榜单取得开源第一的成绩: https://huggingface.co/DMetaSoul/Dmeta-embedding-zh/blob/main/README_zh.md

icon-default.png?t=N7T8

https://huggingface.co/DMetaSoul/Dmeta-embedding-zh/blob/main/README_zh.md

下载模型

<code>ollama pull shaw/dmeta-embedding-zh

检查是否安装成功

测试API请求

Mac/Linux下执行:

<code>curl 'http://localhost:11434/api/embeddings' \

--data '{

"model": "shaw/dmeta-embedding-zh",

"prompt": "天空是灰色的"

}'

 Windows下执行:

curl "http://localhost:11434/api/embeddings" ^

--data "{""model"": ""shaw/dmeta-embedding-zh"", ""prompt"": ""天空是灰色的""}"

执行结果



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。