它：想给AI搜索醒醒脑

时间：2026-07-05 08:41:42 来源：互联网

使用Exa搜索时，我未能直接获得答案，这或许源于其报道资源有限，无法自主生成内容。但接下来，我将通过实际测试来剖析这款工具的真实表现。

它，想给AI搜索醒醒脑

这很技术思维，不像谷歌或Perplexity那样具有强用户体验感。

我也遇到一个问题：当搜“IPD是什么”时，它没有给出想要的答案。我意识到问题太过简单，于是重新提问，加上IPD（Integrated Product Development集成产品完整表达），它才过滤掉与我意图不符的内容。

它的索引能力确实很强。

9年前、16年前的内容都能被找出，但这些内容并非完全可用。点进去一看，明显逊色，甚至有些是卖书、卖专栏的产品广告——它们在广告中加入了IPD内容，加上网站权重较高，就被索引出来了。

据此，个人使用感受表明：Exa的优点在于——

第一，找资料利器，索引能力强、筛选条件多，非常适合技术人员使用，不适合小白用户。

第二，还原过程指标，把结论放在单篇文章上，而不是一个问题上。缺点则是：第一，无法直接给出答案，需要用户逐个筛选信息源并点击查看；第二，有些信息源不准确，这可能与所选的筛选条件有关。

03

紧接着，我又拿Perplexity进行测试。Perplexity更为友好。

从Perplexity的介绍中可以明白：Exa主要为AI系统和开发者设计，它的工作是给AI提供所需的知识和数据。而Perplexity则是给普通人使用的搜索引擎，提供问答式的搜索体验。因此，两者是完全不同的产品。

除此之外，Exa定位为AI搜索的中间层，提供API服务，整合世界知识为AI系统提供数据；Perplexity是一个端到端的搜索引擎，直接给用户提供摘要。

我详细查阅后发现，Exa使用Embedding技术来理解语义，能搜索Twitter、GitHub、Reddit等多种数据源；而Perplexity则采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等语言模型。

那么，它们二者有什么区别呢？

你可以想象一下：你有一堆玩具，每个玩具都有名字，比如“小汽车、洋娃娃、积木”。现在，要把这些名字告诉一台机器，让它理解并记住它们。但问题在于，机器不懂我们的语言，它只懂数字。

怎么办？

Embedding技术像一个魔法转换器，它可以把“小汽车”这样的名字变成一串数字，比如[1, 2]，把“洋娃娃”变成另一串数字，比如[2, 3]。

这样，每个玩具的名字都对应一串数字，机器就能通过数字来“理解”和区分不同的玩具了。

更神奇的是，这个技术还可以让相似的玩具有相近的数字。比如，“小汽车和卡车”可能都是车，所以它们的数字会比较接近，而和“洋娃娃”的数字就会远一些。

所以，Embedding技术是帮助机器通过数字来理解和记住各种信息的一种方法。

而GPT-4o API和Claude-3不一样，它们本意上是已被开发好的语言模型，Perplexity只是把不同的模型整合起来，去做写文章、回答问题、聊天的动作。

所以，很明显，Embedding技术与GPT-4o API、Claude-3的最主要区别是：前者能把词汇、图片等变成一串数字，更容易让计算机学习和使用；后者更贴近用户，帮助我在网上找到需要的信息，比如新闻、图片或视频等。

因此，我们可以得到一个结论：Exa是一个为AI和开发者服务的高级搜索工具，更注重数据深度整合与技术处理；Perplexity是面向普通用户的搜索引擎，注重直接好用的便捷性，两者不在同一个赛道。

04

关于Embedding技术，中国也有不少研究者在讨论。

我查了一下：百度智能云的一篇文档深入讨论了Embedding技术在推荐系统中的应用，包括如何更好地推荐用户和商品，以及序列推荐和知识图谱的应用。这些技术把零散的数据变成连续的向量（就像一串串数字），提高了推荐系统的表现和准确度。

还有一个技术博客的作者，在他的文章中也详细说明了Embedding技术在58同城房产相关业务和推荐场景中的实际应用[1]。

李乾坤在GitHub博客上也详细描述了Embedding技术的原理和它在自然语言处理中的应用。像Word2Vec和GloVe这样的模型，就是通过把单词变成高维的向量，来捕捉单词之间的语义关系[2]。

我不是太懂，把它罗列出来供你参考，相信这门技术在国内也能很快用到其他场景上。

那么，我们是否可以说：这项技术在迭代传统以整合信源为中心的AI搜索引擎呢？我不知道，至少觉得它具备一定的市场需求。

比如：前一段时间有篇文章特别火，叫《中文互联网是否会消失》，抛开争议，就整体而言，大家认为中文互联网内容并没有迅速消失，相反，中文内容在全球范围内的比例在增长。

根据W3Techs数据，截止到2024年7月，中文内容在全球网站上的使用比例为1.5%，中文和印地语内容的比重都增加了超过10倍（注：W3Techs是一家专门提供数据分析的机构）。

这说明什么？互联网数据并没有消失，我们要用特定工具把它找出来。

国外风险机构Lightspeed投资完Exa后，分享了一些关于未来智能体网络的想法。他们提到：最近一直在思考一个全新的、支持AI智能体的网络基础设施，这种网络会和我们人类用的网络不同，因为AI智能体和人类需要的东西不同。

为什么需要智能体网络呢？

第一，AI智能体要获取最新且准确的信息来完成任务。虽然现在的大型语言模型能记住很多数据，但这些数据很快就会过时，而且不容易找到需要的信息。

第二，虽然现在有了检索增强生成（Retrieval-augmented generation）技术，它帮助大型语言模型能够处理训练数据之外的信息，但这些通常都是私人或内部的信息。

理想情况下，AI智能体应该能通过API检索整个公共互联网的信息，这就需要新的基础设施——也就是智能体网络。

但是，建设这样的网络面临很多技术和经济上的挑战。现有网络基础设施主要是为了服务广告商，而不是用户，传统搜索引擎更关注广告点击和展示，这就导致了“SEO”产业兴起。

内容质量并不总是最重要的。

比如：当你搜“精通Go语言的软件工程师”，理想搜索引擎应该给你工程师的个人网站或社交媒体资料，而不是一些讨论Go语言的网页。

好的搜索引擎应该能理解“实体”的概念，而不只是泛泛地讨论一些话题。所以，AI想要的搜索结果，可能和人类需要的不一样。

AI用的搜索引擎不应该显示广告，应该直接显示结果，不幸的是，现在人类和AI使用的是同样的搜索结果，这种“一刀切”的方式很糟糕。

Exa的用武之地就在这，它是一个为AI智能体专门设计的、基于嵌入技术的搜索引擎。它获取并索引网络上的最新内容，并通过一种独特的“链接预测”模型，通过搜索API，把数据提供给基于大型语言模型的应用程序；这个模型被专门调整，以便更好地理解搜索查询并从索引中返回相关链接。

这好比：当你向图书管理员询问关于某个主题的书时，他不仅迅速找到了与这个主题相关的书，还确保书正是你现在最需要的那一本。

有了Exa，互联网变得又新又有趣，AI需要一种新的方式来访问信息，它正在执行和设计适用于AI和互联网信源革命的任务。

是不是很有趣？简单讲：它想给AI搜索引擎“洗个脑”，做中间部分，左手深度检索信源后，右手投喂给大语言模型，让它更聪明、更高效。

综上所述，Exa通过嵌入技术为AI与开发者提供深度信源检索能力，同时为大型语言模型输送高质量数据，这一创新思路正在开辟搜索引擎的新赛道，值得我们持续关注其发展前景。

上一篇：被 AlphaGo 击败的李世石：用8年重建崩塌的世界下一篇：给iPhone背面贴个AI录音机，生意老好了