它:想给AI搜索醒醒脑

时间:2026-07-05 08:41:42 来源:互联网

使用Exa搜索时,我未能直接获得答案,这或许源于其报道资源有限,无法自主生成内容。但接下来,我将通过实际测试来剖析这款工具的真实表现。

它,想给AI搜索醒醒脑

这很技术思维,不像谷歌或Perplexity那样具有强用户体验感。

我也遇到一个问题:当搜“IPD是什么”时,它没有给出想要的答案。我意识到问题太过简单,于是重新提问,加上IPD(Integrated Product Development集成产品完整表达),它才过滤掉与我意图不符的内容。

它的索引能力确实很强。

9年前、16年前的内容都能被找出,但这些内容并非完全可用。点进去一看,明显逊色,甚至有些是卖书、卖专栏的产品广告——它们在广告中加入了IPD内容,加上网站权重较高,就被索引出来了。

据此,个人使用感受表明:Exa的优点在于——

第一,找资料利器,索引能力强、筛选条件多,非常适合技术人员使用,不适合小白用户。

第二,还原过程指标,把结论放在单篇文章上,而不是一个问题上。缺点则是:第一,无法直接给出答案,需要用户逐个筛选信息源并点击查看;第二,有些信息源不准确,这可能与所选的筛选条件有关。

03

紧接着,我又拿Perplexity进行测试。Perplexity更为友好。

从Perplexity的介绍中可以明白:Exa主要为AI系统和开发者设计,它的工作是给AI提供所需的知识和数据。而Perplexity则是给普通人使用的搜索引擎,提供问答式的搜索体验。因此,两者是完全不同的产品。

除此之外,Exa定位为AI搜索的中间层,提供API服务,整合世界知识为AI系统提供数据;Perplexity是一个端到端的搜索引擎,直接给用户提供摘要。

我详细查阅后发现,Exa使用Embedding技术来理解语义,能搜索Twitter、GitHub、Reddit等多种数据源;而Perplexity则采用GPT-4o API和Claude-3、Sonar Large (LLaMa 3)等语言模型。

那么,它们二者有什么区别呢?

你可以想象一下:你有一堆玩具,每个玩具都有名字,比如“小汽车、洋娃娃、积木”。现在,要把这些名字告诉一台机器,让它理解并记住它们。但问题在于,机器不懂我们的语言,它只懂数字。

怎么办?

Embedding技术像一个魔法转换器,它可以把“小汽车”这样的名字变成一串数字,比如[1, 2],把“洋娃娃”变成另一串数字,比如[2, 3]。

这样,每个玩具的名字都对应一串数字,机器就能通过数字来“理解”和区分不同的玩具了。

更神奇的是,这个技术还可以让相似的玩具有相近的数字。比如,“小汽车和卡车”可能都是车,所以它们的数字会比较接近,而和“洋娃娃”的数字就会远一些。

所以,Embedding技术是帮助机器通过数字来理解和记住各种信息的一种方法。

而GPT-4o API和Claude-3不一样,它们本意上是已被开发好的语言模型,Perplexity只是把不同的模型整合起来,去做写文章、回答问题、聊天的动作。

所以,很明显,Embedding技术与GPT-4o API、Claude-3的最主要区别是:前者能把词汇、图片等变成一串数字,更容易让计算机学习和使用;后者更贴近用户,帮助我在网上找到需要的信息,比如新闻、图片或视频等。

因此,我们可以得到一个结论:Exa是一个为AI和开发者服务的高级搜索工具,更注重数据深度整合与技术处理;Perplexity是面向普通用户的搜索引擎,注重直接好用的便捷性,两者不在同一个赛道。

04

关于Embedding技术,中国也有不少研究者在讨论。

我查了一下:百度智能云的一篇文档深入讨论了Embedding技术在推荐系统中的应用,包括如何更好地推荐用户和商品,以及序列推荐和知识图谱的应用。这些技术把零散的数据变成连续的向量(就像一串串数字),提高了推荐系统的表现和准确度。

还有一个技术博客的作者,在他的文章中也详细说明了Embedding技术在58同城房产相关业务和推荐场景中的实际应用[1]。

李乾坤在GitHub博客上也详细描述了Embedding技术的原理和它在自然语言处理中的应用。像Word2Vec和GloVe这样的模型,就是通过把单词变成高维的向量,来捕捉单词之间的语义关系[2]。

我不是太懂,把它罗列出来供你参考,相信这门技术在国内也能很快用到其他场景上。

那么,我们是否可以说:这项技术在迭代传统以整合信源为中心的AI搜索引擎呢?我不知道,至少觉得它具备一定的市场需求。

比如:前一段时间有篇文章特别火,叫《中文互联网是否会消失》,抛开争议,就整体而言,大家认为中文互联网内容并没有迅速消失,相反,中文内容在全球范围内的比例在增长。

根据W3Techs数据,截止到2024年7月,中文内容在全球网站上的使用比例为1.5%,中文和印地语内容的比重都增加了超过10倍(注:W3Techs是一家专门提供数据分析的机构)。

这说明什么?互联网数据并没有消失,我们要用特定工具把它找出来。

国外风险机构Lightspeed投资完Exa后,分享了一些关于未来智能体网络的想法。他们提到:最近一直在思考一个全新的、支持AI智能体的网络基础设施,这种网络会和我们人类用的网络不同,因为AI智能体和人类需要的东西不同。

为什么需要智能体网络呢?

第一,AI智能体要获取最新且准确的信息来完成任务。虽然现在的大型语言模型能记住很多数据,但这些数据很快就会过时,而且不容易找到需要的信息。

第二,虽然现在有了检索增强生成(Retrieval-augmented generation)技术,它帮助大型语言模型能够处理训练数据之外的信息,但这些通常都是私人或内部的信息。

理想情况下,AI智能体应该能通过API检索整个公共互联网的信息,这就需要新的基础设施——也就是智能体网络。

但是,建设这样的网络面临很多技术和经济上的挑战。现有网络基础设施主要是为了服务广告商,而不是用户,传统搜索引擎更关注广告点击和展示,这就导致了“SEO”产业兴起。

内容质量并不总是最重要的。

比如:当你搜“精通Go语言的软件工程师”,理想搜索引擎应该给你工程师的个人网站或社交媒体资料,而不是一些讨论Go语言的网页。

好的搜索引擎应该能理解“实体”的概念,而不只是泛泛地讨论一些话题。所以,AI想要的搜索结果,可能和人类需要的不一样。

AI用的搜索引擎不应该显示广告,应该直接显示结果,不幸的是,现在人类和AI使用的是同样的搜索结果,这种“一刀切”的方式很糟糕。

Exa的用武之地就在这,它是一个为AI智能体专门设计的、基于嵌入技术的搜索引擎。它获取并索引网络上的最新内容,并通过一种独特的“链接预测”模型,通过搜索API,把数据提供给基于大型语言模型的应用程序;这个模型被专门调整,以便更好地理解搜索查询并从索引中返回相关链接。

这好比:当你向图书管理员询问关于某个主题的书时,他不仅迅速找到了与这个主题相关的书,还确保书正是你现在最需要的那一本。

有了Exa,互联网变得又新又有趣,AI需要一种新的方式来访问信息,它正在执行和设计适用于AI和互联网信源革命的任务。

是不是很有趣?简单讲:它想给AI搜索引擎“洗个脑”,做中间部分,左手深度检索信源后,右手投喂给大语言模型,让它更聪明、更高效。

综上所述,Exa通过嵌入技术为AI与开发者提供深度信源检索能力,同时为大型语言模型输送高质量数据,这一创新思路正在开辟搜索引擎的新赛道,值得我们持续关注其发展前景。