Magi——一个超神奇的智能AI搜索引擎


  • Magi 是由 Peak Labs 研发的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。

    这个长得很像搜索引擎的网站就是 Magi 的公众版本,但与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。

    目前,互联网上只有极少数知识被人类手工整理成了机器可以解析的格式,如各种百科栏目和垂直领域数据库,然而这些信息仅仅是沧海之一粟,无论是覆盖范围、更新频率、可靠程度都无法满足日益增长的自动化和智能化需求。

    其根本矛盾在于:读懂自然语言对人类来说不难,但人的精力有限,无法跟上有价值信息的产生速度,也不能保证稳定和客观;机器虽然不知疲倦且速度超群,但面对纷繁复杂的自由文本却难以利用,使得不可估量的价值被埋没于字里行间。

    试想一下,假如有一个不断自动更新的数据库,包含着互联网各处的文本信息提取而成的便于程序和算法处理的数据结构,那么也许:各种语音助手不会再对您说:“对不起,我不清楚。”;商业智能可获得广泛的背景知识来做出更好的判断;金融信息服务的数据收集与验证的效率将显著提升;… …

    作为公众版本的 magi.com 为人类用户提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。

    在目前相关领域的尝试中,机器问答终究还是面向人类的服务,依照文本问题给出的文本回答并不能供下游任务直接利用。同时,问答模型本身无论从容量还是更新效率都无法满足规模化的需求,更致命的是模型中的知识存在于由浮点数组成的“黑箱”中,在我们看来将这些无法解读和溯源的信息直接呈现给用户并不是最负责任的做法。另外,基于文档检索的方案同样无法满足结构化的需求,在实时线上服务中效率限制会导致其难以评估全部文档来获得全局最优,而且其对用户输入的查询要求较高。

    项目地址: https://magi.com/

    c6215333-08a8-443d-9d25-07fe524e16cb-image.png