首页 / 资讯 / AI与Web3数据产业融合现状、竞争格局及未来机遇分析(上)

AI与Web3数据产业融合现状、竞争格局及未来机遇分析(上)

标题:AI 与Web3 数据行业融合现状、竞争格局与未来机遇探析(上)

GPT的出现引起了全球对大型语言模型的关注。各行各业都在尝试利用这项“黑科技”来提高工作效率,加速行业发展。 Future3 Campus联合Footprint Analytics对AI与Web3结合的无限可能性进行深入研究,并联合发布了《AI与Web3数据行业融合现状、竞争格局与未来机遇探析》研究报告。研究报告分为两部分。本文是第一部分,由足迹分析研究人员Lesley 和Shelly 共同编辑。 Future3 Campus 研究人员Sherry 和Humphrey 编写的下一篇文章将于明天发布。

摘要:LLM技术的发展让人们更加关注AI与Web3的结合,新的应用范式逐渐展开。在这篇文章中,我们将重点讨论如何利用AI来提高Web3数据的体验和生产力。由于行业处于早期阶段以及区块链技术的特点,Web3数据行业面临着诸多挑战,包括数据来源、更新频率、匿名属性等,使得利用AI解决这些问题成为新的焦点。与传统人工智能相比,LLM的可扩展性、适应性、效率提升、任务分解、可访问性、易用性等优势为提升区块链数据的体验和生产效率提供了想象空间。 LLM需要大量高质量的数据进行训练,而区块链领域拥有丰富的垂直知识和开放数据,可以为LLM提供学习素材。 LLM还可以帮助产生和提升区块链数据的价值,比如数据清洗、标注、生成结构化数据等。LLM不是万能的,需要针对具体的业务需求进行应用。既要利用LLM的高效率,同时也要注意结果的准确性。

1AI与Web3的发展与结合1.1 AI的发展历史

人工智能(AI)的历史可以追溯到20世纪50年代。从1956年开始,人们开始关注人工智能领域,并逐渐发展出早期的专家系统来帮助解决专业领域的问题。此后,机器学习的兴起扩大了人工智能的应用领域,人工智能开始在各行各业得到更广泛的应用。时至今日,深度学习和生成式人工智能的爆发给人们带来了无限可能。它的每一步都充满着不断的挑战和创新,追求更高的智能水平和更广泛的应用领域。

图1:人工智能发展历史

2022年11月30日,ChatGPT上线,首次展示了AI与人类低门槛、高效率交互的可能性。 ChatGPT引发了对人工智能更广泛的讨论,重新定义了与AI交互的方式,使其更加高效、直观和人性化,也促进了人们对更具生成性的人工智能的关注,Anthropic(亚马逊)、DeepMind(谷歌)、Llama等模特也随之进入了人们的视野。与此同时,各行业从业者也开始积极探索人工智能如何推动各自领域的发展,或者通过与人工智能技术的结合寻求在行业中脱颖而出,进一步加速人工智能在各领域的渗透。

1.2 AI与Web3的融合

Web3的愿景从改革金融体系开始,旨在获得更多的用户权力,并有望引领现代经济和文化的转型。区块链技术为实现这一目标提供了坚实的技术基础。它不仅重新设计了价值传递和激励机制,而且为资源配置和权力下放提供了支持。

图2:Web3发展历史

早在2020年,区块链领域投资公司第四革命资本(4RC)就指出,区块链技术将与AI结合,去中心化金融、医疗、电商、娱乐等全球行业。实现对现有行业的颠覆。

目前AI与Web3的结合主要集中在两大方向:

使用人工智能提高生产力和用户体验。结合区块链透明、安全、去中心化存储、可追溯、可验证的技术特点,以及Web3去中心化的生产关系,解决传统技术无法解决的痛点或鼓励社区参与提高生产效率。市场上AI与Web3的结合有以下探索方向:

图3:AI与Web3结合全景图

数据:区块链技术可应用于模型数据存储,提供加密数据集,保护数据隐私,记录模型使用数据的来源和用途,验证数据的真实性。通过访问和分析存储在区块链上的数据,人工智能可以提取有价值的信息并将其用于模型训练和优化。同时,AI还可以作为数据生产工具,提高Web3数据的生产效率。算法:Web3中的算法可以为AI提供更加安全、可信、自主控制的计算环境,并为AI系统提供加密保护。模型参数中嵌入安全围栏,防止系统被滥用或恶意操作。 AI 可以与Web3 中的算法进行交互,例如利用智能合约来执行任务、验证数据和执行决策。同时,AI算法还可以为Web3提供更加智能、高效的决策和服务。算力:Web3的分布式计算资源可以为AI提供高性能算力。 AI可以利用Web3中的分布式计算资源进行模型训练、数据分析和预测。通过将计算任务分配到网络上的多个节点,人工智能可以加快计算速度并处理更大量的数据。在这篇文章中,我们将重点探讨如何利用AI技术来提高Web3数据的生产力和用户体验。

2Web3数据现状2.1 Web2 Web3数据行业对比

作为AI的核心组成部分“数据”,Web3与我们熟悉的Web2有很大不同。 Web2和Web3的区别主要在于应用架构,从而导致数据特征不同。

2.1.1 Web2 Web3应用架构对比

图4:Web2 Web3应用架构

在Web2架构中,单个实体(通常是公司)通常控制网页或APP。该公司对其构建的内容拥有绝对的控制权。他们可以决定谁可以访问其服务器上的内容和逻辑以及用户。您拥有哪些权利还可以决定内容在网上存在的时间。许多案例表明,互联网公司有权改变其平台规则,甚至暂停向用户提供服务,而用户却无法保留所创造的价值。

Web3架构依赖于通用状态层的概念,将部分或全部内容和逻辑放置在公共区块链上。这些内容和逻辑都公开记录在区块链上,所有人都可以访问。用户可以直接控制链上的内容和逻辑。在Web2 中,用户需要帐户或API 密钥才能与区块链上的内容进行交互。用户可以直接控制其相应的链上内容和逻辑。与Web2 不同,Web3 用户不需要授权帐户或API 密钥即可与区块链上的内容进行交互(某些管理操作除外)。

2.1.2 Web2和Web3数据特征对比

图5:Web2和Web3数据特征对比

Web2数据通常是封闭的、高度受限的、权限控制复杂、成熟度高、数据格式多样、严格遵守行业标准、业务逻辑抽象复杂。这些数据规模较大,但互操作性较低,通常存储在中心服务器上,不注重隐私保护,且大多是非匿名的。

相比之下,Web3数据更加开放,拥有更广泛的访问权限,虽然还不太成熟,以非结构化数据为主,标准化很少,业务逻辑抽象也相对简化。 Web3的数据规模比Web2小,但具有较高的互操作性(例如EVM兼容性),可以以分散或集中的方式存储数据。它还强调用户隐私,用户通常在链上匿名交互。

2.2 Web3数据产业现状、前景以及遇到的挑战

在Web2时代,数据就像石油“储量”一样珍贵,访问和获取大规模数据一直是一个巨大的挑战。在Web3中,数据的开放和共享突然让大家感觉“石油无处不在”,让AI模型更容易获得更多的训练数据,这对于提高模型性能和智能至关重要。然而,Web3这个“新石油”的数据处理仍然存在很多问题需要解决,主要包括以下几个方面:

数据来源:链上数据“标准”复杂且分散,数据处理消耗大量人力成本。在处理链上数据时,需要反复执行耗时耗力的索引过程,需要开发人员和数据分析师花费大量的时间和资源来适应不同的链和不同项目之间的数据差异。链上数据行业缺乏统一的生产和处理标准。除了记录在区块链账本上之外,事件、日志和痕迹基本上都是由项目本身定义和产生(或生成)的,这导致非专业交易者很难辨别和找到最准确和可信的数据,增加了他们进行链上交易和投资决策的困难。例如,去中心化交易所Uniswap和Pancakeswap可能在数据处理方式和数据口径上存在差异,而过程中的检查和统一口径等程序进一步增加了数据处理的复杂性。

数据更新:链上数据量大、更新频率高,难以及时处理成结构化数据。区块链每时每刻都在变化,数据更新以秒甚至毫秒为单位。数据的频繁生成和更新使得数据难以保持高质量的处理和及时更新。因此,自动化处理流程非常重要,这也是对数据处理成本和效率的重大挑战。 Web3 数据行业仍处于起步阶段。随着新合约的不断出现和迭代更新,数据缺乏标准和格式多样,进一步增加了数据处理的复杂性。

数据分析:链上数据的匿名性导致数据身份难以区分。链上的数据通常不包含足够的信息来清楚地识别每个地址的身份,这使得数据很难与链下的经济、社会或法律趋势联系起来。然而,链上数据的趋势与现实世界密切相关。了解链上活动与现实世界中特定个人或实体之间的关联性对于数据分析等特定场景非常重要。

随着大语言模型(LLM)技术引发的生产力变革的讨论,能否利用AI来解决这些挑战也成为Web3领域的焦点之一。

3AI与Web3数据碰撞引发的化学反应3.1传统AI与LLM特点对比

在模型训练方面,传统的AI模型通常规模较小,参数数量从数万到数百万不等,但为了保证输出结果的准确性,需要大量的人工标注数据。 LLM如此强大的部分原因是它使用海量语料库来拟合数百亿甚至更多数千亿的参数,这大大提高了其理解自然语言的能力,但这也意味着需要更多的数据来训练很贵。

从能力范围和操作方式来看,传统人工智能更适合特定领域的任务,能够提供相对准确和专业的答案。相比之下,LLM更适合一般任务,但容易出现幻觉问题,这意味着在某些情况下,其答案可能不够精确或不够专业,甚至完全错误。因此,如果需要客观、可信、可追溯的结果,可能需要多次检查、多次训练,或者引入额外的纠错机制和框架。

图6:传统AI与大模型语言模型(LLM)的特征对比

3.1.1 传统AI在Web3数据领域的实践

传统人工智能已经在区块链数据行业展现出其重要性,为该领域带来更多创新和效率。例如,0xScope团队利用AI技术构建了基于图计算的聚类分析算法,通过不同规则的权重分配,帮助准确识别用户之间的相关地址。这种深度学习算法的应用提高了地址聚类的准确性,为数据分析提供了更精准的工具。 Nansen 使用AI 进行NFT 价格预测,通过数据分析和自然语言处理技术提供对NFT 市场趋势的洞察。另一方面,Trusta Labs利用基于资产图挖掘和用户行为序列分析的机器学习方法,增强其女巫检测解决方案的可靠性和稳定性,帮助维护区块链网络生态系统的安全。另一方面,Trusta Labs利用图挖掘和用户行为分析方法来增强其Sybil检测解决方案的可靠性和稳定性,帮助维护区块链网络的安全。 Goplus 在运营中利用传统人工智能来提高去中心化应用程序(dApp) 的安全性和效率。他们收集和分析来自dApp 的安全信息,提供快速风险警报,以帮助减少这些平台上的风险暴露。这包括通过评估开源状态和潜在恶意行为等因素来检测dApp 主合约中的风险,以及收集详细的审计信息,包括审计公司凭证、审计时间和审计报告链接。 Footprint Analytics 使用AI 生成代码,生成结构化数据、分析NFT 交易、清洗交易以及机器人账户筛选和故障排除。

然而,传统AI信息有限,侧重于使用预先确定的算法和规则来执行预设任务,而LLM从大规模自然语言数据中学习,可以理解和生成自然语言,这使其更适合处理复杂而庞大的任务。文本数据量。

近来,随着LLM取得重大进展,人们对AI与Web3数据的结合也进行了一些新的思考和探索。

3.1.2 法学硕士的优势

LLM相对于传统人工智能具有以下优势:

可扩展性:LLM支持大规模数据处理LLM在可扩展性方面表现出色,可以高效处理大量数据和用户交互。这使得它非常适合需要大规模信息处理的任务,例如文本分析或大规模数据清理。其高度的数据处理能力为区块链数据行业提供了强大的分析和应用潜力。

适应性:LLM可以学习以适应多个领域的需求LLM具有出色的适应性,可以针对特定任务进行微调或嵌入到行业或私人数据库中,使其能够快速学习并适应不同领域的细微差别。这一特性使得LLM成为解决多领域、多用途问题的理想选择,为区块链应用的多样性提供更广泛的支持。

提高效率:LLM 自动化任务以提高效率。 LLM的高效率给区块链数据行业带来了显着的便利。它可以自动执行原本需要大量手动时间和资源的任务,从而提高生产力并降低成本。 LLM可以在几秒钟内生成大量文本、分析海量数据集或执行各种重复性任务,减少等待和处理时间,使区块链数据处理更加高效。

任务分解:可以针对某些任务生成具体的计划,并将大任务分解为小步骤。 LLM Agent 具有独特的能力,可以为某些任务生成特定计划并将复杂的任务分解为可管理的步骤。这一特性对于处理大规模区块链数据和执行复杂的数据分析任务非常有利。通过将大工作分解为小任务,LLM可以更好地管理数据处理过程并输出高质量的分析。

这种能力对于执行机器人自动化、项目管理以及自然语言理解和生成等复杂任务的人工智能系统至关重要,使它们能够将高级任务目标转化为详细的行动过程,提高任务执行的效率和准确性。

可访问性和易用性:LLM以自然语言提供用户友好的交互LLM的可访问性使更多用户能够轻松地与数据和系统进行交互,使这些交互更加用户友好。通过自然语言,LLM使数据和系统更容易访问和交互,不需要用户学习复杂的技术术语或特定命令如SQL、R、Python等来进行数据采集和分析。这一特性拓宽了区块链应用的受众,让更多人无论懂技术与否,都可以访问和使用Web3应用和服务,从而促进区块链数据行业的发展和普及。

3.2 LLM与Web3数据的整合

图7:区块链数据与LLM的整合

大型语言模型的训练需要依赖大规模数据,通过学习数据中的模式来构建模型。区块链数据中包含的交互和行为模式是LLM 学习的动力。数据的数量和质量也直接影响LLM模型的学习效果。

数据不仅仅是LLM的消耗品,LLM有助于产生数据,甚至可以提供反馈。例如,LLM可以协助数据分析师进行数据预处理,例如数据清理和注释,或者生成结构化数据以消除数据中的噪音并突出有效信息。

3.3 提升LLM的常用技术方案

ChatGPT的出现不仅向我们展示了LLM解决复杂问题的通用能力,也引发了全球范围内对通用能力叠加外部能力的探索。这包括一般能力的增强(包括上下文长度、复杂推理、数学、代码、多模态等)以及外部能力的扩展(处理非结构化数据、使用更复杂的工具、与物理世界交互等)。 )。如何将密码领域的专有知识和个人个性化隐私数据嫁接到大模型的通用能力上,是密码垂直领域大模型商业化的核心技术问题。

目前,大多数应用集中在检索增强生成(RAG)上,例如提示工程和嵌入技术,并且大多数现有代理工具都专注于提高RAG工作的效率和准确性。市场上基于LLM技术的应用栈主要参考架构如下:

快速工程图8:快速工程

目前,大多数从业者在构建应用程序时使用基础解决方案,即Prompt Engineering。这种方法是通过设计特定的Prompt来满足特定应用的需要来改变模型的输入的最方便快捷的方法。但基础Prompt Engineering存在一些局限性,例如数据库更新不及时、内容繁琐、对输入上下文长度(In-Context Length)的支持以及多轮问答的限制等。

因此,业界也在研究更先进的改进方案,包括嵌入和微调。

Embedding 嵌入是人工智能领域广泛应用的一种数据表示方法,可以高效捕获对象的语义信息。通过将对象属性映射为向量形式,嵌入技术可以通过分析向量之间的相关性来快速找到最可能的正确答案。嵌入可以建立在法学硕士之上,以利用该模型在广泛的语料库中学到的丰富的语言知识。通过嵌入技术将特定任务或领域的信息引入到预训练的大模型中,使模型更加专业化,更适应特定任务,同时保留基础模型的通用性。

通俗地说,嵌入类似于给一个经过综合训练的大学生一本参考书,要求他用一本有与特定任务相关知识的参考书来完成任务。他可以随时查阅参考书,然后解决具体问题。问题。

微调图9:微调

微调与嵌入不同,微调是通过更新预训练语言模型的参数以使其适应特定任务。这种方法允许模型在特定任务上表现出更好的性能,同时保持通用性。微调的核心思想是调整模型参数以捕获与目标任务相关的特定模式和关系。然而,微调模型的通用能力上限仍然受到基础模型本身的限制。

通俗地说,微调类似于给经过综合训练的大学生上专业知识课程,让他们在综合能力之外掌握专业课程知识,能够独立解决专业领域的问题。

重新培训法学硕士目前的法学硕士虽然功能强大,但可能无法满足所有需求。再培训法学硕士是一种高度定制的解决方案,通过引入新的数据集并调整模型权重,使其更适合特定的任务、需求或领域。然而,这种方法需要大量的计算资源和数据,管理和维护重新训练的模型也是挑战之一。

代理模型图10:代理模型

Agent模型是一种以LLM为核心控制器构建智能代理的方法。该系统还包括几个关键组件,以提供更全面的智能。

规划:将大任务分成小任务,以便更容易完成记忆、反思:通过反思过去的行为来改进未来的计划工具、工具使用:智能体可以调用外部工具来获取更多信息,例如调用搜索引擎、计算等Agent等智能体模型具有较强的语言理解和生成能力,能够解决一般性问题,进行任务分解和自我反思。这使其在各种应用中具有广泛的潜力。然而,Agent模型也存在一些局限性,例如受上下文长度限制、长期规划和任务分割容易出错、输出内容的可靠性不稳定等。这些局限性需要长期不断的研究和创新,进一步拓展智能体模型在不同领域的应用。

上述各种技术并不相互排斥,可以在训练和增强同一模型的过程中一起使用。开发人员可以充分挖掘现有大型语言模型的潜力,尝试不同的方法来满足日益复杂的应用需求。这种组合使用不仅有助于提高模型性能,还有助于推动Web3 技术的快速创新和进步。

不过,我们认为,虽然现有的LLM在Web3的快速发展中发挥了重要作用,但在充分尝试这些现有模型(如OpenAI、Llama 2等开源LLM)之前,我们可以先由浅入深,从快速工程和嵌入等RAG 策略开始,并仔细考虑微调和重新训练基础模型。

3.4 LLM如何加速区块链数据生产的各个流程

3.4.1 区块链数据的一般处理流程

如今,区块链领域的建设者正在逐渐认识到数据产品的价值。该价值涵盖产品运营监控、预测模型、推荐系统、数据驱动应用等多个领域。尽管这种意识逐渐增强,但数据处理作为从数据获取到数据应用不可或缺的关键步骤却常常被忽视。

图12:区块链数据处理流程

将区块链原有的非结构化数据,如事件、日志等,转换为结构化数据。区块链上的每笔交易或事件都会生成事件或日志,而这些数据通常是非结构化的。该步骤是获取数据的第一个切入点,但数据仍需要进一步处理,提取有用信息,获得结构化的原始数据。这包括组织数据、处理异常以及将其转换为通用格式。

将结构化的原始数据转换为具有业务意义的抽象表。获得结构化的原始数据后,需要对业务进行进一步抽象,将数据映射到业务实体和指标,如交易量、用户量等业务指标。原始数据转化为对业务和决策有意义的数据。

从抽象表中,计算并提取业务指标。有了抽象的业务数据后,您可以对业务抽象数据进行进一步的计算,得出各种重要的衍生指标。例如,总交易额月增长率、用户留存率等核心指标。这些指标可以借助SQL、Python等工具来实现,更有可能帮助监控业务健康状况、了解用户行为和趋势,以支持决策和战略规划。

3.4.2 区块链数据生成流程添加LLM后的优化

LLM可以解决区块链数据处理中的多个问题,包括但不限于以下:

处理非结构化数据:

从交易日志和事件中提取结构化信息:LLM可以分析区块链交易日志和事件,提取关键信息,如交易金额、交易方地址、时间戳等,将非结构化数据转换为具有商业意义的数据,让事情变得更容易来分析和理解。清洗数据并识别异常数据:LLM可以自动识别和清洗不一致或异常数据,帮助保证数据的准确性和一致性,从而提高数据质量。执行业务抽象:

将原始链上数据映射到业务实体:LLM可以将原始区块链数据映射到业务实体,例如将区块链地址映射到实际用户或资产,使业务处理更加直观和有效。处理非结构化的链上内容并对其进行标记:LLM可以分析非结构化数据,例如Twitter情绪分析结果,并将其标记为积极、消极或中性情绪,从而帮助用户更好地了解社交媒体上的情绪倾向。数据的自然语言解释:

计算核心指标:基于业务抽象,LLM可以计算核心业务指标,例如用户交易量、资产价值、市场份额等,帮助用户更好地了解其业务的关键绩效。查询数据:LLM可以通过AIGC理解用户意图并生成SQL查询,允许用户用自然语言提出查询请求,而无需编写复杂的SQL查询语句。这增加了数据库查询的可访问性。指标选择、排序和相关性分析:LLM可以帮助用户对不同的多个指标进行选择、排序和分析,以更好地理解它们之间的关系和相关性,从而支持更深入的数据分析和决策。生成业务抽象的自然语言描述:LLM可以根据事实数据生成自然语言摘要或解释,帮助用户更好地理解业务抽象和数据指标,提高可解释性,使决策更加理性。 3.5 当前用例

根据LLM自身的技术和产品经验优势,可以应用于不同的链上数据场景。从技术上来说,这些场景可以从易到难分为四类:

数据转换:进行数据增强、重构等操作,如文本摘要、分类、信息提取等。此类应用开发速度较快,但更适合一般场景,不适合对大量数据进行简单的批量处理。自然语言界面:将法学硕士连接到知识库或工具,以自动化问答或基本工具的使用。这可以用来构建专业的聊天机器人,但其实际价值受到其他因素的影响,例如它所连接的知识库的质量。工作流程自动化:使用法学硕士来标准化和自动化业务流程。这可以应用于更复杂的区块链数据处理流程,例如解构智能合约操作流程、风险识别等。 辅助机器人和助理辅助系统:辅助系统是基于自然语言集成更多数据源和功能的增强系统界面,大大提高用户效率。图11:LLM应用场景

3.6 法学硕士的局限性

3.6.1 行业现状:成熟的应用、正在克服的问题和尚未解决的挑战

在Web3数据领域,虽然已经取得了一些重要进展,但仍然存在一些挑战。

比较成熟的应用:

利用LLM进行信息处理:LLM等AI技术已成功用于生成文本摘要、摘要、解释等,帮助用户从长篇文章和专业报告中提取关键信息,提高数据的可读性和可理解性。用AI解决开发问题:LLM已经被用来解决开发过程中的问题,比如取代StackOverflow或搜索引擎为开发者提供问题解答和编程支持。待解决和探索的问题:

利用LLM进行代码生成:业界正在努力将LLM技术应用于自然语言到SQL查询语言的转换,以提高数据库查询的自动化和可理解性。然而,这个过程中会遇到很多困难。例如,在某些情况下,生成的代码需要极高的准确性,语法必须100%正确,才能保证程序能够无bug地运行并获得正确的结果。困难还包括保证答题的成功率和正确性,以及保证

业务的深刻理解。数据标注问题:数据标注对于机器学习和深度学习模型的训练至关重要,但在 Web3 数据领域,特别是处理匿名的区块链数据时,标注数据的复杂性较高。准确性和幻觉(Hallucination)问题:AI 模型中幻觉的出现可能受多因素影响,包括有偏见或不足的训练数据、过度拟合、有限的上下文理解、缺乏领域知识、对抗性攻击和模型架构。研究人员和开发者需要不断改进模型的训练和校准方法,以提高生成文本的可信度和准确性。利用数据进行业务分析和文章输出:将数据用于业务分析和生成文章仍然是一个具有挑战性的问题。问题的复杂性、需要精心设计的提示(prompt)、以及高质量的数据、数据量、减少幻觉问题的方法都是待解决的问题。根据业务领域自动索引智能合同数据以进行数据抽象:自动为不同业务领域的智能合同数据建立索引以进行数据抽象仍然是一个未解决的问题。这需要综合考虑不同业务领域的特点,以及数据的多样性和复杂性。处理时序数据,表格文档数据等更复杂的模态:DALL·E 2 等多模态模型非常擅长在文字生成图像、语音等常见模态。而在区块链以及金融领域需要特别地对待一些时序数据,而非简单地把文本向量化就能解决。联和时序数据与文本,跨模态联合训练等,是实现数据智能分析以及应用的重要研究方向。3.6.2 为何只靠 LLM 不能完美解决区块链数据行业的问题
作为语言模型,LLM 更适用于处理对流畅度要求较高的场景,而在追求准确性方面,可能需要对模型进行更进一步的调整。在将 LLM 应用于区块链数据行业时,以下框架可提供一些参考。
图 13:区块链数据行业下 LLM 输出的流畅性、准确性和用例风险
在评估 LLM 在不同应用中的适用性时,关注流畅度和准确性是至关重要的。流畅度指的是模型的输出是否自然、通顺,准确性则表示模型的答案是否准确。这两个维度在不同应用场景中有不同的要求。
对于流畅度要求较高的任务,如自然语言生成、创意写作等,LLM 通常能够胜任,因为其在自然语言处理方面的强大性能使其能够生成流畅的文本。
区块链数据面临着数据解析、数据处理、数据应用等多方面的问题。LLM 拥有卓越的语言理解和推理能力,使其成为与区块链数据互动、整理和概括的理想工具。然而,LLM 并不能解决所有区块链数据领域的问题。
在数据处理方面,LLM 更适合快速迭代和探索性处理链上数据,不断尝试新的处理方法。然而,LLM 在生产环境中的详细核对等任务方面仍存在一些限制。典型的问题是 token 长度不够,无法应对长上下文的内容。耗时的 prompt,回答不稳定影响下游任务进而导致成功率不稳定的问题,以及执行大批量任务的效率不高。
其次,LLM 处理内容的过程中很可能出现幻觉问题。据估计,ChatGPT 的幻觉概率约为 15% 至 20%,而由于其处理过程的不透明性,很多错误难以察觉。因此,框架的建立和专家知识的结合变得至关重要。此外,LLM 结合链上数据还是有很多挑战:
链上数据实体类型多、数量庞大,以何种形式投喂给 LLM,有效地运用在具体的商业化场景,类似其他垂直行业,需要更多研究和探索。链上数据包括结构化和非结构化数据,目前行业大多数数据解决方案,都是基于对业务数据的理解。解析链上数据的过程中,用 ETL 去过滤,清洗,补充和复原业务逻辑,进一步把非结构化数据整理为结构化数据,可以为后期多种业务场景提供更高效的分析。比如,结构化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高质量,高价值,准确和真实等特点,可以给通用 LLM 提供高效的补充。
4被误解的 LLMLLM 可以直接处理非结构化数据,因此结构化数据将不再被需要?LLM 通常基于海量文本数据预训练而来,天然适合处理各类非结构化的文本数据。然而,各个行业已经拥有大量结构化数据,尤其 Web3 领域中解析后的数据。如何有效的利用这些数据,增强 LLM,是一个行业的热门研究课题。
对于 LLM,结构化数据仍然具有以下的优势:
海量:大量的数据储存在各种应用背后的数据库和其他标准格式里面,特别是私有数据。每个公司和行业都还有大量 LLM 没有用于预训练的墙内数据。已有:这些数据不需要重新生产,投入成本极低,唯一的问题是怎么用起来。高质量和高价值:领域内长期积累的,蕴含专家的专业知识,通常都沉淀到了结构化数据里面,用于产学研。结构化数据的质量是数据可用性的关键,其中包括数据的完整性、一致性、准确性、唯一性和事实性。高效率:结构化数据以表格、数据库或其他规范格式存储,模式是预先定义的,并且在整个数据集中保持一致。这意味着数据的格式、类型和关系都是可预测和可控的,使得数据的分析和查询更加简单和可靠。而且,行业已经有成熟的 ETL 及各种数据处理和管理工具,使用起来也更加高效和便捷。LLM 可以通过 API,把这些数据使用起来。准确性和事实性:LLM 的文本数据,基于 token 概率,目前还不能稳定的输出确切的答案,产生的幻觉问题一直是 LLM 要解决的核心根本问题。对于很多行业和场景,会形成安全和可靠性问题,比如,医疗,金融等。结构化数据,正是可以辅助和矫正LLM 这些问题的一个方向。体现关系图谱,和特定业务逻辑:不同类型的结构化数据,可以以特定的组织形式(关系型数据库,图数据库等),输入到 LLM,解决不同类型的领域问题。结构化数据使用标准化的查询语言(如 SQL),使得对数据进行复杂的查询和分析变得更加高效和准确。知识图谱 (Knowledge Graph) 可以更好地表达实体之间的关系,也更容易进行关联查询。使用成本低:不用 LLM 每次重新从底层重新训练整个底座模型,可以结合 Agents 和LLM API 等 LLM 赋能方式,更快更低成本的接入 LLM。目前市场上还有一些脑洞大开的观点,认为 LLM 在处理文本信息和非结构化信息方面的能力极强,只需将原始数据,包括非结构化数据,简单导入到 LLM,就能达到目的。这个想法类似于要求通用 LLM 解数学题,在没有专门构建数学能力模型的情况下,大多数 LLM 可能会在处理简单的小学加减题时出错。反而,建立类似数学能力模型,和图像生成模型的 Crypto LLM 垂直模型,才是解决 LLM 在 Crypto 领域更落地的实践。
4.2 LLM 可以从新闻、推特等文字信息推测内容,人们不再需要链上数据分析来得出结论?
LLM 虽然可以从新闻、社交媒体等文本中获得信息,但直接从链上数据中获得的洞察仍然是不可或缺的,主要原因有:
链上数据是原始的第一手资讯,而新闻和社交媒体中的信息可能存在片面性或误导性。直接分析链上数据可以减少信息偏差。尽管利用 LLM 进行文本分析存在理解偏差的风险,但直接分析链上数据可以减少误读。链上数据包含全面的历史交互和交易记录,分析可以发现长期趋势和模式。链上数据还可以展现整个生态系统的全貌,如资金流向、各方关系等。这些宏观的洞察有助于更深入地理解状况。而新闻和社交媒体信息通常更零散且短期。链上数据是开放的。任何人都可以验证分析结果,避免信息的不对称。而新闻和社交媒体未必都如实披露。文本信息和链上数据可以相互验证。综合两者可以形成更立体和准确的判断。链上数据分析仍是不可或缺的。LLM 从文本中获取信息具有辅助作用,但不能取代直接分析链上数据。充分利用两者优势才能取得最佳效果。
4.3 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的基础上构建区块链数据解决方案非常容易?
LangChain 和 LlamaIndex 等工具为构建自定义的简单 LLM 应用提供了便利,使快速搭建成为可能。然而,将这些工具成功应用于实际生产环境中涉及到更多的挑战。构建一个高效运行、保持高质量的 LLM 应用是一项复杂的任务,需要深入理解区块链技术和 AI 工具的工作原理,并有效地将它们整合在一起。这对于区块链数据行业来说,是一项重要但具有挑战性的工作。
在这个过程中,必须认识到区块链数据的特性,它要求极高的精准性和可重复校验性。一旦数据通过 LLM 进行处理和分析,用户对其准确性和可信度有很高的期望。这与 LLM 的模糊容错性之间存在着潜在的矛盾。因此,在构建区块链数据解决方案时,必须仔细权衡这两方面的需求,以满足用户的期望。
当前市场上,虽然已经有了一些基础工具,但这个领域仍在快速演进和不断迭代。类比于 Web2 世界的发展历程,从最初的 PHP 编程语言到更成熟、可扩展的方案如 Java、Ruby、Python,以及 JavaScript 和 Node.js 等,再到 Go 和 Rust 等新兴技术,都经历了不断的演变。AI 工具也在不断变化,新兴的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未来可能性的一部分。这表明,区块链数据行业和 AI 技术都还有许多发展空间,需要不断努力和创新。
当前在应用 LLM 时,有两个陷阱需要特别注意:
期望值过高:很多人认为 LLM 可以解决一切问题,但实际上 LLM 有明显的局限性。它需要大量的计算资源,训练成本高昂,而且训练过程可能不稳定。对 LLM 的能力要有现实的期望,明白它在某些场景下表现出色,如自然语言处理和文本生成,但在其他领域可能无法胜任。忽视业务需求:另一个陷阱是强行应用 LLM 技术,而不充分考虑业务需求。在应用 LLM 之前,务必明确具体的业务需求。需要评估 LLM 是否是最佳技术选择,并做好风险评估和控制。强调 LLM 的有效应用需要根据实际情况慎重考虑,避免误用。尽管 LLM 在许多领域都具备巨大潜力,但开发者和研究者在应用 LLM 时需要保持谨慎,采取开放的探索态度,以找到更适合的应用场景并最大程度地发挥其优势。

上一篇
下一篇

为您推荐

手机访问
手机扫一扫打开网站

手机扫一扫打开网站

返回顶部