就是。简单说就是想看什么样的数据以及分析和归因都可以通过自然语言的方式进行提问然后会返回具体的结果。 给大家个示例: 数据机器人示例-就像这样支持用户进行自然语言交互 在今天看起来是不是非常像大模型?如果那时候有大模型的加
持肯定过会事半功倍当时采用的
方法是非常复杂的不过也有其优点就是能保证 Rang 数据 数据的准确性。 今天就来教大家如何构建问答式的数据机器人以及两种方式各自的优劣。 B 端产品经理如何快速成长? 产品与业务架构主要是将整个业务工作流进行分层梳理然后抽象出一个个需求将业务需求与产品合情合理的映射起来最终使业务数据在产品中流动执行记录使用。 查看详情 > 我之
前的方式是采用:NLP分词+知识图谱的方式(在增强分析领域可以称为)。这个过程是通过NLP解析用户自然语言的问题转换为SQL然后通过SQL在对应的指标图谱中通过多维指标的数据关系进行指标汇总最后返回给用户数据结果。 查询过程:用户自然语言查询→NLP→SQL→查询指标图谱→数据聚合→图表和数据返回 这里面
其实核心是在做分词把时间
维度和指标名解析出来因为在查询时是基 销是指以发现潜在客户的能 于指标模型(时间周期+修饰词+原子指标)进行的所以只要有查询的指标结构就可以做到。
NLP解析出来后生成的SQL更多的是在做简单查询假设用户要查询「今日杭州新注册用户数」的话对于SQL来讲就是直接查询这个指标(select ‘杭州新注册用户数’ where day=‘今天日期’)但其实这个指标是通过知识图谱(指标图谱)的图关系把「今日」、「杭州」和「新注册用户数」这几个实体和关系的数据进行聚合。 所以复杂关系的指标数
据聚合其实是在知识图谱完成的因为如果让NLP解析后直接 1000个手机号码 生成复杂SQL的话在那个时候技术并不成熟当然对于今天的大模型来说生成复杂的SQL语言是小菜一碟。 去年也就是年初大模型火热的时候我就在思考这个问题如果通过大模型
来实现是否可行这取决于大模型的NLQ能力——对指标与分析相关的自然语言的理解以及转化为SQL的准确性。因为如果通过大模型的方式来实现的话取代的是“NLP→SQL→查询指标图谱”这个流程环节同时也就不需要构建复杂的知识图谱了只需要像数仓中间层正常构建多维的指标数据宽表就够了因为派生指标的聚合其实是在大模型