近期,观远数据G-park「Let's Date!BI!」系列直播第二期“2023,金融业如何应对‘流浪数据’”圆满结束。观远数据联合创始人兼首席数据科学家字节深度探讨了《漫谈 ChatGPT 与问答式 BI》的思考。
字节首先介绍了一系列基于大语言模型的工具,如ChatGPT,以及它们如何在日常工作和生活中提升效率。其次,字节聚焦在BI和数据分析领域,强调了对话式和问答式BI在未来可能带来的无限创新。
漫谈 ChatGPT
从工作和生活的角度,ChatGPT在阅读、编写代码以及各种创作方面都产生了显著的影响。
搜索
ChatGPT的出现被认为可能颠覆传统搜索引擎。在过去,为了获取特定信息,人们需要在Google或百度上进行关键词搜索,然后逐一查看网页以获取相关信息。这通常涉及翻阅许多无关紧要的内容,浪费了大量时间。
然而,在ChatGPT中,用户可以通过直接提问获取准确的答案。尽管ChatGPT有一些缺陷,比如信息截至于2021年,以及缺乏即时的互联网信息,但New Bing已经集成了ChatGPT的模型,实现了搜索结果的直接反馈。例如,在处理代码问题时,传统搜索可能跳转到开发网站,而New Bing直接列出可运行的代码,提供了更加方便和高效的体验。
在企业内部,类似的搜索优势也适用。通过ChatGPT的能力,企业内部的信息管理系统可以直接反馈结论,避免了一篇篇手动搜索的过程,从而节省了大量时间。
此外,还有一些项目如perplexity.ai和you.com,提供了直接访问ChatGPT形式的问答,为用户提供了高效的信息获取工具。
通过这些探讨,我们看到了ChatGPT在不同领域带来的积极影响,尤其在信息获取和处理方面展现了强大的潜力。这为未来的技术发展和应用提供了广阔的前景。
阅读与搜索创新
在阅读方面,有两款卓越的产品值得关注,分别是Bearly.ai和TLDR this。Bearly.ai是一款浏览器插件,当用户打开长篇文章时,它会自动总结文章内容,提炼出关键结构,有效提高阅读效率。此外,该插件还可在购物网站如亚马逊上,遍历商品的用户评论,并进行好评、差评的总结。对于企业内部,无论是邮件、微信沟通,还是外部评论,通过信息搜集和基于GPT模型的能力,快速了解产品服务的优劣成为可能。
搜索与阅读的结合
除了搜索,Google的产品Talk to Books也是一项令人瞩目的工具。用户提出问题后,它将从历史上已出版的书籍中摘录问题相关的原文,并展示来源书籍。这种问答式的搜索不仅仅是严格的关键词匹配,它通过自然语言理解语义,找到相关文档,全面展示了产品体验的重要基础进步。
代码生成的创新
目前在代码生成方面涌现了众多成熟应用,例如通过注释自动生成代码,或者通过选中代码进行语义注释、测试、检查性能等。其中著名的有ChatGPT、Copilot,以及Tabnine、CodeGeeX等,也有专门领域的生成工具,如Warp中自带的AI能力可生成终端命令,PingCAP之前推出的Chat2Query能帮助自动生成SQL,还有像Seek.ai、Manson等更面向业务用户的数据分析工具。此外,针对自动化测试生成的Codium,自动文档生成的Mintlify,以及集成各种功能的Bito也为用户提供了更多选择。
这些创新不仅在提高工作效率和信息获取速度方面发挥着关键作用,还为用户提供了更广泛的应用选择。
提升软件质量计划的创作
在创作领域,以“编写一份软件质量提升计划”为例,我们可以借助notion.ai生成10-20个高质量的计划建议。通过这些建议,再通过交互式指令展开二级列表并进行排期执行,能够更好地规划和执行工作。
在工作中,当需要制定各种计划时,这些工具可以自动生成常规性的计划提纲。我们只需在这个基础上结合公司的实际情况,进行个性化修改即可。
指导 ChatGPT 提问题
自ChatGPT推出以来,许多人已经将其纳入工作中。然而,一个常见问题是我们如何更好地向ChatGPT提问题。尽管ChatGPT拥有强大的回答能力,但要获得高质量的回答,我们需要清晰描述问题。
在这方面,有一系列工具可以帮助我们在特定场景下更好地提问。这些网站提供了提示词模板,帮助我们更好地构建问题。此外,还有其他用户分享的高质量提问经验。
这些资源不仅为我们提供了更好的提问方法,还能够借助其他用户的经验分享,提高我们在与ChatGPT交互时的效率和质量。
ChatGPT常见问题与解决方案
在使用ChatGPT产品时,一些常见问题可能会出现:
胡编乱造回答: ChatGPT的回答可能存在不准确或虚构的情况。为了优化这一问题,我们可以使用提示词并构建更清晰的语境,以降低胡编乱造的可能性。例如,在提问公司的业绩表现时,通过给出相关提示词和语境,可以提高回答的准确性。
信息时效性: ChatGPT只了解截至21年前公开网络的信息。为了解决这一问题,可以使用New Bing,该工具结合了ChatGPT的总结能力和搜索能力,获取最新信息,降低信息时效性问题。
公开信息局限性: 针对企业内部信息,可以通过信息输入进行进一步训练,提升模型的信息广度。例如,在提交企业内部信息后,模型可以更好地回答与企业相关的问题,实现个性化的智能问答。
数据安全问题: 在涉及敏感数据时,通过给ChatGPT提交schema信息而非完整数据表信息,让ChatGPT返回SQL语句。内部通过这条SQL语句搜索获取数据,有效避免了数据泄露的风险。对于极度敏感的数据,未来的私有化部署也是一个可行的解决方案,确保数据的安全性。
通过以上方法,我们能够更好地应对ChatGPT使用过程中的一些常见问题,并提高其应用的准确性和安全性。
AI时代下的人类角色与创造力
在AI时代,我们可以观察到许多传统上需要耗费大量时间进行的重复性劳动、脑力劳动、甚至知识性劳动,现在都可以通过ChatGPT等技术来代替。在这个新时代中,人类应该发挥怎样的价值?我们应该致力于哪些方向?
首先,我们需要深入了解AI的基本运作模式,理解其工作原理;其次,我们应该认识到AI与人类智能之间的区别,了解AI擅长和不擅长的领域;最后,我们需要思考在日常工作中,哪些任务可以交给AI完成,哪些任务仍需由人类来承担。
充分利用AI有望使我们的工作效率成倍提升。在这里,我着重分享一下我对人类与AI区别的个人理解。
首先是批判性思维和创造力。这是AI相对匮乏的领域,因为AI只有在收到我们的指令后才能展现其能力。
其次是同理心,AI很难真正理解用户所处的具体情境,而人与人之间更容易建立共鸣。
最后,在具备同理心的基础上,人类可以进行产品构思、原型制作,以及后续产品发布的测试与迭代。这些任务都是模型不太擅长处理的。
然而,在上述过程中,ChatGPT等工具可以提供良好的辅助作用。在产品构思阶段,它可以协助我们进行头脑风暴,列出关键意见,为创造性的过程提供支持。
通过这种协同作用,我们可以更好地发挥人类与AI各自的优势,实现更高效、更创新的工作方式。
问答式BI的创新思考
在BI数据分析的全链路,从“问题定义—数据接入—数据处理—可视化展示—交互分析—决策行动”,我们发现ChatGPT有许多机会能够结合进来。
问题定义: 部分场景问题可以基于ChatGPT获得初步的数据分析与决策计划,随后通过人工校对与修改进行进一步优化。
数据接入: 以前,非结构化数据通常需要进行繁琐的清洗,而现在一些数据或许可以直接进行端到端的分析,简化了数据接入的流程。
数据处理: ChatGPT在ETL开发中可以作为数据工程师的助手。通过自然语言提问,ChatGPT生成SQL以供用户使用,并能进行多轮交互式构建。即便在第一步出现偏差,也可以在后续步骤中进行修正。
可视化展现: 实现问答式BI,用户可以在提交问题后,ChatGPT自动生成SQL,并生成文字结论以及后续的行动建议,实现了快速获取数据结果与结论的目标。
交互分析: 通过BI系统能力,连接企业内部各类数据源,提供可信的业务分析报告。ChatGPT能够自动识别异常原因并以自然语言的方式展示,规避了因数据分析方法差异带来的认知偏差。
决策行动: ChatGPT提供辅助性的预测,基于历史行动制定未来的推荐建议。
以上特别强调了在“数据处理”、“可视化展现”和“交互分析”领域,观远数据在整合ChatGPT方面的一些尝试和探索。
Chat2SQL:交互式SQL生成插件
Chat2SQL是我们开发的一款浏览器插件,专为辅助数据处理而设计。在需要编写SQL的时候,用户可以轻松地调用这一插件。通过自然语言的交互,插件能够自动生成相应的SQL语句。
这种交互式提问的方式带来了许多优势。首先,它具有不断修正错误的能力。尽管在初始阶段可能存在一些偏差,但随着交互的深入,插件能够提供准确的结果。其次,当面对复杂的SQL需求时,交互式的方式允许逐步生成SQL,逐渐构建出最终的成果,确保准确性极高。这将为构建新的数据处理范式提供一种全新的途径。
Chat2Viz:自然语言可视化探索
在可视化展现领域,即用户提问后直接呈现可视化结果,我们曾在BI Dashboard的交互分析中遇到了一些麻烦。然而,如果能够像Google一样,通过简单搜索即可呈现结果,这将是一项重大的进步。
以国外的ThoughtSpot产品为例,其搜索栏通过关键词如转化率、渠道、上个月等展示可视化内容。然而,真正的自然语言应该是:上个月的每天转化率是多少?
为此,我们推出了一个产品原型——Chat2Viz。用户首先通过自然语言在输入栏中进行查询,产品将自动生成查询SQL,并将其提交至ChatGPT生成文字结论、可视化内容、其他卡片的推荐以及后续的行动建议。这对于业务用户而言是非常方便的。
Chat2DataStory:开启数据故事新纪元
随着Chat2Viz的发展,我们不禁思考,是否能够进一步演进成为“DataStory”?然而,要实现DataStory,有一个必要的前提条件,即它需要建立在最佳实践的基础上。
为何最佳实践至关重要呢?因为DataStory不仅仅是提供数据,更需要深刻的业务分析链路逻辑。举个例子,一家电商客户通过数据发现天猫渠道的业务影响最大,但这是显而易见的事实,对业务没有太大帮助。因此,DataStory需要提供真正对业务有帮助的信息。
为了实现这一目标,观远数据构建了“自动数据洞察”。其核心是各行各业复杂分析场景的“决策树”。我们可以定期进行决策树链路的分析,可能是每天、每周。
基于决策树的分析链路,用户每天都能自动收到决策树的分析报告。如果一切正常,报告显示今天的数据正常。但如果出现异常情况,将通过醒目的标志提示用户问题所在,以及问题的核心。这构成了DataStory的雏形。此外,用户在周会、月会上提出的问题,甚至对异常问题的追问,都会进一步丰富决策树,最终形成真正有价值的DataStory。
未来,DataStory将支持多轮的交互,用户可以每天向其提问,获取数据报告。在需要开会讨论时,也可直接使用该报告。此外,用户还可以在报告的基础上提出更深入的追问,展开更深度的分析。这是一个极具吸引力且令人激动的发展方向。