探讨ChatGPT与问答式BI的无限可能性

近期，观远数据G-park「Let's Date！BI！」系列直播第二期“2023，金融业如何应对‘流浪数据’”圆满结束。观远数据联合创始人兼首席数据科学家字节深度探讨了《漫谈 ChatGPT 与问答式 BI》的思考。

字节首先介绍了一系列基于大语言模型的工具，如ChatGPT，以及它们如何在日常工作和生活中提升效率。其次，字节聚焦在BI和数据分析领域，强调了对话式和问答式BI在未来可能带来的无限创新。

漫谈 ChatGPT

从工作和生活的角度，ChatGPT在阅读、编写代码以及各种创作方面都产生了显著的影响。

搜索

ChatGPT的出现被认为可能颠覆传统搜索引擎。在过去，为了获取特定信息，人们需要在Google或百度上进行关键词搜索，然后逐一查看网页以获取相关信息。这通常涉及翻阅许多无关紧要的内容，浪费了大量时间。

然而，在ChatGPT中，用户可以通过直接提问获取准确的答案。尽管ChatGPT有一些缺陷，比如信息截至于2021年，以及缺乏即时的互联网信息，但New Bing已经集成了ChatGPT的模型，实现了搜索结果的直接反馈。例如，在处理代码问题时，传统搜索可能跳转到开发网站，而New Bing直接列出可运行的代码，提供了更加方便和高效的体验。

在企业内部，类似的搜索优势也适用。通过ChatGPT的能力，企业内部的信息管理系统可以直接反馈结论，避免了一篇篇手动搜索的过程，从而节省了大量时间。

此外，还有一些项目如perplexity.ai和you.com，提供了直接访问ChatGPT形式的问答，为用户提供了高效的信息获取工具。

通过这些探讨，我们看到了ChatGPT在不同领域带来的积极影响，尤其在信息获取和处理方面展现了强大的潜力。这为未来的技术发展和应用提供了广阔的前景。

阅读与搜索创新

在阅读方面，有两款卓越的产品值得关注，分别是Bearly.ai和TLDR this。Bearly.ai是一款浏览器插件，当用户打开长篇文章时，它会自动总结文章内容，提炼出关键结构，有效提高阅读效率。此外，该插件还可在购物网站如亚马逊上，遍历商品的用户评论，并进行好评、差评的总结。对于企业内部，无论是邮件、微信沟通，还是外部评论，通过信息搜集和基于GPT模型的能力，快速了解产品服务的优劣成为可能。

搜索与阅读的结合

除了搜索，Google的产品Talk to Books也是一项令人瞩目的工具。用户提出问题后，它将从历史上已出版的书籍中摘录问题相关的原文，并展示来源书籍。这种问答式的搜索不仅仅是严格的关键词匹配，它通过自然语言理解语义，找到相关文档，全面展示了产品体验的重要基础进步。

代码生成的创新

目前在代码生成方面涌现了众多成熟应用，例如通过注释自动生成代码，或者通过选中代码进行语义注释、测试、检查性能等。其中著名的有ChatGPT、Copilot，以及Tabnine、CodeGeeX等，也有专门领域的生成工具，如Warp中自带的AI能力可生成终端命令，PingCAP之前推出的Chat2Query能帮助自动生成SQL，还有像Seek.ai、Manson等更面向业务用户的数据分析工具。此外，针对自动化测试生成的Codium，自动文档生成的Mintlify，以及集成各种功能的Bito也为用户提供了更多选择。

这些创新不仅在提高工作效率和信息获取速度方面发挥着关键作用，还为用户提供了更广泛的应用选择。

提升软件质量计划的创作

在创作领域，以“编写一份软件质量提升计划”为例，我们可以借助notion.ai生成10-20个高质量的计划建议。通过这些建议，再通过交互式指令展开二级列表并进行排期执行，能够更好地规划和执行工作。

在工作中，当需要制定各种计划时，这些工具可以自动生成常规性的计划提纲。我们只需在这个基础上结合公司的实际情况，进行个性化修改即可。

指导 ChatGPT 提问题

自ChatGPT推出以来，许多人已经将其纳入工作中。然而，一个常见问题是我们如何更好地向ChatGPT提问题。尽管ChatGPT拥有强大的回答能力，但要获得高质量的回答，我们需要清晰描述问题。

在这方面，有一系列工具可以帮助我们在特定场景下更好地提问。这些网站提供了提示词模板，帮助我们更好地构建问题。此外，还有其他用户分享的高质量提问经验。

这些资源不仅为我们提供了更好的提问方法，还能够借助其他用户的经验分享，提高我们在与ChatGPT交互时的效率和质量。

ChatGPT常见问题与解决方案

在使用ChatGPT产品时，一些常见问题可能会出现：

胡编乱造回答： ChatGPT的回答可能存在不准确或虚构的情况。为了优化这一问题，我们可以使用提示词并构建更清晰的语境，以降低胡编乱造的可能性。例如，在提问公司的业绩表现时，通过给出相关提示词和语境，可以提高回答的准确性。
信息时效性： ChatGPT只了解截至21年前公开网络的信息。为了解决这一问题，可以使用New Bing，该工具结合了ChatGPT的总结能力和搜索能力，获取最新信息，降低信息时效性问题。
公开信息局限性：针对企业内部信息，可以通过信息输入进行进一步训练，提升模型的信息广度。例如，在提交企业内部信息后，模型可以更好地回答与企业相关的问题，实现个性化的智能问答。
数据安全问题：在涉及敏感数据时，通过给ChatGPT提交schema信息而非完整数据表信息，让ChatGPT返回SQL语句。内部通过这条SQL语句搜索获取数据，有效避免了数据泄露的风险。对于极度敏感的数据，未来的私有化部署也是一个可行的解决方案，确保数据的安全性。

通过以上方法，我们能够更好地应对ChatGPT使用过程中的一些常见问题，并提高其应用的准确性和安全性。

AI时代下的人类角色与创造力

在AI时代，我们可以观察到许多传统上需要耗费大量时间进行的重复性劳动、脑力劳动、甚至知识性劳动，现在都可以通过ChatGPT等技术来代替。在这个新时代中，人类应该发挥怎样的价值？我们应该致力于哪些方向？

首先，我们需要深入了解AI的基本运作模式，理解其工作原理；其次，我们应该认识到AI与人类智能之间的区别，了解AI擅长和不擅长的领域；最后，我们需要思考在日常工作中，哪些任务可以交给AI完成，哪些任务仍需由人类来承担。

充分利用AI有望使我们的工作效率成倍提升。在这里，我着重分享一下我对人类与AI区别的个人理解。

首先是批判性思维和创造力。这是AI相对匮乏的领域，因为AI只有在收到我们的指令后才能展现其能力。
其次是同理心，AI很难真正理解用户所处的具体情境，而人与人之间更容易建立共鸣。
最后，在具备同理心的基础上，人类可以进行产品构思、原型制作，以及后续产品发布的测试与迭代。这些任务都是模型不太擅长处理的。

然而，在上述过程中，ChatGPT等工具可以提供良好的辅助作用。在产品构思阶段，它可以协助我们进行头脑风暴，列出关键意见，为创造性的过程提供支持。

通过这种协同作用，我们可以更好地发挥人类与AI各自的优势，实现更高效、更创新的工作方式。

问答式BI的创新思考

在BI数据分析的全链路，从“问题定义—数据接入—数据处理—可视化展示—交互分析—决策行动”，我们发现ChatGPT有许多机会能够结合进来。

问题定义：部分场景问题可以基于ChatGPT获得初步的数据分析与决策计划，随后通过人工校对与修改进行进一步优化。
数据接入：以前，非结构化数据通常需要进行繁琐的清洗，而现在一些数据或许可以直接进行端到端的分析，简化了数据接入的流程。
数据处理： ChatGPT在ETL开发中可以作为数据工程师的助手。通过自然语言提问，ChatGPT生成SQL以供用户使用，并能进行多轮交互式构建。即便在第一步出现偏差，也可以在后续步骤中进行修正。
可视化展现：实现问答式BI，用户可以在提交问题后，ChatGPT自动生成SQL，并生成文字结论以及后续的行动建议，实现了快速获取数据结果与结论的目标。
交互分析：通过BI系统能力，连接企业内部各类数据源，提供可信的业务分析报告。ChatGPT能够自动识别异常原因并以自然语言的方式展示，规避了因数据分析方法差异带来的认知偏差。
决策行动： ChatGPT提供辅助性的预测，基于历史行动制定未来的推荐建议。

以上特别强调了在“数据处理”、“可视化展现”和“交互分析”领域，观远数据在整合ChatGPT方面的一些尝试和探索。

Chat2SQL：交互式SQL生成插件

Chat2SQL是我们开发的一款浏览器插件，专为辅助数据处理而设计。在需要编写SQL的时候，用户可以轻松地调用这一插件。通过自然语言的交互，插件能够自动生成相应的SQL语句。

这种交互式提问的方式带来了许多优势。首先，它具有不断修正错误的能力。尽管在初始阶段可能存在一些偏差，但随着交互的深入，插件能够提供准确的结果。其次，当面对复杂的SQL需求时，交互式的方式允许逐步生成SQL，逐渐构建出最终的成果，确保准确性极高。这将为构建新的数据处理范式提供一种全新的途径。

Chat2Viz：自然语言可视化探索

在可视化展现领域，即用户提问后直接呈现可视化结果，我们曾在BI Dashboard的交互分析中遇到了一些麻烦。然而，如果能够像Google一样，通过简单搜索即可呈现结果，这将是一项重大的进步。

以国外的ThoughtSpot产品为例，其搜索栏通过关键词如转化率、渠道、上个月等展示可视化内容。然而，真正的自然语言应该是：上个月的每天转化率是多少？

为此，我们推出了一个产品原型——Chat2Viz。用户首先通过自然语言在输入栏中进行查询，产品将自动生成查询SQL，并将其提交至ChatGPT生成文字结论、可视化内容、其他卡片的推荐以及后续的行动建议。这对于业务用户而言是非常方便的。

Chat2DataStory：开启数据故事新纪元

随着Chat2Viz的发展，我们不禁思考，是否能够进一步演进成为“DataStory”？然而，要实现DataStory，有一个必要的前提条件，即它需要建立在最佳实践的基础上。

为何最佳实践至关重要呢？因为DataStory不仅仅是提供数据，更需要深刻的业务分析链路逻辑。举个例子，一家电商客户通过数据发现天猫渠道的业务影响最大，但这是显而易见的事实，对业务没有太大帮助。因此，DataStory需要提供真正对业务有帮助的信息。

为了实现这一目标，观远数据构建了“自动数据洞察”。其核心是各行各业复杂分析场景的“决策树”。我们可以定期进行决策树链路的分析，可能是每天、每周。

基于决策树的分析链路，用户每天都能自动收到决策树的分析报告。如果一切正常，报告显示今天的数据正常。但如果出现异常情况，将通过醒目的标志提示用户问题所在，以及问题的核心。这构成了DataStory的雏形。此外，用户在周会、月会上提出的问题，甚至对异常问题的追问，都会进一步丰富决策树，最终形成真正有价值的DataStory。

未来，DataStory将支持多轮的交互，用户可以每天向其提问，获取数据报告。在需要开会讨论时，也可直接使用该报告。此外，用户还可以在报告的基础上提出更深入的追问，展开更深度的分析。这是一个极具吸引力且令人激动的发展方向。