先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
自从它发布以来,我每天都在使用它,它的能力一直都让我觉得不可思议——尤其是在数据科学领域。这给我了极大便利,因为作为一名内容创作者,我还与一家培训数据科学技能的公司有着合作。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
如何成为一名“ChatGPT”式数据科学家?
我们知道,数据科学是一个跨学科的领域,如网页爬取、数据探索、机器学习和数据可视化。
但他们都和代码有关,这也就是为什么ChatGPT和数据科学扯上了关系。当然,ChatGPT有许多功能,比如你可以让ChatGPT给政府写封信来吓唬你的房东,但现在,让我们看一下如何使用ChatGPT去具体地操作。
网页爬取
图片来自作者
现在,不管是做什么数据科学项目,你的第一步都是找到一个数据集。你可以使用来自不同库的内置数据集,也可以从网络访问数据集。这里有7个免费下载数据集的资源(https://medium.datadriveninvestor.com/7-free-resources-to-download-datasets-4689a419ccf9)。
然而,当时间已经不足,而你又需要提高技能时,你可能会有通过网络爬取数据的想法。
ChatGPT可用于从网页和其他来源爬取数据:《让我们用ChatGPT来学习网页爬取吧!》(https://medium.com/p/8863551d30b4)
此外,你还可以使用我的提示词来学习上面列出的网页爬取库:《现在有一种更好的方法去使用ChatGPT爬取数据!》(https://medium.datadriveninvestor.com/now-theres-an-even-better-way-to-scrape-your-data-with-chatgpt-cc08956f6af4)
数据探索
图片来自作者
既然学会了如何爬取数据,现在是时候学习数据探索了。在我看来,理解数据是数据科学项目中最重要的阶段,所以你需要像一名侦探一样敏锐。
ChatGPT可用于数据探索和分析。通过使用Numpy和Pandas,它可以帮助你识别数据集中的趋势和模式。
Numpy用于数字计算,Pandas用于数据操作,有时,(居然)还可以用于数据可视化。
此外,如果你已经对数据科学有了一定的了解,你可能知道Lambda函数,它可以让你的代码更短、更“整洁”。
机器学习
图片来自作者
数据收集好了,也分析过了,是时候开始创造了。现在,你需要创建可以从数据中学习并进行预测的模型。我之前写过一篇文章:《ChatGPT为机器学习提供了100个最重要的提示词》(https://pub.towardsai.net/chatgpt-guide-for-machine-learning-top-100-most-important-prompts-97bbcf49aca0)。
通过使用这些提示词,构建机器学习模型不是梦。
图片来自作者
此外,如果你对机器学习还不太懂,你可以看看我的这篇文章《使用ChatGPT找到四大AI Python库》(https://pub.towardsai.net/tensorflow-cheat-sheet-say-hi-to-deep-learning-f3f52bf545c1),我在文章中介绍了四大用于AI和机器学习的Python库,并解释了如何使用它们构建机器学习模型。
图片来自作者
在深度学习领域,TensorFlow是最流行的构建神经网络的库之一。如果你对使用TensorFlow进行深度学习感兴趣,请务必点击我的文章《用TensorFlow,对深度学习say hi吧!》(https://pub.towardsai.net/tensorflow-cheat-sheet-say-hi-to-deep-learning-f3f52bf545c1),这篇文章可以快速帮助你上手。
图片来自作者
当然,在将机器学习技术应用于数据之前,你先要对其进行探索和预处理。
数据可视化
图片来自作者
如何找到这些库呢?
你可以选择在ChatGPT键入提示词。但是你要如何能涵盖到所有话题呢?请看《ChatGPT数据可视化指南:最重要的80条提示词》(https://pub.towardsai.net/chatgpt-guide-for-data-visualization-top-80-most-important-prompts-5d2dce4cfae1)。
当然,在找到了这些库之后,我们有很多不同的技巧来创建出色的图表,你可以按照这些步骤进行操作。
选择正确的图表类型
简化图表
使用正确的颜色和字体
将上下文添加到图表中
使图表具有交互性
这些步骤也有指导文章:《ChatGPT帮助你在5个步骤里用Python创建图表》(https://medium.datadriveninvestor.com/chatgpt-helps-you-to-create-graphs-with-python-in-5-steps-55418100d5c1)。
如我们所知,matplotlib是Python中著名的数据可视化库之一。但是,如何才能“读完”matplotlib?你有时间从头到尾读一本书吗?没有。别担心,我帮你读过了,并概括出了以下章节:
折线图
散点图
密度和等高线图
直方图
自定义图
多子图
文本和注释
自定义刻度
三维图
地理数据可视化
“机器学习是人类需要做出的最后一项发明。”
——Nick Bostrom原文作者:Gencay I.
翻译作者:高佑兮