当前位置:数码通 > 趋势

专访资深数据科学家:成为数据科学家需要具备的素质

来源于 数码通 2023-10-04 10:30

作为一个逐渐成熟的新兴领域,与数据科学相关的许多领域已经开始流行,比如数据工程、数据分析以及机器学习深度学习。数据科学家必须运用科学、创造性和研究思维,从各种数据集中提取有用的信息,以解决客户面临的潜在挑战。

生活会不断产生数据,涉及零售、交通、金融和医疗保健。触手可及的各种计算产品人工智能的快速发展,让一群通过获取、分析和利用原始数据的数据科学家成为人们关注的焦点。

2016年,数据科学家根据Glass的收入潜力、工作满意度和工作经验,选出了北美50个最受欢迎的工作sdo,从各种指标如招聘网站上的需求。

那么,成为一名数据科学家需要具备哪些素质呢?

为了找到答案,我采访了 Refinitiv Labs 的高级数据科学家 Ben Chu。 Chu拥有人工智能背景,专门研究处理语言、语义和图形,并在新加坡路孚特实验室拥有两年工作经验。

1. 保持好奇心

Chu在采访开始时提到,数据科学家应该像调查员一样思考。你必须时刻保持好奇心,始终想知道“为什么?” “这就像你是一名侦探,通过数据拼凑细节来寻找新的线索。”

在金融领域,数据科学家从一系列数据集中提取信息,为客户提供信息并帮助做出决策。数据科学家会关注客户想要解决的问题,然后从获得的数据中提取线索。

通过与楚的交谈,我体会到了抓住重点的重要性和调查背景的重要性。如果不能解决根本问题,即使是最完美的分析也无济于事。有时你需要回去尝试新方法并重新思考事情。核心是保持好奇心并爱上提问。

2.要有创意

数据科学不仅仅指科学方法。这个标题实际上是有误导性的。你不一定要有科研背景,但一定要有创新思维——另一种思维才是解决问题的关键。

“我经常在两种思维之间来回切换,是通过科学思维还是创造性思维来探索更多新的、不同的解决方案。逻辑思维和科学思维对于帮助得出结论至关重要,但创造性思维也同样重要:我也将成功和失败的案例视为新模式的线索。”

3.学习如何编码

您需要扎实的编码技能,才能预处理不同的数据源,并能够使用各种数据处理技术来解决棘手或不完整的数据。您需要能够创建机器学习管道,这需要您了解如何构建模型以及如何使用工具和框架来评估和分析其性能。

与大多数数据科学家一样,Chu 使用Python,因为它有许多用于操作和建模数据的出色软件包。事实上,GalasWalk 在 2017 年上半年为数据科学家提供了 10,000 个职位空缺,发现 Python、R 和 SQL 三种特定技能是数据科学领域大多数职位空缺的根本原因。

Ben Chu 的团队依赖开源机器学习包,例如 Tensorflow、Pytorch 和 BERT。

“我们主要使用 Confluence 作为文档工具;用于机器学习的 MLFlow、Amazon Sagemaker、Scikit Learn、Tensorflow、PyTorch 和 BERT; Apache Spark 用于在大型数据集上构建快速数据管道; Athena 用作处理后数据的存储数据库。我们还使用 Superset 连接数据并轻松构建仪表板来输出图表,使其更加直观。”

4.科学思维

数据科学家使用不同的工具来管理流程、数据、注释和代码。 “我必须非常努力地随时衡量和跟踪我的进步,这样我才能有机会进行审查工作,尝试新的方向,并不断比较结果。”

“重要的是要始终坚持科学原理,在分析时参考相应的数据、实验和文献,以便随时调整结论。我需要整理这些数据,所以我会用No tion 是最初保存所有笔记、论文和可视化的重要工具。

朱强调,不仅需要保存当前调查的记录,还需要保存以前所有调查结果的记录。 “这就像一本数据科学期刊,每当我遇到类似的情况时,我都会保存值得参考的要点,以便下次遇到问题时可以得到指导。”

5. 不用担心“冒名顶替综合症”

Chu 现在是 Refinitiv Labs 的高级数据科学家,但年轻时的他想成为一名音乐家,并对语言着迷。 “对于我在自然语言处理领域的工作,这要求我对语言学,特别是语义和语言的细微差别有深入的了解。”

他解释说,数据科学团队需要一系列技能——他和他的同事拥有从不同背景发展而来的重叠技能。

“您需要的技能取决于工作领域。例如,我需要对金融领域有很好的了解。数据分析目前应用于欺诈预防领域,通过构建异常检测方法来检测交易数据中的不一致情况。规范欺诈‘行为’”。

“像我这样的数据科学家需要知道如何处理各种孤立的财务数据。关键是建立各种数据之间的联系。如果你不知道它们之间的联系,你就无法建立一个成功的模型。”

成为计算机科学家或数学家并不是进入数据科学领域的必要条件。没有人是所有领域的专家。您可能具有法律、经济或科学背景。这些背景塑造了你的思维方式。如果你能灵活运用各种知识并将其系统化,那么你在使用工具、框架和数据集时就会熟悉它们的细节。

如何开始

对于那些热衷于数据科学技能的人,楚提供了一些易于学习的实用技巧。您可以查找研究社区、参加网络研讨会以及在线查找培训课程。一旦可以面对面交流,楚建议积极参与数据科学领域。

“参加会议和编码马拉松将帮助您建立强大的研究人员网络,并让您有机会表达自己的想法、激发研究和回答问题”。

数据科学是一个仍在成熟的新领域。随着机器学习和深度学习工程师的出现,数据科学家、数据工程师、数据分析师等各种职位也随之出现。也许你会发现你更适合或者更喜欢另一个职位。 。

一切都在不断变化,永远保持好奇心和创造力,不断探索!

-->
登录后参与评论