第1章:数据科学简介 《数据科学的统计与机器学习方法导论》
创始人
2024-11-18 02:01:00

我比较喜欢体育科学、大语言模型以及数据相关的,平常运动喜欢篮球足球以及体能训练

更加关注此方向的产品应用和创新。

(我有时候会看一些可穿戴设备、动作捕捉以及AI领域的科研、产品应用,欢迎交流,期待向各位学习!)

  • 邮箱:gbx1220max@gmail.com

    我的联系方式(微信):MaxGBX

    Linkedin领英:Baixin Guo

    自媒体视频制作/公众号文章代做/翻译/AI智能体&工作流(大语言模型)搭建/科研&推文绘图/PPT制作也欢迎您的联系!

    期待您的合作!

  • ▼ AI画图一下,这样感觉会好看一下哈哈

  • 作者Max想说:“如果各位有兴趣的话,关注我公众号之后尽量点一下星标,这样子可以第一时间收到我的推文消息通知,如果您对我的内容认可的话,欢迎您分享给身边有需要的朋友!”

    我的文章如果各位放到收藏夹里不要吃灰,我真的希望你们能认真阅读学习!

    1.2数据科学

    数据科学不是一门单一学科。它包含一系列不同的专业领域和技能,将它们结合起来以解决问题并改进和优化流程。在所需的多项技能中,最重要的是数学和统计学、计算机科学以及领域知识。数据科学家需要数学和统计学来理解业务场景中生成的数据,对这些数据进行建模以获得见解,或者对未来事件进行分类或估计。数学和统计学也用于评估所开发的模型,评估它们如何适合问题以及如何用于解决或改进特定流程。

    ▲ 图1.1:数据科学领域的专业知识

    图1.1中的信息图表涉及三个主要领域:数学和统计学、计算机科学以及领域知识。在接下来的部分中,我们将更深入地讨论这些领域以及其他重要领域,如沟通、可视化以及硬技能和软技能。

    1.3数学与统计学

    数据科学家需要具备扎实的数学和统计学技能,以理解可用数据、准备训练模型所需的数据、在训练和验证分析模型时采用多种方法、评估模型结果,并最终解释和解读模型结果。例如,数据科学家需要理解问题、解释目标的变异性,并进行对照测试以评估参数值对目标值变化的影响。数据科学家需要数学和统计技能来总结数据以描述过去事件(称为描述性统计)。这些技能用于将样本结果推广到更大的总体(称为推断性统计)。数据科学家还需要这些技能来拟合响应变量已知的模型,并在此基础上训练模型进行分类、预测或估计未来结果(称为监督建模)。这些预测建模技能是数据科学中最广泛使用的技能之一。当业务条件不需要特定事件,且没有过去行为来驱动监督模型的训练时,也需要数学和统计学。学习过程基于发现数据集中以前未知的模式(称为无监督建模)。没有目标变量,主要目标是提出一些见解,以帮助公司了解客户和业务场景。数据科学家在优化领域需要数学和统计学。这是指在存在约束和资源的情况下,旨在为问题找到最优解决方案的模型。目标函数描述了可能的解决方案,它涉及根据一些约束使用有限资源。

    1.4计算机科学

    面对当今的挑战,数据科学家需要具备强大的计算机科学技能,通过使用不同的框架、语言和存储在不同环境中部署模型。有时需要创建程序来捕获数据甚至公开结果。编程和脚本语言对于完成这些步骤非常重要。有几个软件包使数据科学家能够训练有监督和无监督模型、创建预测和优化模型或执行文本分析。开发非常复杂模型的新机器学习解决方案经常被创建和发布,为了跟上新技术的步伐,数据科学家需要理解并使用所有这些新解决方案。用于收集、准备和清理数据的软件也非常重要。任何模型都只是输入数据与要分析、分类、预测或估计的事件之间的映射。如果数据质量差或有很多不一致之处,模型将反映这一点,结果将不准确。大量数据应存储在高效的存储库中。需要数据库来实现这一点,并且数据科学家需要了解数据库的工作原理。为了处理大量数据,需要分布式环境。通常,数据科学家需要了解这些大规模并行处理引擎的工作原理。除了数据库,还有许多新的存储库结构用于执行分析。

    总之,有太多的技能需要学习和掌握。远远超出一个人所能处理的范围。 因此,在大多数情况下,数据科学家将需要与其他人合作,以执行创建分析模型所需的所有活动,如数据工程师、应用程序开发人员、数据库管理员、基础设施工程师和领域知识专家。

    这点真的很重要↑

    1.5领域知识

    数据科学家所需的最关键技能之一是领域知识。是的,人仍然很重要。理解问题并评估解决问题所需的条件很重要。理解如何将模型结果与实际行动联系起来很重要。分析模型给出了方向。如何根据一系列信息、政策、法规、影响等实际使用结果来解决问题是成功的关键因素。创建分析模型的另一个关键因素是对业务问题的认识以及它如何影响公司、社区、人员和政府。了解业务场景有助于数据科学家创建新的输入变量、转换或组合原始变量,以及选择和丢弃重要或无用的信息。这个称为特征工程的过程包括基于领域知识或基于机器学习创建新变量。这将在后续章节中讨论。领域知识的一个很好的例子是在电信领域。数据科学家需要知道有哪些类型的数据可用,交易系统是如何实现的,使用什么计费系统,以及如何收集来自呼叫中心的数据。除了领域知识,它使数据科学家能够通过纳入业务概念来改进模型开发,数据科学家还必须充满好奇心并尝试多种方法来解决业务问题。他们需要积极主动地预测业务问题并提出分析解决方案。在有些情况下,业务问题不明确,但可以进行改进。

    数据科学家需要创新来设计和实施不同的方法来解决问题。创造力和创新包括将不同的分析模型组合在一起以提出见解并丰富数据分析。协作是数据科学的另一个关键因素。有许多专业领域,一个人几乎不可能掌握所有领域。协作使数据科学家在寻求业务问题的最佳解决方案时能够与不同的专业人员合作。

    例如,如果数据科学家正在开发预测贷款违约的模型,那么他们可能需要与财务部门的人员合作,以帮助他们了解公司如何向客户收费、定义违约的时间框架以及公司如何处理违约。在开发数据分析和训练分析模型时,应考虑所有这些政策。与这个问题相关的数据很可能位于具有不同基础设施的不同交易系统中。数据科学家需要与数据工程师、软件开发人员和信息技术运营人员合作,以有效地收集所有数据源。一旦模型完成并需要部署,数据科学家需要与应用程序开发人员合作,以使模型结果以预期的方式提供给组织。所有这些技能的组合创建了一个有效的分析框架,用于在数据分析、模型开发和模型部署方面解决业务问题。

    1.6沟通与可视化

    还有一项关键技能对于分析和传播数据科学取得的结果至关重要。在这个过程的最后,数据科学家需要传达结果。这种沟通可以涉及可视化来解释和解读模型。一图胜千言。结果可用于创建营销活动、提供对客户行为的见解、导致业务决策和行动、改进流程、避免欺诈和降低风险等等。一旦创建了模型结果,数据科学家就会与公司的业务部门沟通如何使用这些结果来改进运营流程。向决策者提供见解很重要,以便他们能够更好地解决开发模型所针对的业务问题。模型结果的每一部分都需要与可能的业务行动相关联。业务部门必须根据模型结果理解可能的解决方案,而数据科学家可以填补这一空白。数据科学家使用视觉呈现专业知识和讲故事的能力来创建一个关于模型结果如何应用于业务问题的令人兴奋和吸引人的故事。数据分析和数据可视化有时就足够了。分析数据可以帮助数据科学家理解问题和可能的解决方案,但也有助于通过仪表板和高级报告推动直接解决方案。例如,在电信领域,服务消费的下降可能与工程问题而不是客户流失行为有关。在这种情况下,深入的数据分析可以推动解决方案,而不是开发模型来预测客户流失。这可能是一个非常孤立的问题,不需要模型,而是需要一个非常具体的业务行动。

    1.7硬技能和软技能

    硬技能包括数学、统计学、计算机科学、数据分析、编程等。另一方面,有许多软技能对于执行数据科学任务至关重要,如问题解决、沟通、好奇心、创新、讲故事等等。很难找到同时具备这两种技能的人。许多招聘网站指出,每年对数据科学家的需求都有合理的增长。随着廉价数据存储的大量增加和计算能力的日益增强,数据科学家有更多能力来拟合影响业务决策并改变战术和战略行动方向的模型。随着公司变得更加数据驱动,数据科学家变得更有价值。有一个明显的趋势,即业务的每个部分都越来越受到数据分析和分析模型的驱动。为了在这个不断发展的新场景中有效和有价值,数据科学家必须具备硬技能和软技能。同样,很难找到同时具备硬技能和软技能的专业人员,因此团队协作是一个非常切实可行的解决方案。数据科学家与业务部门合作,结合硬技能和软技能以寻求最佳分析解决方案至关重要。例如,在欺诈检测中,数据科学家几乎必须与欺诈分析师和调查人员合作,以获取他们在欺诈最普遍的业务场景中的观点和知识。通过这种方式,他们可以得出在生产中可行的分析解决方案,通常是从交易和近实时的角度。

    1.8数据科学应用

    很难想象有哪家公司甚至哪个行业部门不能从数据科学和高级分析中受益。当今市场要求所有公司,无论是私营还是公共部门,在其战术和运营行动中都更加高效和准确。分析可以帮助组织根据数据事实而不是猜测来推动业务行动,如图1.2所示。

    ▲ 1.2:可以从数据科学项目中受益的行业

    数据科学的另一个关键因素是,数据科学家在一个行业中使用的所有技术都可以很容易地应用到另一个行业。即使在不同行业中,业务问题也可能非常相似。破产是许多行业的问题,例如电信、银行和零售行业。银行处理破产的方式可以帮助零售和电信公司改进其流程并提高业务效率。电信公司处理交易欺诈的方式可以帮助银行改进其检测和应对信用卡账户欺诈交易的流程。数据分析和分析见解需要取代对市场、客户和业务场景的猜测和假设。在不同行业工作的数据科学家之间的协作是有价值的,并增加了可行解决方案的范围。行业可以相互学习并改进其流程,以确定可能的分析解决方案并部署实际的业务行动。这种来自不同领域甚至不同行业的知识转移对所有相关方都是有益的。当前的一些业务问题包括欺诈检测、客户流失分析、坏账、损失估计、交叉销售/向上销售、风险分析、细分、收款、优化、预测、供应链和异常检测等等。

    1.9数据科学生命周期和成熟度框架

    分析生命周期,或数据科学流程流,包括几个步骤。然而,花时间在这些步骤上并确保它们都正确执行是很重要的。

    • 理解问题:建模过程的第一步如图1.3所示,是理解问题。数据科学家需要理解他们试图用即将开发的模型解决什么问题。为了执行这一步,与业务部门密切合作,以验证模型是否合适、是否可行、是否有足够的数据可供使用,以及基于模型结果计划部署哪些实际行动。在这个阶段要问的一些问题包括:

      • 项目的目标是什么?我们是想要预测某个未来事件,还是进行分类、估计或预测?我们是想要优化特定流程还是生成关于客户行为的见解?我们是想要创建组或细分,还是进行路径分析、序列分析、网络分析等等?

      • 模型的具体目标是什么?它是一个监督模型还是无监督模型?数据是结构化的还是非结构化的?

      • 是否有足够的数据来解决这个问题?

      • 基于模型结果计划采取什么行动?例如,在一个客户流失模型中,你需要给出一个可操作的客户流失定义。模型是一个分类(是或否)吗?是否可以根据客户流失的可能性触发一个营销活动?可以为客户流失的概率分配多种方法或客户优惠。可以捕获响应以向模型提供反馈并在后续行动中提高性能。

    • 收集数据:数据科学流程流的第二步是收集数据。很可能,这个阶段需要多个人和不同的技能。数据库管理、存储库、编程、数据质量软件包、数据集成和许多其他技术可能需要正确完成这一步。在这个阶段相关的一些问题包括:

      • 哪些数据是相关的?

      • 涉及多少个数据源?

      • 数据源位于何处?

      • 对数据的访问是否容易获得?

      • 是否存在任何隐私问题?

      • 当模型部署到生产环境中时,数据是否可用?例如,一些变量,如性别和收入,可能无法使用,即使这些预测变量可能与结果相关。此外,即使在开发模型时数据可用,当模型投入生产时,例如对欺诈的商业交易进行评分时,数据是否可用?在模型用于评分时,是否可以访问模型训练期间使用的所有数据?是否有任何数据隐私法规?这是一个问题,因为在评分模型中,预测变量有缺失值的评分观测将有缺失的预测结果。

    • 探索数据:第三步是探索数据并评估可用信息的质量和适用性。这一步涉及大量的数据工作。数据分析、基数分析、数据分布、多变量分析和一些数据质量分析——所有这些任务对于验证开发模型所需的所有数据是否可用以及它们是否以正确的格式可用都很重要。例如,在数据仓库、数据集市或数据湖中,客户数据随着时间的推移以多次出现的形式存储,这意味着数据集中有同一客户的多个记录。对于分析模型,每个客户在数据集中必须是唯一的观测。因此,所有历史信息都应从行转置到分析表中的列。这个阶段的一些问题包括:

      • 数据集中有哪些异常或模式是明显的?

      • 是否有太多变量来创建模型?

      • 是否有太少变量来创建模型?

      • 是否需要进行数据转换来调整模型训练的输入数据,如插补、替换、转换等等?

      • 是否分配了任务来创建新的输入?

      • 是否分配了任务来减少输入的数量?在一些项目中,数据科学家可能有数千个输入变量,这太多了,无法以适当的方式建模。应该使用变量选择方法来选择相关特征。当变量太少而无法创建模型时,数据科学家需要从原始输入集中创建模型预测变量。数据科学家也可能有几个带有缺失值的输入变量,需要用合理的值替换。一些模型需要这一步,一些则不需要。但即使是不需要这一步的模型也可能从插补过程中受益。有时一个重要的输入是倾斜的,需要调整其分布。所有这些步骤都会在过程结束时影响模型的性能和准确性。

    • 建模数据:第四步是分析模型开发本身。有人说这是最重要的部分,或者至少是数据科学家最有乐趣的部分。在这里,他们将运用自己的创造力和创新技能,尝试多种分析方法来解决业务问题。如前所述,数据科学是科学与艺术的结合。这一步是数据科学家应用所有算法背后的科学以及所有分析方法背后的艺术的时候。在这个阶段要考虑的一些问题包括:

      • 哪个模型具有最高的预测准确性?

      • 哪个模型最能推广到新数据?

      • 是否可以验证模型?是否可以测试模型?是否可以在新数据上诚实地测试模型?

      • 哪个模型最具可解释性?

      • 哪个模型最好地解释了输入变量与目标之间的相关性?哪个模型最好地描述了预测变量对估计的影响?

      • 哪个模型最能解决业务目标?这是数据科学家的游乐场,他们在这里使用不同的算法、技术和不同的分析方法!是的,建模过程的很大一部分仅仅是尝试新算法并评估结果。数据科学不同于一些精确科学,如数学和物理学,在那些科学中,基于一个稳健的方程和输入,可以预测输出。在数据科学中,输入集可能是已知的,但直到模型训练结束,确切的预测变量子集仍然未知。方程是在模型训练期间根据输入数据创建的。然后结果才会显现。输入数据集的任何变化都意味着输出结果的变化。因此,数据科学与统计和数学算法紧密相连。然而,其余的都是艺术。此外,许多模型并不像它们应该的那样稳健。一些模型或算法非常不稳定,这意味着每个训练数据集可能代表不同的结果。

    也许这就是有趣的部分。在这个阶段,数据科学家试图在一部分数据上拟合模型,并在另一部分数据上评估模型的性能。第一部分是训练集。第二部分是验证集。有时还有第三部分称为测试集。应该注意的是,有时,取决于业务目标,最好的模型是最具可解释性和最简单的模型,而不是预测准确性最高的模型。这取决于业务目标、实际行动以及行业中是否有任何法规。

    总之,这第四步包括以下任务:

    - 训练不同的模型(算法/技术/分析方法)。 - 基于不同的数据集验证所有训练的模型。- 如果可能,在不同的数据集(不同于验证期间使用的数据集)上测试所有训练的模型。- 评估所有模型的结果,并根据业务目标评估结果。- 根据业务要求选择最佳模型。- 部署和评分最佳模型,以支持所需的业务行动。

    也许分析过程中最困难的阶段之一是分析结果并评估模型结果如何支持所需的业务行动。这一步在某种程度上与前一步相关,当时数据科学家训练多个模型并评估结果。在这个阶段,领域知识和沟通技能起着关键作用。

    • 提供答案:第五步也是最后一步是回答最初的问题,即第一步中提出并验证的问题。一些相关问题包括:

      • 从训练的模型中学到了什么?

      • 训练的模型如何回答最初的问题?

      • 训练的模型如何讲述一个故事并支持业务决策?

    一旦提供了答案,可能会产生关于业务问题的更多问题。因此,数据科学生命周期是循环的,因为这个过程会重复,直到业务问题得到解决。

    整个分析过程和数据科学方法可以看作是一个动态演变的流程,如图1.4所示。

    ▲ 这个我用的是微信自带的翻译

    在数据科学中,分析任务越复杂,为业务增加的价值就越高。例如,一个简单的查询报告可以通过简单地说明数据中的关系、显示过去发生的事情为业务增加价值。它在很大程度上是描述性的,因为无法对那个历史事件做任何改变。然而,意识是理解业务问题并寻求分析解决方案的第一步。

    数据探索分析可以通过对数据进行更复杂的查询为业务增加更多价值。多维查询可以帮助业务分析师不仅理解发生了什么,还理解为什么会以那种方式发生。同时在多个维度下分析历史数据可以回答关于业务、市场和场景的许多问题。数据挖掘、分析或数据科学,无论名称如何,都是获取业务知识的进一步步骤。一些分析模型解释了当前正在发生的事情。无监督模型,如聚类、细分、关联分析、路径分析和链接分析,帮助业务分析师在很短的时间内理解到底发生了什么,并允许公司部署业务行动以利用这些知识。此外,监督模型可以从过去的事件中学习并预测和估计未来的发生。在这个阶段,数据科学基本上是试图知道未来会发生什么。这与计量经济学和预测模型非常相似,它们试图预测商业事件即将发生的事情。

    演变分析过程的最后阶段是优化。优化算法通过显示向每个客户提供什么具体优惠来增加更多业务价值。优化模型 考虑一个目标函数(要解决什么)、一组有限的资源(如何解决)和一组约束(以什么价格解决)。一个组织可能在生产中有几个模型,用于在多个方面对客户进行分类,例如,流失的可能性、不付款的概率等。所有这些分数的组合可以用于优化营销活动和优惠。例如,流失模型预测谁是最有可能流失的客户。然而,并非所有客户对业务都有相同的价值。有些可能无力偿债。有些可能不产生任何利润。有些可能非常有价值。优化过程显示向某些客户提供什么激励措施,以在特定营销活动中最大化利润。

    ▼ 思维导图,各位放大之后要是看不清的话私信联系我!

    1.10高级分析在数据科学中

    数据科学和高级分析不仅仅包括简单的统计分析和数学模型。该领域包括机器学习、预测、文本分析和优化。数据科学家必须使用所有这些技术来解决业务问题。在几个业务场景中,需要这些模型的组合来为特定问题提出可行的解决方案。

    基本上有两种类型的机器学习模型:监督学习(当响应变量(也称为目标)是已知的并用于模型中)和无监督学习(当目标是未知的或未用于模型中)。输入变量(在机器学习领域也称为特征,在统计领域称为独立属性)包含关于客户的信息,他们是谁,他们如何消费产品或服务,他们如何为此付费,他们成为客户多长时间,他们来自哪里,他们去了哪里,以及许多其他描述性信息。

    目标是感兴趣的商业事件,例如,当客户流失、购买产品、付款或仅仅使用信用卡或打电话时。这个事件被称为目标,因为这是模型将试图预测、分类或估计的事件。这是公司想要知道的。(在机器学习领域,目标也称为标签,在统计领域称为依赖属性。)无监督模型不需要目标。这些模型用于生成关于数据、市场或客户的见解,评估可能的趋势或更好地理解某些特定业务场景。这些模型的目的不是对未来的商业事件进行分类、预测或估计。

    表1.1:机器学习模型

    监督模型 无监督模型
    回归 聚类
    决策树 关联规则
    随机森林 序列关联规则
    梯度提升 路径分析
    神经网络 链接分析
    支持向量机

    如表1.1所示,回归、决策树、随机森林、梯度提升、神经网络和支持向量机是监督模型的例子。聚类、关联规则、序列关联规则、路径分析和链接分析是无监督模型的例子。这些类型的模型有一种变体称为半监督模型。半监督模型涉及少量目标已知的数据和大量目标未知的数据。还有与强化学习相关的模型,其中算法通过使用一个系统来训练,当模型朝着正确的方向前进时奖励这个步骤,当模型朝着错误的方向前进时惩罚这个步骤。半监督模型越来越普遍,并且经常在人工智能应用中实现。例如,强化学习可以用于训练一个模型在自动驾驶汽车中学习并采取行动。在训练期间,如果汽车在路上安全行驶,学习步骤会得到奖励,因为它朝着正确的方向前进。另一方面,如果汽车驶离道路,学习步骤会受到惩罚,因为训练朝着错误的方向前进。

    随着统计模型试图通过数学形式化方法近似现实,对未来事件进行预测,机器学习自动化了分析模型中一些最重要的步骤,即学习过程。机器学习模型根据输入数据和目标函数自动改进学习步骤。

    数据科学家应该能够构建统计和机器学习流程,以访问可用数据,为有监督和无监督建模准备数据,拟合不同类型的分析模型来解决业务问题,根据业务要求评估模型,并在生产中部署冠军模型(根据某些标准选择的模型)和挑战者模型(以不同方式训练的模型,如使用不同的算法),以支持计划的业务行动。所有分析模型都是基于数据集进行训练的,考虑到特定的时间框架,这些数据集描述了市场场景和业务问题。模型从输入变量中学习并创建到目标的广义映射,建立输入变量与目标之间的关系。这个映射描述了在特定时间点与目标相关的过去行为。随着时间的推移,客户行为可能会改变,从而描述该模式的数据也会改变。当这种情况发生时,当前生产中的模型会漂移,因为它基于不再存在的过去客户行为。该模型需要重新训练或开发一个新模型。这是分析中一个非常重要的循环,机器学习领域可以通过自动重新训练或从经验中学习的模型做出很大贡献。

    关于何时以及如何使用机器学习模型和统计模型存在很大的争议。通常,机器学习模型在生产中可以更准确并且表现更好,以支持业务行动。作为一个警告,大多数机器学习模型不容易解释或说明。另一方面,统计模型可以对未来事件进行更好的概括估计。它们通常更简单,更容易解释和说明。在一些行业中,通常是监管最严格的行业,可解释的模型是强制性的。统计模型还使输入及其对预测的影响更容易解释,使业务部门能够设计更适合客户行为的营销活动和促销活动。

    统计分析是收集、探索和呈现大量数据以发现潜在模式、行为和趋势的科学。组织每天使用统计和数据分析来做出明智的业务决策。随着每天收集更多的数据,存储和处理所有这些数据的基础设施变得更便宜,更多的数据分析被执行以推动业务决策。统计分析包括描述性统计,其中模型总结可用数据以描述过去事件或先前场景。另一个统计分析领域是推断性统计,其中模型将样本结果推广并外推到更大的总体。统计分析的另一个领域是预测建模,其中模型提供对未来结果可能性的估计。这个结果可以是二元目标、多项式目标或连续目标。二元目标分配给分类模型,如“是”或“否”。多项式目标分配给一种分类,但用于多个类别,如“高”、“中”和“低”。连续目标分配给一个估计,其中事件可以是任何连续值,如欺诈事件中的损失或购买金额。例如,信用评分模型可以用于确定客户是否会按时支付未来款项。信用评分模型还可以对违约风险范围进行分类,如高违约风险、中违约风险或低违约风险。信用评分模型最终可以估计与违约相关的值。

    最后,有规定性统计领域,其中模型量化未来决策的效果。这个领域模拟和评估几个可能的行动方案,并允许公司根据这些行动评估不同的可能结果。这就像一种“如果……会怎样”类型的分析。

    预测描述一个观察到的时间序列,以理解变化的根本原因并预测未来值。它涉及关于数据形式的假设,并将时间序列数据分解为多个组件。自回归移动平均(ARIMA)模型是预测模型,其中预测基于过去值、过去误差以及其他时间序列的当前和过去值的线性组合。另一种预测模型是因果模型,它预测受因果因素(如日历事件)影响的时间序列数据,以描述可能的季节性。最后,有现代和复杂的预测模型,它们结合了水平、趋势或季节性成分随时间变化的时间序列数据。它们可能包括时间序列的层次段和递归神经网络,以处理平稳和非平稳数据。

    文本分析是一个与从文本数据中揭示见解相关的领域,通常结合自然语言处理、机器学习和语言规则的力量。数据科学家可以使用文本分析来分析非结构化文本、提取相关信息并将其转换为有用的商业智能。例如 ,数据科学家可以使用信息检索来查找非结构化文档的主题,如使用搜索引擎查找特定信息。情感分析是文本分析中的另一个领域,在商业中非常有用。情感分析从非结构化数据中确定一致性水平,将整体信息关联为积极、消极或中性情感。数据科学家还使用文本分析进行主题发现和聚类,其中主题或聚类从各种文本文档中基于它们之间的相似性揭示出来。

    最后,文本分类是一种技术,其中文本分析模型用预定义集合中的相关类别标记自然语言文本。领域专家和语言学家在这个领域中进行交互,以创建和评估类别。

    生存分析是一类统计方法,其中感兴趣的结果变量是直到事件发生的时间。时间从个体首次成为客户时测量,直到事件发生或直到观察区间结束(个体然后成为截断)。在生存分析中,分析的基础是任期,或事件发生的风险时间。因此,重要的不仅仅是事件是否发生,还有它何时发生。

    高级分析框架中的最后一个主题是优化。数学优化是运筹学、工业工程和管理科学的一个主要组成部分。优化模型寻找最优解决方案,它考虑一组预定的约束和有限的资源集。

    例如,在生产计划中,优化模型可以确定要生产的产品的最佳组合,以实现最高利润。在定价决策中,优化模型可以根据成本、需求和竞争价格信息确定产品的最优价格。最后,在促销营销中,优化模型可以确定促销优惠、交付渠道、活动时间和要联系的最佳客户集的最佳组合,以最大化营销投资的回报。

    相关内容

    热门资讯

    工程院院士潘云鹤:杭州人工智能... 来源:界面新闻 界面新闻记者 | 杨冰柯 界面新闻编辑 | 庄键 杭州发展人工智能有何特点,...
    TGA颗粒无收的《天国:拯救2... 上个月,《光与影:33号远征队》以12项提名、最终斩获9项大奖的成绩,刷新了TGA的历史纪录。 与此...
    原创 S... 大家好呀,我是瑜瑜。在王者荣耀当前版本中,相信很多玩家应该都知晓,射手位是非常难玩的一个职业,所谓的...
    原创 重... 近期我国航天领域传出一件重大消息,一个神秘单位正式揭牌成立了。 早在69年前的1957年,我国科学院...
    【白夜谈】游戏停服,不应该只有... 此前闹得沸沸扬扬、旨在规范网游停服的“Stop Killing Games”(停止杀死游戏)请愿活动...