测试代码:

Grumpier Old Men (1995)
Death Note: Desu nôto (2006–2007)
Irwin & Fran 2013
9500 Liberty (2009)
Captive Women (1000 Years from Now) (3000 A.D.) (1952)
The Garden of Afflictions 2017
The Naked Truth (1957) (Your Past Is Showing) 
Conquest 1453 (Fetih 1453) (2012)
Commune, La (Paris, 1871) (2000)
1013 Briar Lane

返回:

1995
2006
2013
2009
1952
2017
1957
1453<--
1871<--
    <—- There is nothing here as 1013 is not a year

正如你从上面看到的,标题中的2个给出了错误的结果。1013 Briar Lane是正确的,因为它没有返回任何内容,因为1013不是年份

这是我的代码:

import pyspark.sql.functions as F

from pyspark.sql.functions import regexp_extract,col

bracket_regexp = "((?<=\()\d{4}(?=[^\(]*$))"

movies_DF=movies_DF.withColumn('yearOfRelease', regexp_extract("title", bracket_regexp + "|(\d{4}$)", 0))

movies_DF.display(10000)

在标题子字符串中获取正确的年份

regexp_extract返回不期望的结果的更多相关文章

  1. pyspark自定义UDAF函数调用报错问题解决

    这篇文章主要为大家介绍了pyspark自定义UDAF函数调用报错问题解决,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  2. Kotlin语言编程Regex正则表达式实例详解

    这篇文章主要为大家介绍了Kotlin语言编程Regex正则表达式实例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  3. 基于Laravel 5.2 regex验证的正确写法

    今天小编就为大家分享一篇基于Laravel 5.2 regex验证的正确写法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

  4. CDH(Cloudera分布式Hadoop)到CDP(Cloudera数据平台)迁移Spark 1x-3x查询

    我们目前正在进行从CDH迁移到CDPwrtspark的可行性研究。将Spark1.x作业转换为Spark2.4.5。如果是,那么1x-2x的重构是自动的,或者应该按照cloudera中给出的步骤手动完成https://docs.cloudera.com/cdp-private-cloud-upgrade/latest/upgrade-cdh/topics/cdp-one-workload-migration-spark16-to-spark24.html如果没有,我们可以在从CDH迁移到CDP时直接从sp

  5. 匹配子网中ip地址的正则表达式

    假设我有以下子网:我有新客户来来去去。考虑到子网中的第一个主机是172.20.32.1,最后一个是172.20.63.254,我需要一个正则表达式来匹配IP地址的精确范围。我尝试了类似的方法:但它也匹配范围外的IP。

  6. 尝试在同一pyspark结构化流作业中写入和读取增量表。可以&#39;看不到数据

    PySpark作业是否可以在增量表中写入,并在同一代码中从该表中读取?使用以下命令运行代码时不会出错。我正在尝试将我要刷新到Kafka的数据可视化到Delta表中,以确保数据流动良好,底层组件也工作良好。即使向我的主题发送了流量,我也可以看到一个空表。任何形式的帮助都会有帮助。

  7. regexp_extract返回不期望的结果

    测试代码:返回:正如你从上面看到的,标题中的2个给出了错误的结果。1013BriarLane是正确的,因为它没有返回任何内容,因为1013不是年份这是我的代码:在标题子字符串中获取正确的年份

  8. Python数据帧在替换原始上下文中的点后返回空间距

    原始数据帧包含数字中的点,例如:3.200.000。在本例中,点表示千个分隔符,而不是逗号,我尝试使用以下代码删除千个分隔符号:上面的代码成功地替换了千位分隔符,现在返回如下内容:我正试图找到一种方法来删除间距,并将数字挤在一起,使其看起来像:有没有这样做的方法?

  9. 如何检测列表中的哪些字符串包含R中关键字列表中的单词

    对R来说很新鲜,希望得到帮助。我需要确定1000个产品名称中有多少包含一个或多个这些关键词或短语。示例:如果1000多个产品名称中有一个是“蜂蜜燕麦串”,而80多个关键词中有一是“蜂蜜”,我需要它在“蜂蜜燕麦束”旁边的新列中显示为TRUE已将两个列表作为csv文件上载。我为每个列表制作了一个向量,并尝试使用:str_detect结果是错误的。还尝试使用grepl,结果也为零。我相信,这些字符串中应该包含关键字。它在寻找精确的匹配吗?

  10. 如何将连续列(0-1)分组为相等大小?斯卡拉火花

    我有一个数据帧列,希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的,因此大多数值都在0.90和1之间。铲斗10:所有1铲斗2-9:任何值>;0和<;1铲斗1:所有0例子:continous_number_colBucket0.00120.95711001这应该是当我groupBy时的样子。

随机推荐

  1. 如何扩展ATmega324PB微控制器的以下宏寄存器?

    我目前正在学习嵌入式,我有以下练习:展开以下宏寄存器:如果有人解决了这个问题,我将不胜感激,以便将来参考

  2. Python将ONNX运行时设置为返回张量而不是numpy数组

    在python中,我正在加载预定义的模型:然后我加载一些数据并运行它:到目前为止,它仍在正常工作,但我希望它默认返回Tensor列表,而不是numpy数组。我对ONNX和PyTorch都是新手,我觉得这是我在这里缺少的基本内容。这将使转换中的一些开销相同。

  3. 在macOS上的终端中使用Shell查找文件中的单词

    我有一个文本文件,其中有一行:我需要找到ID并将其提取到变量中。我想出了一个RexEx模式:但它似乎对我尝试过的任何东西都不起作用:grep、sed——不管怎样。我的一个尝试是:我为这样一个看似愚蠢的问题感到抱歉,但我在互联网上找不到任何东西:我在SO和SE上读了几十个类似的问题,并在谷歌上搜索了几个教程,但仍然无法找到答案。欢迎提供任何指导!

  4. react-chartjs-2甜甜圈图中只有标题未更新

    我正在使用react-chartjs-2在我的网站中实现甜甜圈图。下面是我用来呈现图表的代码。我将甜甜圈图的详细信息从父组件传递到子组件,所有道具都正确传递。当我在beforeDraw函数外部记录props.title时,它会记录正确的值,但当我在beforeDraw函数内部记录props.title时,它将记录标题的前一个值,从而呈现标题的前值。我在这里做错了什么?

  5. 如何在tkinter中使用Python生成器函数?

    生成器函数承诺使某些代码更易于编写。但我并不总是知道如何使用它们。假设我有一个斐波那契生成器函数fib(),我想要一个显示第一个结果的tkinter应用程序。当我点击“下一步”按钮时,它会显示第二个数字,依此类推。我如何构建应用程序来实现这一点?我可能需要在线程中运行生成器。但如何将其连接回GUI?

  6. 如何为每次提交将存储库历史记录拆分为一行?

    我正在尝试获取存储库的历史记录,但结果仅以单行文本的形式返回给我。

  7. 尝试在颤振项目上初始化Firebase时出错

    当尝试在我的颤振项目上初始化firebase时,我收到了这个错误有人知道我能做什么吗?应用程序分级Gradle插件Gradle项目颤振相关性我已经将firebase设置为Google文档已经在另一个模拟器上尝试过,已经尝试过创建一个全新的模拟器,已经在不同的设备上尝试过了,已经尝试了特定版本的firebase,已经尝试添加但没有任何效果,已经在youtube上看到了关于它的每一个视频,该应用程序在android和iOS两个平台上都抛出了这个错误

  8. 在unix中基于当前日期添加新列

    我试图在unix中基于时间戳列在最后一个单元格中添加一个状态列。我不确定如何继续。

  9. 麦克斯·蒙特利。我一直得到UncaughtReferenceError:当我在终端中写入node-v时,节点未定义

    如果这是您应该知道的,请确认:我已将所有shell更改为默认为zsh。当我在终端中写入node-v时,我一直收到“UncaughtReferenceError:nodeisnotdefined”。但它显示节点已安装。我是个新手,在这方面经验不足。

  10. 如何在前端单击按钮时调用后端中的函数?

    那么如何在后端添加一个新的端点,点击按钮调用这个函数。

返回
顶部