使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行
作者:DonkeyKong 提问时间:8/17/2023
我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...
pan 问答列表
作者:DonkeyKong 提问时间:8/17/2023
我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...
作者:dragnblow 提问时间:8/17/2023
我有一个功能如下: def check(*args): return args[0] in args[1] 我想做的是允许像 Y、N、“” 这样的东西 如何在此传递或允许 null/empt...
作者:kiwi_kimchi 提问时间:8/17/2023
我有两个数据帧( 和 )。df1df2 df1看起来像这样: A B C Girl 25 APPLE Boy 10 SAMSUNG Girl 10 LG Boy 5 Ap Boy 68 SAM...
作者:Arseny Yershov 提问时间:8/17/2023
将 Excel 文件读入 Pandas 数据帧,如下所示: import pandas as pd df = pd.read_excel(open('C:/somedir/somefile.xls...
作者:dancassin 提问时间:8/18/2023
目前在 Pyscript 程序中使用 Panel 的 FileInput 小部件,并且我遇到了文件大小限制的问题。根据此链接,似乎有绕过 Panel 默认文件大小的潜在方法,但不清楚如何在 .html...
作者:Almodius 提问时间:8/18/2023
File1.py 将 CSV 打开为“DF”并创建一个图形。由于使用的份额是纽约市,因此时间为 -4。 df_y = pd.read_csv("Meta.csv") df_y['Datetim...
作者:John 提问时间:11/16/2012
要删除 DataFrame 中的列,我可以成功使用: del df['column_name'] 但是为什么我不能使用以下内容呢? del df.column_name 由于可以通过 访问...
作者:Adrien Pacifico 提问时间:8/21/2023
在 pandas 中,我可以通过以下方式使用 pyarrow dtype 创建一个系列: >>> import pandas as pd >>> s = pd.Series([1,2,3]).as...
作者:Jackson Dunn 提问时间:8/22/2023
我有一个大型数据集(100 万行以上)和几个定期更改的 GB。它通过将每个条目与其在流网络中的上游邻居相关联来对流特征进行建模。我想要的工具的基本逻辑是使用 ID 字段,搜索相关的上游设备,并将存储在...
作者:n3cr05c0p3 提问时间:8/22/2023
我将如何调整我的代码,以便我可以将借方和贷方打印到 csv 文件。 我已经包含了下面的代码,并且很难理解使用 csv 模块要使用哪些变量以及在哪里使用。我还包含了我当前收到的错误消息以及打印到屏幕上...