将 DataFrame 列类型从字符串转换为日期时间

Convert DataFrame column type from string to datetime

提问人:perigee 提问时间:6/16/2013 最后编辑:cottontailperigee 更新时间:10/24/2023 访问量:723736

问:

如何将字符串的 DataFrame 列(dd/mm/yyyy 格式)转换为 datetime dtype?

python pandas dataframe 格式 python-datetime

评论


答:

722赞 Andy Hayden 6/16/2013 #1

最简单的方法是使用to_datetime

df['col'] = pd.to_datetime(df['col'])

它还为欧洲时代提供了一个论据(但请注意,这并不严格)。dayfirst

这是在行动:

In [11]: pd.to_datetime(pd.Series(['05/23/2005']))
Out[11]:
0   2005-05-23 00:00:00
dtype: datetime64[ns]

您可以传递特定格式

In [12]: pd.to_datetime(pd.Series(['05/23/2005']), format="%m/%d/%Y")
Out[12]:
0   2005-05-23
dtype: datetime64[ns]
73赞 sigurdb 6/26/2017 #2

如果日期列是格式为“2017-01-01”的字符串 您可以使用 pandas astype 将其转换为 datetime。

df['date'] = df['date'].astype('datetime64[ns]')

或者使用 datetime64[D],如果你想要 Day 精度而不是纳秒

print(type(df['date'].iloc[0])) 

收益 率

<class 'pandas._libs.tslib.Timestamp'>

与使用pandas.to_datetime时相同

您可以尝试使用其他格式,然后是“%Y-%m-%d”,但至少这有效。

评论

0赞 fantabolous 9/2/2022
仅供参考,当在字符串中指定时区时,它会忽略它
55赞 Ekhtiar 5/2/2018 #3

如果要指定棘手的格式,可以使用以下命令:

df['date_col'] =  pd.to_datetime(df['date_col'], format='%d/%m/%Y')

更多细节在这里:format

23赞 otaku 7/28/2019 #4

如果您的约会中混合了多种格式,请不要忘记设置以使生活更轻松。infer_datetime_format=True

df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)

来源:pd.to_datetime

或者,如果您想要自定义方法:

def autoconvert_datetime(value):
    formats = ['%m/%d/%Y', '%m-%d-%y']  # formats to try
    result_format = '%d-%m-%Y'  # output format
    for dt_format in formats:
        try:
            dt_obj = datetime.strptime(value, dt_format)
            return dt_obj.strftime(result_format)
        except Exception as e:  # throws exception when format doesn't match
            pass
    return value  # let it be if it doesn't match

df['date'] = df['date'].apply(autoconvert_datetime)

评论

0赞 Asclepius 12/4/2020
可以使用自定义方法而无需求助于没有快速缓存的方法,并且在转换十亿个值时会遇到困难。另一种选择,但不是很好的选择,是.applycol = pd.concat([pd.to_datetime(col, errors='coerce', format=f) for f in formats], axis='columns').bfill(axis='columns').iloc[:, 0]
3赞 Asclepius 12/9/2020
如果混合了多种格式,则不应使用 infer_datetime_format=True,因为这假定使用单一格式。跳过这个论点。要了解原因,请尝试使用和不使用.请参阅此问题pd.to_datetime(pd.Series(['1/5/2015 8:08:00 AM', '1/4/2015 11:24:00 PM']), infer_datetime_format=True)errors='coerce'
1赞 Scarlett 11/2/2022 #5

请尝试以下解决方案:

  • 改变'2022–12–31 00:00:00' to '2022–12–31 00:00:01'
  • 然后运行以下代码:pandas.to_datetime(pandas.Series(['2022–12–31 00:00:01']))
  • 输出:2022–12–31 00:00:01

评论

0赞 wjandrea 10/24/2023
“将'2022–12–31 00:00:00'更改为'2022–12–31 00:00:01'” - 这与问题有什么关系?
8赞 cottontail 1/27/2023 #6
多个日期时间列

如果要将多个字符串列转换为日期时间,则使用 会很有用。apply()

df[['date1', 'date2']] = df[['date1', 'date2']].apply(pd.to_datetime)

您可以将参数传递给 as kwargs。to_datetime

df[['start_date', 'end_date']] = df[['start_date', 'end_date']].apply(pd.to_datetime, format="%m/%d/%Y")

在不指定的情况下传递给 ,仍会以矢量方式转换每一列的值。 这里是必需的,因为只能在单个列上调用。如果必须在多个列上调用它,则选项要么使用显式 ,要么将其传递给 。另一方面,如果对列调用 using (例如 ,则不会被矢量化,应避免使用。applyaxisapplypd.to_datetimefor-loopapplypd.to_datetimeapplydf['date'].apply(pd.to_datetime))


用于加速format=

如果列包含时间组件,并且您知道日期时间/时间的格式,则显式传递格式将大大加快转换速度。但是,如果该列仅是日期,则几乎没有任何区别。在我的项目中,对于一个有 500 万行的列,差异是巨大的:~2.5 分钟与 6 秒。

事实证明,明确指定格式的速度大约快了 25 倍。以下运行时图显示,性能存在巨大差距,具体取决于是否传递了格式。

timings


用于生成绘图的代码:

import perfplot
import random

mdYHM = range(1, 13), range(1, 29), range(2000, 2024), range(24), range(60)
perfplot.show(
    kernels=[lambda x: pd.to_datetime(x), lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M')],
    labels=['pd.to_datetime(x)', "pd.to_datetime(x, format='%m/%d/%Y %H:%M')"],
    n_range=[2**k for k in range(19)],
    setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}" 
                               for m,d,Y,H,M in zip(*[random.choices(e, k=n) for e in mdYHM])]),
    equality_check=pd.Series.equals,
    xlabel='len(df)'
)
-1赞 Mainland 10/24/2023 #7
print(df1.shape)
(638765, 95)

%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'])
473 ms ± 8.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='mixed')
688 ms ± 3.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='%Y-%m-%d %H:%M:%S')
470 ms ± 7.31 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)