如何使用 pandas 正确读取文件

how to read file with pandas correctly

提问人:Suzu 提问时间:10/24/2023 更新时间:10/24/2023 访问量:67

问:

我尝试像这样阅读txt文件:

id  sub_id  identity    q_length    alignment_length    mismatches  gap_opens   evalue  bit_score   stitle
>ID1757 49.512  454 410 207 0   3.71e-159   461 Sequence 11511 from patent US 8343764         
>ID6556 gb|AEI19864.1|  56.442  372 326 140 1   1.36e-135   394 Sequence 412 from patent US 7960148

我需要正确设置列。但在最后一列中,我有几句话。我需要把它放在一列中。

我也有这个案例:

id  sub_id  identity    q_length    alignment_length    mismatches  gap_opens   evalue  bit_score stitle
>ID54545    sp|Q59226.1|    31.340  454 418 255 11  8.73e-49    178 RecName: Full=Cyclomaltodextrinase; Short=CDase; Short=CDase I-5; AltName: Full=Cyclomaltodextrin hydrolase, decycling [Bacillus sp. (in: firmicutes)]

我需要将 RecName 之后的所有文本放到一列

我尝试设置列名并打印最后一列以查看系统如何定义列。

df1_column_names = ['id'    'sub_id'    'identity'  'q_length'  'alignment_length'  'mismatches'    
'gap_opens' 'evalue'    'bit_score' 'stitle']
df1 = pd.read_csv('path', names=df1_column_names)

newdf = df1['stitle']

newdf.to_csv('path', index=False) 

但是我遇到了一个错误。在其他情况下,系统将最后一列定义为“序列 412”,例如,不是“来自美国专利7960148”,而是“7960148”

python pandas 字符串 dataframe 文本

评论

1赞 Andrej Kesely 10/24/2023
你不是在第一排失踪了吗?sub_idID1757
1赞 Suraj Shourie 10/24/2023
“但是我有一个错误”,你得到了什么错误?
1赞 tdelaney 10/24/2023
我不认为熊猫会成功阅读这篇文章。但是你可以编写一些正则表达式来逐行解析,然后写入一个真正的 CSV 文件 - 要么写入磁盘,要么写入 io。StringIO 中。然后你就有了熊猫可以使用的东西。

答: 暂无答案