提问人:Suzu 提问时间:10/24/2023 更新时间:10/24/2023 访问量:67
如何使用 pandas 正确读取文件
how to read file with pandas correctly
问:
我尝试像这样阅读txt文件:
id sub_id identity q_length alignment_length mismatches gap_opens evalue bit_score stitle
>ID1757 49.512 454 410 207 0 3.71e-159 461 Sequence 11511 from patent US 8343764
>ID6556 gb|AEI19864.1| 56.442 372 326 140 1 1.36e-135 394 Sequence 412 from patent US 7960148
我需要正确设置列。但在最后一列中,我有几句话。我需要把它放在一列中。
我也有这个案例:
id sub_id identity q_length alignment_length mismatches gap_opens evalue bit_score stitle
>ID54545 sp|Q59226.1| 31.340 454 418 255 11 8.73e-49 178 RecName: Full=Cyclomaltodextrinase; Short=CDase; Short=CDase I-5; AltName: Full=Cyclomaltodextrin hydrolase, decycling [Bacillus sp. (in: firmicutes)]
我需要将 RecName 之后的所有文本放到一列
我尝试设置列名并打印最后一列以查看系统如何定义列。
df1_column_names = ['id' 'sub_id' 'identity' 'q_length' 'alignment_length' 'mismatches'
'gap_opens' 'evalue' 'bit_score' 'stitle']
df1 = pd.read_csv('path', names=df1_column_names)
newdf = df1['stitle']
newdf.to_csv('path', index=False)
但是我遇到了一个错误。在其他情况下,系统将最后一列定义为“序列 412”,例如,不是“来自美国专利7960148”,而是“7960148”
答: 暂无答案
评论
sub_id
ID1757