如何使用 pandas 正确读取文件-解网

问：

我尝试像这样阅读txt文件：

id  sub_id  identity    q_length    alignment_length    mismatches  gap_opens   evalue  bit_score   stitle
>ID1757 49.512  454 410 207 0   3.71e-159   461 Sequence 11511 from patent US 8343764         
>ID6556 gb|AEI19864.1|  56.442  372 326 140 1   1.36e-135   394 Sequence 412 from patent US 7960148

我需要正确设置列。但在最后一列中，我有几句话。我需要把它放在一列中。

我也有这个案例：

id  sub_id  identity    q_length    alignment_length    mismatches  gap_opens   evalue  bit_score stitle
>ID54545    sp|Q59226.1|    31.340  454 418 255 11  8.73e-49    178 RecName: Full=Cyclomaltodextrinase; Short=CDase; Short=CDase I-5; AltName: Full=Cyclomaltodextrin hydrolase, decycling [Bacillus sp. (in: firmicutes)]

我需要将 RecName 之后的所有文本放到一列

我尝试设置列名并打印最后一列以查看系统如何定义列。

df1_column_names = ['id'    'sub_id'    'identity'  'q_length'  'alignment_length'  'mismatches'    
'gap_opens' 'evalue'    'bit_score' 'stitle']
df1 = pd.read_csv('path', names=df1_column_names)

newdf = df1['stitle']

newdf.to_csv('path', index=False)

但是我遇到了一个错误。在其他情况下，系统将最后一列定义为“序列 412”，例如，不是“来自美国专利7960148”，而是“7960148”

python pandas 字符串 dataframe 文本

如何使用 pandas 正确读取文件

how to read file with pandas correctly

评论