当前位置: 首页 - 编程技术 - 文章正文

从json提取数据,保存成txt格式

xiaoqihv

前段时间有一个需求做文本语义匹配,但是公司的标注数据不够无监督学习效果不够好,只能使用开源的数据集。开源的数据集清洗成json格式,我们从json提取数据保存成txt格式方便后续的使用。JSON数据格式如下: 处理好的txt数据格式如下: 处理代码如下图所示:

import jsonimport osimport syssen1 = []sen2 = []label = [] with open('./1.json',encoding='utf-8') as f: for line in f: try: line.index("sen1") # line = line.strip('\n') pos = line.index(':') sen1.append(line[pos+3:len(line)-3]) except ValueError: pass try: line.index("sen2") # line = line.strip('\n') pos = line.index(':') sen2.append((line[pos+3:len(line)-3])) except ValueError: pass try: line.index("label") try: line.index("sen1") except ValueError: pos = line.index(':') # label.append(line[pos + 3:len(line) - 2]) # label.append(line[pos + 1:len(line) - 1]) label.append(line[pos + 3:len(line) - 2]) except ValueError: pass write_file = open('./1.txt',"a+",encoding='utf-8') j=0 while j< len(sen1): str_info = sen1[j]+"\t"+sen2[j]+"\t"+label[j]+"\n" write_file.write(str_info) j = j + 1
文章地址:https://wenmayi.cn/post/370.html