文本正确与否的打分,是否可以用基于CPU的简单算法来做? 1. 分别用length从6到2的sliding_window sub_string,在标准文本,如日记中查找。找到次数/寻找总数=正确率。 2. 进一步深入,则是sub_string与sub_string的顺序都不能错。顺序错了都会扣分。这个算法比较复杂,我暂时不写。 ___ 1. 先用结巴分词,把所有文章分词,存入某个dict, {"word1": 0} 2. 再用这些词语把顺序提取出来,{"word1>word2":0}, 存入某个dict 3. 对于新文本,如果存在于word_dict,检测词语顺序匹配度,匹配越多,越正确 ___