伪原创系统2


说到底,我能想到的实现方法就是通过一定方法进行处理后,不改变文章本意,但搜索引擎看起来又大有不同。
一是专有名词处理。针对某些内容,搜集尽可能多的专有名词,当原文出现时,在后面添加英文名。比如皇马(real madrid)。
二是搜集专有名词和缩写。原文是缩写的,替换成全名,原文是全名的,替换为缩写等。
三是同义词替换。对完全同义全部替换,近似同义选择替换,也可以减少相似度。
如果不考虑技术实现难易度,除了增加,改变,还有方法应该是减少。可惜,不知道减少什么,因为无法判断哪些从全局来看无关紧要。
还有方法可以尝试,但范围就比较窄了。比如,将首先,其次,再次等顺序结构的词改为第一,第二,第三等。再深入点,可以研究汉语语法结构,对句子内部顺序进行一定调整。
暂时只想到这么多,待续。