实现原理:
比较简单,
在指定的偏移量位置开始(比如2MB处),填充指定字节数(比如1KB字节)的0x0
把原来的那1KB字节挪到文件最后追加,比如原文件示意。
ABCDEFGHIJKLMNOPQRSZ
那么处理后的文件示意图是这样的:
ABCD0000IJKLMNOPQRSZEFGH
对于百度云,每个文件全部计算出hash值后,再跟和谐库里面的hash黑名单对比的话,计算量太大,不划算
而如果只是比对大小,或者比对文件名的话,又容易漏网之鱼太多而泛滥
根据它上传大文件时的API描述,是分片计算hash值,来做的极速上传功能
我猜想,对于和谐黑名单的比对,应该也是分片计算hash值的,一旦匹配上,就直接拉黑了
因此,试了下,在2MB处,写1KB填0x0的情况,上传到百度云,就不会被和谐了
从而认为,对和谐的处理,只校验前面部分的hash值,后面分片的hash值,就没比对了
至于整个文件的整体hash,因为文件上传上去必然有总的hash值,因此肯定也是要比对的了
本程序处理过的文件的还原办法:
由于处理过的文件,自动改名成了原始文件名+ _Oxxxxxxx_Sxxxxxx的名字
还原的时候,读取Oxxxxxx的为偏移量,读取Sxxxxxxx的为填充字节数
把最后面的填充字节挪到前面偏移量处的一堆0x0处,然后把文件的后面垃圾截断,就还原出原始文件了
对于视频文件,由于只填充了128字节/0.5/1/2/4/8KB的几种小区段,不会影响播放,也基本不用还原了
对于版权敏感被和谐的iso、zip、exe等文件,由于被修改了文件,会自解压等校验出错(即使没报错,也建议还原,以免造成潜在未知问题
以前用perl写的自己用,后面看有人写了一个,我也把我的打包编译下,共享出来。
其实自己动手编程写的话,不用几行代码就可以了。
应群众要求,贴几个用法的图吧: