其实服务器哈希的问题并不复杂,但是又很多的朋友都不太了解关于哈希值,因此呢,今天小编就来为大家分享服务器哈希的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!
一、哈希的emule概念
2002年5月13日emule诞生,随着emule的普及,喜欢他的人也越来越多,但是由于emule对技术相应有一个门槛,不像bt那么容易上手,所以很多朋友很长时间以来一直都有这样或那样的疑问,今天是周末我也献献丑,写一篇关于hash的文章。
大家天天都在使用emule,hash这个词是在emule里面出现频率最高的,那么到底什么是hash呢?
让我们先来了解一些基本知识,作作预热只有这样才能更好的了解hash。
Hash,一般翻译做散列”,也有音译为哈希的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。
简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
HASH主要用于信息安全领域中加密算法,他把一些不同长度的信息转化成杂乱的128位的编码里,叫做HASH值.也可以说,hash就是找到一种数据内容和数据存放之间的映射关系
了解了hash基本定义,就不能不提到一些著名的hash算法,MD5和 SHA1可以说是目前应用最广泛的Hash算法,而它们都是以 MD4为基础设计的。那么他们都是什么意思呢?
这里简单说一下:
1) MD4
MD4(RFC 1320)是 MIT的 Ronald L. Rivest在 1990年设计的,MD是 Message Digest的缩写。它适用在32位字长的处理器上用高速软件实现--它是基于 32位操作数的位操作来实现的。
2) MD5
MD5(RFC 1321)是 Rivest于1991年对MD4的改进版本。它对输入仍以512位分组,其输出是4个32位字的级联,与 MD4相同。MD5比MD4来得复杂,并且速度较之要慢一点,但更安全,在抗分析和抗差分方面表现更好。由于计算机运算水平的发展,可以通过大型计算机的运算采用暴力方式在秒级内MD5。
3) SHA1及其他
SHA1是由NIST NSA设计为同DSA一起使用的,它对长度小于264的输入,产生长度为160bit的散列值,因此抗穷举(brute-force)*更好。SHA-1设计时基于和MD4相同原理,并且模仿了该算法。
那么这些Hash算法到底有什么用呢?
Hash算法在信息安全方面的应用主要体现在以下的3个方面:
1)文件校验
我们比较熟悉的校验算法有奇偶校验和CRC校验,这2种校验并没有抗数据篡改的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。
MD5 Hash算法的数字指纹特*,使它成为目前应用最广泛的一种文件完整*校验和(Checksum)算法,不少Unix系统有提供计算md5 checksum的命令。
2)数字签名
Hash算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢,所以在数字签名协议中,单向散列函数扮演了一个重要的角色。对 Hash值,又称数字摘要进行数字签名,在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
3)鉴权协议
如下的鉴权协议又被称作挑战--认证模式:在传输信道是可被侦听,但不可被篡改的情况下,这是一种简单而安全的方法。
以上就是一些关于hash以及其相关的一些基本预备知识。那么在emule里面他具体起到什么作用呢?
什么是文件的hash值呢?
大家都知道emule是基于P2P(Peer-to-peer的缩写,指的是点对点的意思的软件),它采用了多源文件传输协议”(MFTP,the Multisource FileTransfer Protocol)。在协议中,定义了一系列传输、压缩和打包还有积分的标准,emule对于每个文件都有md5-hash的算法设置,这使得该文件独一无二,并且在整个网络上都可以追踪得到。
MD5-Hash-文件的数字文摘通过Hash函数计算得到。不管文件长度如何,它的Hash函数计算结果是一个固定长度的数字。与加密算法不同,这一个Hash算法是一个不可逆的单向函数。采用安全*高的Hash算法,如MD5、SHA时,两个不同的文件几乎不可能得到相同的Hash结果。因此,一旦文件被修改,就可检测出来。
当我们的文件放到emule里面进行共享发布的时候,emule会根据hash算法自动生成这个文件的hash值,他就是这个文件唯一的身份标志,它包含了这个文件的基本信息,然后把它提交到所连接的服务器。当有他人想对这个文件提出请求的时候,这个hash值可以让他人知道他正在的文件是不是就是他所想要的。尤其是在文件的其他属*被更改之后(如名称等)这个值就更显得重要。而且服务器还提供了,这个文件当前所在的用户的,端口等信息,这样emule就知道到哪里去了.
一般来讲我们要搜索一个文件,emule在得到了这个信息后,会向被添加的服务器发出请求,要求得到有相同hash值的文件。而服务器则返回持有这个文件的用户信息。这样我们的客户端就可以的和拥有那个文件的用户沟通,看看是不是可以从他那里所需的文件。
对于emule中文件的hash值是固定的,也是唯一的,它就相当于这个文件的信息摘要,无论这个文件在谁的机器上,他的hash值都是不变的,无论过了多长时间,这个值始终如一,当我们在进行文件的上传过程中,emule都是通过这个值来确定文件。
那么什么是userhash呢?
道理同上,当我们在第一次使用emule的时候,emule会自动生成一个值,这个值也是唯一的,它是我们在emule世界里面的标志,只要你不卸载,不删除config,你的userhash值也就永远不变,积分制度就是通过这个值在起作用,emule里面的积分保存,身份识别,都是使用这个值,而和你的id和你的用户名无关,你随便怎么改这些东西,你的userhash值都是不变的,这也充分保证了公平*。其实他也是一个信息摘要,只不过保存的不是文件信息,而是我们每个人的信息。
那么什么是hash文件呢?
我们经常在emule日志里面看到,emule正在hash文件,这里就是利用了hash算法的文件校验*这个功能了,文章前面已经说了一些这些功能,其实这部分是一个非常复杂的过程,在ftp,bt等软件里面都是用的这个基本原理,emule里面是采用文件分块传输,这样传输的每一块都要进行对比校验,如果错误则要进行重新,这期间这些相关信息写入met文件,直到整个任务完成,这个时候part文件进行重新命名,然后使用move命令,把它传送到ining文件里面,然后met文件自动删除,所以我们有的时候会遇到hash文件失败,就是指的是met里面的信息出了错误不能够和part文件匹配,另外有的时候开机也要疯狂hash,有两种情况一种是你在第一次使用,这个时候要hash提取所有文件信息,还有一种情况就是上一次你非法关机,那么这个时候就是要进行排错校验了。
关于hash的算法研究,一直是信息科学里面的一个前沿,尤其在网络技术普及的今天,他的重要*越来越突出,其实我们每天在网上进行的信息交流安全验证,我们在使用的操作系统密钥原理,里面都有它的身影,特别对于那些研究信息安全有兴趣的朋友,这更是一个打开信息世界的钥匙,他在hack世界里面也是一个研究的焦点.我是一个门外汉,利用这个周末找了一些资料,胡乱写了一点关于hash的文章,也有不少是我自己的分析,这期间肯定还有不对的地方,还请朋友们多多指出错误,我抛砖引玉希望大家批评指导。
二、什么是哈希值
许多朋友不知道哈希值是什么,想知道哈希值怎么用,小编这里就做一下科普。
哈希值是什么
哈希值就是文件的身份证,不过比身份证还严格。他是根据文件大小,时间,类型,创作着,机器等计算出来的,很容易就会发生变化,谁也不能预料下一个号码是多少,也没有更改他的软件。哈希算法将任意长度的二进制值映射为固定长度的较小二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的。
消息身份验证代码(MAC)哈希函数通常与数字签名一起用于对数据进行签名,而消息检测代码(MDC)哈希函数则用于数据完整*。
举个例子,小红和小明可按下面的方式使用哈希函数以确保数据完整*。如果小红对小明编写一条消息并创建该消息的哈希,则小明可以在稍后散列该消息并将他的哈希与原始哈希进行比较。如果两个哈希值相同,则该消息没有被更改;但是,如果值不相同,则该消息在小红编写它之后已被更改。为了使此系统运行,小红必须对除小明外的所有人保密原始的哈希值。
哈希值的应用
由于本身的固定*哈希值可以用在文件搜索上,比如可以利用文件哈希值在工具上搜索文件,下面小编就以电驴(emule)为例,说明一下使用方法。
一.知道资源HASH值如何搜索文件
表达式:
ed2k::文件哈希值
举例,我知道一个文件的hash值是:E8C636D0C0486378BF61E6A3000D0FB7
我就可以在选择搜索方式“服务器”或者“全局服务器”,然后输入:
ed2k::E8C636D0C0486378BF61E6A3000D0FB7
这样就能找到hash值等于这个值的文件了,如果文件名有很多种,可以点开文件名前面的小加号“+”,查看所有文件名。
如图所示:
已知文件hash值在电驴服务器搜索一个文件
二.寻找相关文件
表达式:
related::文件哈希值
同上选择搜索方式“服务器”或者“全局服务器”,然后输入:
related::E8C636D0C0486378BF61E6A3000D0FB7
就可以找到与此文件相关的文件,但是具体怎么相关,小编暂时不知道。
最后附上一款好用的哈希值计算工具(HashChecker):
三、关于哈希值
通俗来讲,哈希值就是文件的身份证,不过比身份证还严格。他是根据文件大小,时间,类型,创作者,机器等计算出来的,很容易就会发生变化,谁也不能预料下一个号码是多少,也没有更改他的软件。哈希算法将任意长度的二进制值映射为固定长度的较小二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的。
有这样一种情境,有三万张图片我们要均匀放置于三个缓存服务器上
简单的做法是对缓存的key进行哈希计算,得到的值进行取模计算,所得到的余数,便是缓存的服务器编号
hash%机器数=余数
当机器数为3时无论值为多少,其余数永远只有0,1,2三种情况
那么根据余数,我们给服务器进行编号s0,s1,s2,余数为0的放置于s0服务器上,1,2同理。
这样我们就将三万张图片的缓存均分成三份存放与三台缓存服务器中
因为对同一张图片进行哈希计算时,所得到的哈希值是不变的,所以当需要访问图片时,只要再次进行哈希计算和取模计算,就能获取到图片存放于哪台服务器,便可以去该服务器中查找满足了我们的需求。而这种算法也称之为哈希算法
这其中有一个问题,那便是如果我增加一台服务器呢
可以预见的是,当增加一台服务器服务器数变成了4.而余数也出现了4种情况
这时向s2的服务器查询时,无法读取到图片,这导致了程序无法从缓存服务器中读取数据,这时程序就会向后端服务器请求,而大量的缓存同时失效,会导致所有请求都指向后端服务器,这会引起后端服务器的崩溃。
这是就要引入一致*哈希算法
还是同样的三个缓存服务器,这次我们将哈希值对2 32取模,所得到的数一定是1到2 32之间的一个整数
然后我们想像一个圆环,其上的每一个点都代表1到2^32之间的一个整数,而这个圆环也被称为hash环
之后我们对服务器A进行取模计算,这样算出来的整数肯定在1到2^32之间,将这个整数代表为服务器A,并且我们可以将这个整数映射到哈希环上,同样的道理我们处理另外两个服务器,这时三个服务器都被映射到了哈希环上,对于图片我们也将他映射到哈希环上
那么我们只要从图片的哈希值开始,沿顺时针在哈希环上查找,遇到的第一个服务器便是图片缓存所在的服务器
这时哪怕新添加一个服务器在哈希环上,我门所丢失的缓存数据也只是新添加的服务器到逆时针方向遇到的第一个服务器这部分数据,而这样仍然有大部分缓存在缓存服务器中可以被查找到,这样可以帮助后端服务器分担大部分压力,不会使服务器崩溃,而这部分丢失的缓存数据,之后重新在后端加载便可以了
这又引入了另一个问题,哈希偏斜
我们无法确保三个服务器在哈希环上为均分的状态,很有可能其中一台服务器分到了很大部分而另两台分到了很少的部分,这样同样会有后端服务器崩溃的隐患
我们可以添加很多虚拟结点同一个服务器我们分出许多虚拟节点,映射在哈希环上,哈希环上的节点越多,缓存被均分的概率便越大,这样可以尽可能的保证缓存在服务器上是接近理想均分的状态,避免了哈希偏斜的问题