计算机的记数制系统及实验

by 杜伟韬中国传媒大学
批评指正敬请写信至 1024670978 AT QQ dot com

引言

在使用C语言和Verilog HDL 设计信号处理电路的实验过程中，把理论算法模型使用编程语言映射到目标平台上是一个难点。在教科书和仿真工具中，大部分数学模型都是采用浮点格式数据进行描述和仿真。然而，由于芯片成本和计算速度的限制，对于目标器件而言，整数定点格式应用的更为广泛。为了让选课同学更好的理解计算机平台上的定点小数格式，本文抛砖引玉，希望能对定点小数处理进行一点肤浅的介绍，同时本文在Github上提供了2个简单的参考代码，以供同学们进行实验。

什么是记数制系统

人类对数字的认识和使用，最早源自于远古时期对生产和生活资料的积累与分配，在古代结绳记事的年代正整数已经可以完全满足我们的日常需要。随着生产力的发展，更加复杂与精细的测量系统和数字表示方法被逐渐使用，从而用于满足更加复杂的使用需求。

所谓记数制（Numeral System）系统，是指用来表示数字的方法，以及所采取的相应计算法则。这里尤其需要关注的是，数值的表示形式和和其计算方法严格对应的。举例来说：

求重量： 1000 克加上 1000 克
求时间：凌晨 0 点加上 1000 分钟
求日期：公元2000年1月1日加上1000天

从上面的例子可以看到，虽然都是在某个数值的基数上增加 1000，但是计算的方法却迥然不同。所以，我们在使用计算机解决实际问题时也同样需要注意，不但需要用正确的格式表示数据，还需要对数据采用正确的计算法则。

计算机中的数据处理方法

计算机是人类最重要的发明之一，在计算机的存储和运算过程中，所有信息均用数字来表示。现代计算机通常采用分层的存储结构，需要处理的数据被存放于主存储器（RAM）中，中央处理器（CPU）把数据逐个从RAM中读取到CPU的寄存器（Register）中，然后由算术逻辑单元（ALU）对寄存器中的数据进行计算，计算的结果又会被写回到寄存器中，然后再被写出到主存储器里。

下图给出了一个简化的计算机中执行整数加法的过程。两个存放于RAM中的数字， 4 和 9 ，被分别加载到寄存器R1 和 R2 中，由算术单元 ALU 执行相加的操作，加法的结果被输出到寄存器 R3 中，随后写出到 RAM里。

计算机中的加法

使用计算机进行数据处理中的另一个重要概念是字长，所谓字长，是指CPU一次运算操作能够处理的最长的二进制位数。当前的主流处理器字长通常为32甚至为64。早期的计算机的字长为8，即 CPU 中寄存器的数据宽度为 8 个比特， ALU 运算单元一次只能完成 8比特宽度的数值计算。下图示意了寄存器中的两个8比特数值被ALU单元相加生成一个8比特结果。

8比特数据加法

整数的有限字长问题

上文例子中两个加数分别是 110 和 30 ，结果是 140，这些数字均小于 8比特二进数能够表示的最大数值 255（十进制），即： 1111 1111 (二进制) = 255(十进制) 。于是，善于质疑的读者会提出问题，如果两个加数均不超过255，但是加法和大于 255 ，将会得到怎样的结果？比如十进制的 130 和 150 相加，理论上的结果是280。但是8比特字长无法承载280这个数据。实际上CPU在遇到这种情况时，会在8比特的结果寄存器中保留数值 24 （即10进制的280换算成2进制数 1 0001 1000 的低8位），然后会将一个特殊的寄存器的某个标志位的值设为1，通常是中断标志（Interrupt Flag）寄存器的溢出（Overflow）标志位，这会引发一个 “硬件异常（hardware exception）”，导致处理器发生指令跳转并执行异常处理的程序代码。

关于有限字长问题，历史上曾经有过两次著名事件，分别是“千年虫”问题和欧洲航天局的阿丽亚娜火箭爆炸事件。千年虫问题由于日期数据格式的字长不足，年份数据仅有2位10进制数据，从而导致计算机无法正确计算跨越公元2000年前后的时间长度，例如计算一笔从1999年到2001年的存款利息，会出现不正确的巨大数值。千年虫问题最终由计算机工业的各个分支机构共同修正软件和数据格式得以解决，最终没有造成巨大的社会危害。阿丽亚娜火箭爆炸事件，被称为有史以来最昂贵的软件错误，由于软件测试工作的疏漏，该火箭控制飞行姿态的处理器使用的16比特字长数据发生了溢出，最终导致价值上亿美元的火箭和卫星载荷的飞行姿态异常发生自爆。

整数表示及运算操作

在计算机系统中，最常用的是整数运算是加法和减法，其次是乘法，最复杂的整数计算是除法。对于不同的计算机处理器而言，其加、减法的操作均使用算数运算单元 ALU 中的硬件电路来完成。低端的处理器如果没有配备硬件的整数乘法电路，通常使用软件的方法，用多次的加法来完成乘法计算。除法的情况和乘法类似，如果处理器没有硬件除法电路，也可以使用软件编程通过多次的数值比较和整数减法来实现除法运算。

正整数乘加运算的字长

在计算机系统中，最简单的是正整数运算，并且结果仍然是正整数的情况。比如，正整数的加法和乘法。
在进行加法和乘法计算时，最需要注意的是字长问题。这里需要引入动态范围（dynamic range）的概念，所谓动态范围是指变量数值变化范围的边界值。例如：

十进制个位正整数的动态范围是(0, 9)
十进制个位有符号整数的动态范围是(-9, 9)
十进制十位正整数的动态范围是(0, 99)
十进制十位有符号整数的动态范围是(-99, 99)

以十进制数举例：

2个十进制数相加，如果两个加数分别是十位数和个位数，则结果最大可能是百位数。
2个十进制数相乘，如果两个乘数分别是十位数和个位数，则结果最大可能是百位数

从上面十进制的例子可以看出，加法会导致字长比最大加数的字长增加一位，而乘法结果的字长是两个乘数字长之和。下图示例了两个十进制正整数的乘加运算。图中的数据在进行计算之前，先根据计算结果的字长进行了高位补零，虽然这与我们的小学作业本上的形式上不同，实际上当我们写小学作业时，高位补零这一过程是存在于我们的脑海中的，只不过没有写在作业本上。

十进制正整数的乘加运算

在计算机中，上图中的过程，以二进制表示的计算过程如下图所示，图中也根据计算结果先行扩展了计算数据的高位字长。

二进制正整数的乘加运算

2进制补码的乘加运算

上文内容中，正整数的乘加运算是记数制系统中最简单的情况，只要合理规划好字长，就可以得到相应的正确结果。然而，计算机系统中还需要能够表示“负数”和 “减法”这一常用的记数形式及运算法则。

我们在小学数学的速算训练时，会遇到所谓“补数”这种概念。 “补数”可以通过加法来计算减法。例如：

一个十进制正整数A的补数C定义为， C 等于把 A 向上取整到最近的“10的整数次幂”。
若 A = 9 ，则 C = 1；若 A = 60，则 C = 40。
于是有：
- 19 - 7 = 19 - 10 + 3 = 12
- 169 - 78 = 169 - 100 + 22 = 91

对于十进制的补数而言，上面的例子似乎对加速计算的帮助有限。但是在二进制中，情况则大不一样，补码格式大有用处。

二进制补码格式

二进制的补码（2's Complement Code），简称 2补码，是计算机系统中用来表示负数的方法，从而用负数的形式把减法转化成加法。 2补码数据的格式定义为：最高位是符号位，从次高位到末位是数值位。请注意，该定义隐含的表达了一个意思，就是要先确定数据的字长，否则2补码无从谈起。

下图给出了 4比特字长二进制数据的2补码的2进制和十进制表示对应关系，图中可见， 4比特2补码可以表示从 -8 到 +7 共 16个整数。

4比特字长 2 补码数值

从上图中可以看到，正数的最高位总是 “0”，负数的最高位总是“1”。

对于 N比特2进制数 A，其表示方法为：

最高位为符号位， 0表示正数， 1表示负数
若 A 为正数，则其 2补码为 A 的数值转换为 2进制
若 A 为负数，则其 2补码为（（2的N次幂） - （A的绝对值））转换为 2进制
例如， 4比特2进制数
- 若A = 3 ，则其 2补码为 3 转换为2进制，即0011
- 若A = -3 ，则其 2补码为 16 - 3 = 13 转换为 2进制，即 1101

实际应用中，正数和负数之间的2补码可以有更简便的计算方法。例如：若已知数 A ，求它的相反数 -A，则可以把数 A 按照比特位取反，然后在最低位加上1。举例如下：

若A = 7， 7 的二进制是 0111，按位取反得到 1000，末位加1 得到 1001，则 -7的2补码就是 1001
若A = 1， 1 的二进制是 0001，按位取反得到 1110，末位加1 得到 1111，则 -1的2补码就是 1111
若A =-2，-2 的二进制是 1110，按位取反得到 0001，末位加1 得到 0010，则 2的2补码就是 0010
若A =-6，-6 的二进制是 1010，按位取反得到 0101，末位加1 得到 0110，则 6的2补码就是 0110

从上面的例子可以看到， 2 补码数值的符号取反过程计算复杂度不大，仅需要进行位取反和加法操作，计算机系统由此可以把整数减法计算转换为整数符号取反和加法运算。举例来说：

若计算 5 - 3 ，先对 3 符号取反，得到 - 3 的2补码为 1101，加上5的 2补码 0101，结果的低4位是 0010，即 2
若计算 3 - 6 ，先对 6 符号取反，得到 - 6 的2补码为 1010，加上3的 2补码 0011，结果的低4位是 1101，即 -3
若计算 -3 - 2 ，- 3 的2补码为 1101 加上 -2的 2补码 1110，结果的低4位是 1011，即 -5

从上面的例子可以看出，在2补码的格式下，整数的加减法可以统一成2补码的符号取反和加法运算，这对于简化处理器的数字电路设计很有帮助。

符号扩展

符号扩展（Sign Extension）是补码系统中最重要的话题之一。如前文所述， 2补码数据的含义是定义于字长的前提下的。

下面表格中给出了若干数值在不同字长时的二进制格式

数值	4比特字长	8比特字长	16比特字长
1	0011	0000 0011	0000 0000 0000 0011
2	0010	0000 0010	0000 0000 0000 0010
3	0011	0000 0011	0000 0000 0000 0011
4	0100	0000 0100	0000 0000 0000 0100
-1	1111	1111 1111	1111 1111 1111 1111
-2	1110	1111 1110	1111 1111 1111 1110
-3	1101	1111 1101	1111 1111 1111 1101
-4	1100	1111 1100	1111 1111 1111 1100

符号扩展的含义是，当把一个2补码数值，扩展为更长的字长时，需要在多出来的高位比特位置上，填充上该数值原来的符号位。从表格中可以看到：

把4比特的正数扩展到8比特和16比特字长时，需要在多出来的高位上补0。
同样，当扩展4比特的负数的字长时，同样需要在多出来的高位比特上补上1。

至此，需要回顾上一节中的加法问题，

在4比特字长的2补码系统中，计算 3 - 6
先得到 3 的2补码为 0011 ，加上 -6的 2补码 1010，结果的低4位是 1101，即 -3

但是，如果计算 -3 - 6 ，其理论上的结果是 -9，但是 -9 已经超出了 4比特2补码的表示范围，结果又会如何？

先得到 -3 的2补码， 1101
然后得到 -6的2补码， 1010
两者相加后取低4位2进制数，得到 0111，即 4比特2补码数的 7

本来想要 -9，现在却得到 7 ，出现这样的结果，究其原因是因为，没有扩展字长。上面的计算过程，为了得到正确的结果，需要先把字长扩展到5比特，按照如下过程计算：

先得到 -3 的2补码， 1101，符号扩展到5比特，得到 11101
然后得到 -6的2补码， 1010，符号扩展到5比特，得到 11010
两者相加后取低5位2进制数，得到 10111，即5比特2补码数的 -9

另外，值得注意的是， 2补码格式还有一个优良的累加溢出性质：当多个2补码数据相加时，如果加法的中间结果溢出，但是如果理论上的最终结果是不溢出的，则2补码数的加法结果也不会溢出。举例如下：

在4比特字长，2补码格式，计算 -3 -9 + 5
利用上面结果， -3-9 得到 4比特的 7，即0111
4比特字长，5的2补码为 0101，再加上7， 0101+0111 = 1100 ，即4比特字长中，2补码的 -4

以上这种累加溢出特性，在进行信号处理和数值分析等科学计算任务时非常有用，可以先通过理论分析出计算结果的最大字长，然后以之作为累加器字长，对于大规模计算任务能够节省资源提高效率。

计算机中的小数

在数值计算中，我们经常需要使用小数。虽然在计算机中使用二进制来表示小数系统，但是其含义和数学中的十进制小数系统是类似的。下图给出了十进制和二进制小数系统的对比示意。

十进制与二进制小数对比图

接下来，计算机系统需要解决如何表示小数点的问题，在数学中，有2种小数的表示方法

科学记数法，例如， 0.37 * 10E2 ，其中0.37称为尾数，数学上要求其绝对值介于1和10之间
诸如 10.3 ， 35.73 这种我们日常用的方法

以上两种表示方法，在计算机系统中均有使用，前者发展成为浮点数格式，后者发展成定点数表示方法。

IEEE754 浮点数

为了表示小数，计算机工业制定了 IEEE754标准，被称为 “浮点数标准”。为了适应不同的需要， IEEE754标准定义了 16、32 、64 、 128 比特多种字长的小数表示方法。其中最常用的是 32比特字长的小数格式，即，float 单精度浮点。下图给出了 32比特单精度浮点数的格式，各部分数值的含义，以及一个计算样例

IEEE 32bit 单精度浮点数格式及计算样例

从上图中可以看出，浮点数采用的是类似科学记数法的表示方式，即整个数据字长被分为符号位、指数、小数（尾数）三部分。其中，尾数被折算为一个介于1和2之间的数据，然后根据折算出来的指数再确定小数点的位置。由于小数点的位置是随着数据内容动态确定的，浮点数也因此而得名。浮点数的优点是能够有效的利用数据字长，由于采用了指数方法，这种格式能够有效的表示较大和较小的数值。

浮点数的计算

计算机系统中，浮点数的计算比整数计算需要消耗更多资源，浮点数的乘法较为容易，只需要对尾数做乘法，以及对指数做加法，如果计算结果出现数量级的变化，则还需调整指数，以规范化尾数数值。

以十进制为例

计算 : 2.5 E3 * 6 E2 = (2.5 * 6) E (3 + 2) = 15 E5 = 1.5 E6

浮点数做加法较为困难，因为需要先调整加数的指数，把运算的两个加数的小数点对齐，运算完毕后还需要再次调整指数数据，以把尾数的计算的结果进行规范化，使得尾数部分介于1和2之间。

以十进制为例，

计算 : 1.7 E3 + 1.1 E2 = 1.7 E3 + 0.11 E3 = 1.81 E3
计算 : 1.7 E3 + 9.8 E3 = 11.5 E3 = 1.15 E4

从上面的例子可以看出，当加数的指数不一致时，需要把小的数据向大的数据看齐。当尾数相加产生了数量级变化时，需要调整指数，重新把尾数调整回规定的范围。

同样的过程也发生在二进制系统中，处理器中的浮点运算单元因为需要动态处理指数，以及动态的对尾数进行规范化，从而使其成为一个复杂的部件。 IEEE754 浮点数是由编译器和语法关键字来支持的，例如 C语言中的 float 和 double 类型的变量，会被编译器映射为IEEE754的数据格式，由浮点运算单元对其进行处理。如果处理器中没有浮点运算单元，该处理器仍可以使用整数运算单元对浮点数进行运算，代价是需要更多的指令周期，从而导致较长的计算时间。

十进制定点小数

如前文所述，虽然浮点数能够有效的表示较大和较小的数值，但是由于其运算过程复杂，会消耗较多的计算资源。于是在计算机系统中还会采用一种“定点小数（fixed point fraction）” 的小数表示方法。和浮点数不同的是，定点数格式，是数值计算代码开发人员在程序代码中自定义的一种小数格式。在定点格式中，小数点对编译器是透明的，即编译器并不知道小数的存在，编译器输入的所有变量都是整数类型，只有程序员知道小数点的存在。

同样，仍以十进制为例：

约定数据格式为，4位有效数字，前两位有效数字表示十位和个位，后两位表示十分位和百分位。
例如： 1234 表示 12.34
加法：0121 + 0234 = 0355，表示 1.21 + 2.34 = 3.55
乘法：0110 * 0120 = 0132，表示 1.1 * 1.2 = 1.32

但是，在上述格式下，无法表示 20.1 * 5 = 100.5 ，以及 0.01 * 0.1 = 0.001 也无法表示。如果出现定点格式数据容量不够大，或者精度不够的情况，说明该定点格式没有经过充分考虑，无法充分适应计算过程中的数据动态范围或是精度。

仍以十进制为例，需要注意

2个数相加，结果的数值向高处增长，例如 5.5 + 6.6 = 12.1
2个数相乘，结果的数值是以小数点为中心，向两端增长，例如 3.4 * 4.3 = 14.62

于是，鉴于上面的现象，通常设计定点字长的时候，采用以下依据

整数部分字长需要确保可能出现的最大结果不会溢出
例如 5.6+5.5 ，需要对结果保留2位整数部分
小数部分字长通常不会大于和输入数据中最长的小数字长
例如1.3 * 1.11 ，结果字长保留2位即可

二进制定点小数

在下文中，定点数格式的表示方法被记为SI(N)F(M)，S表示为有符号数， N比特整数位， M比特小数位。例如：SI9F7表示：有符号数，9比特整数位，7比特小数位。

浮点数转换为定点数

理论模型中的各种数据均为浮点类型，有时需要把理论模型中的数据变量转化为定点小数类型，例如，一个数字滤波器中的滤波系数常数，最简单的浮点转为定点的方法是乘以缩放因子，即：

设浮点类型数据变量为 V_f ，需要转化为小数字长为FWL的定点数 V_i
记：缩放因子 SCALE = 2的FWL次幂，即 2 ^ FWL 或 (1 << FWL)
则 V_i 等于 int(V_f * SCALE)，其中 int()表示取整操作
如果希望提升数据精度，则可以再取整时加入舍入操作
即根据数据的符号，在对数据取整之前，加上或者减去 0.5

定点数转化为浮点数

当需要把定点计算的结果代入回理论计算模型时，需要将其转换回浮点格式，则有

设定点数 V_i 其小数字长为FWL，要转化为浮点类型数据变量 V_f
记：缩放因子 SCALE = 2的FWL次幂，即 2 ^ FWL 或 (1 << FWL)
则有 V_f = float(V_i) / SCALE
其中 float() 表示将数据转化为浮点格式，其中的 “/” 号表示浮点除法

定点数加法

两个定点数相加，设其定点格式分别为 SI(N1)F(M1) 和 SI(N2)F(M2)，设 N1 > N2, M1 > M2。

首先需要进行数据对齐，即两个定点数的小数字长，整数字长分别一致
即，在小数字长较小的数据低位补零，在整数字长较小的数据高位符号扩展
字长调整后，两个数据的字长均为 SI(N1)F(M1)
为避免溢出，还需将整数字长扩充1位
加法结果的字长格式为 SI(N1+1)F(M1)
对于变量字长无法扩充的情况，则为了避免溢出，将加数进行算术右移，抛弃小数部分，从而为整数部分留出更多空间。

注：所谓算术右移是指对高位数据进行符号扩展的右移操作，而逻辑右移操作仅对高位补零。不同的编程语言中算术右移的实现方式不同，请参考相关资料。

定点数乘法

两个定点数相加，设其定点格式分别为 SI(N1)F(M1) 和 SI(N2)F(M2)，设 N1 > N2, M1 > M2。

全精度乘法结果的字长是 SI(N1+N2)F(M1+M2)
乘法数据字长是以小数点为中心，分别向两端扩展
通常保留 M1 位小数字长，即可满足精度需求
小数截尾时，如果对精度有要求，则需要考虑四舍五入问题

注意负临界值，在二补码系统中，最高位为1，其余为为0 是一种特殊的情况，表示负边界值。以4比特系统举例，

如果用一个4比特数据表示一个有符号的纯小数，则定点格式为SI1F3
该系统的表示范围为从 -1 到 +0.875 ，注意，此时的负数极值可以取到-1 ，但是正数极值小于1。
如果两个 SI1F3格式的数A和B相乘，则全精度结果，会得到 SI2F6格式的定点数C。
C的负极大值是 -0.875，不含整数部分，此时高两位数据是二进制11，表示其是一个负数
C的正极大值是 1，含1比特整数部分，此时其高两位数据是二进制01，表示这是一个正数，整数部分是1

上述情况对于字长有限的信号处理系统中需要额外注意，因为在信号处理系统中负极值出现的概率很小，一个小概率的数值结果，占用1比特字长会降低6分贝的信噪比，这很不经济。但是另一方面，如果出现溢出则对系统是灾难性的后果。因此，如果为了提高量化精度，同时又避免溢出，会采用技术手段把负极值替换为负次极值。例如，在一个SI1F3格式的定点系统中，使用代码逻辑，如果探测到 -1 就用-0.875进行替换。如果定点数值中的负极值被剔除，则乘法的结果就总是有2比特符号位，于是仅保留1比特的符号位即可，从而能够提高1比特的有效数据位，增加系统的精度。

下图是一个定点系统中被乘法缩放过的16比特定点正弦波信号，从图中可见，该信号的高3位数据总是相同，如果需要从该信号中截取8比特数据给后级处理，则通常会抛弃比特15和14 这两位多余的符号位，取出从比特13开始8位数据作为有效数据。

缩放后的 16 bit 量化正弦波形

定点小数应用举例

FIR 数字滤波器系统

本节内容中，我们用一个数字滤波器作为例子，来讲述数字信号处理系统中定点小数的格式设计问题。下图是一个简化了的使用数字滤波器对模拟信号进行滤波的例子。该范例系统的工作描述如下：

首先，模拟信号经过模拟低通滤波器进行抗混叠滤波
然后进行电平调整至模拟-数字转换器（ADC）的采样电平区间
使用ADC将模拟信号量化为数字抽样值。本例中设定的是8比特 ADC
本例中采用无符号ADC，即ADC把模拟电平区间(0V ~ 1V)内的电平幅度线性映射为无符号二进制数（0000 0000 到 1111 1111）的数字抽样值。
使用数字系统对数字信号进行滤波计算
本例中的数字滤波器是一个 4 抽头的 FIR滤波器，每个抽头系数均为有符号的纯小数
滤波后的信号仍然被调整为 8比特的无符号整数格式，该数据被送至模拟-数字转换器（DAC）
DAC把二进制数值 0000 0000 ~ 1111 1111 线性映射为 0V ~ 1V 的模拟电平
使用模拟低通滤波器，滤除奈奎斯特镜像信号
使用电平调理电路，将信号调整为后级系统所需的电平格式。

模拟信号的数字滤波

数字信号定点格式

上面的系统中，虽然数字滤波子系统的输入和输出数据格式都是8比特无符号整数格式，但是这是为了和模拟数据转换器适配的结果。在数字系统内部，由于需要进行数值计算，无符号整数的格式是无法和信号处理的理论公式匹配。因此，在信号处理系统的内部，数据使用有符号数表示的。图中在信号流图中的数字信号上用字母 A、B、C、D、E、F 标识出了不同种类的定点小数格式。

需要额外说明的是，图中的数字信号处理子系统，当使用处理器或是数字电路来实现时，其字长方案是有所区别的。因为对于处理器而言，其字长必须以字节（byte）为单位，所有的数据字长的比特数均是8的倍数。而对于诸如FPGA这类数字器件而言，由于其数据字长以比特位单位，则其可以更加自由的设定数据格式。

A 8比特无符号整数，动态范围 [0,255]，用于和数据转换器接口
B 8比特有符号整数，动态范围 [-128,127]，定点格式为SI1F7，表示[-1,1)之间的纯小数
- 该步骤的数据格式通过对上一步骤数据加偏移量得到，即减去128 。
C 16比特有符号整数，动态范围 [-32768，32767]，定点格式为SI2F14，表示[-1,1]之间的纯小数
- 该数据由输入数据和滤波器系数相乘得到，由于之前设定输入数据和滤波器系数均为纯小数，所以该数据仍为纯小数
- 该数据的小数部分字长为14比特，有符号整数字长为2比特
D 16比特2字节有符号整数，动态范围（-32768，32767），定点格式为SI3F13，表示（-4,4）之间的小数
- 由于滤波累加操作是将4个纯小数相加，因此需要对数据的整数部分字长进行符号扩展，从而避免累加结果溢出
E 8比特1字节有符号整数，动态范围（-128，127），定点格式为SI3F5，表示（-4,4）之间的小数
- 该数据为滤波器累加器输出的数据格式
- 该格式的数据需要对上一步骤的数据进行抛弃多余符号位和低位截尾，一般使用位运算完成
- 由于外部数据转换器的字长为8比特，因此滤波器累加结果在输出之前，需要先截尾至8比特字长
F 8比特无符号整数，动态范围（0,255），用于和数据转换器接口
- 该数据由上一步骤数据加偏移量得到，即加 128

C 语言的变量类型及实验

在使用C语言编程实现定点数计算时，有以下事项需要注意：

变量类型字长

明确处理器对应的变量字长，通常32位处理器上变量类型的字长配置如下

int 表示 32比特（4字节）有符号整数
unsigned int 表示 32比特（4字节）无符号整数
short 表示 16比特（2字节）有符号整数
unsigned short 表示 16比特（2字节）无符号整数
char 表示 8比特（1字节）有符号整数
unsigned char 表示 8比特（1字节）无符号整数
float 表示 32位（4字节）单精度浮点数
double表示表示 64位（8字节）双精度浮点数

定点加法

两个定点数相加时，需要将小数部分字长调整一致，例如

3个 char 类型变量 A B C
变量A 为 SI2F6，变量B 为 SI3F5, 变量C 为 SI4F4，
则 C = (A >> 2)+(B >> 1)，肯定不会溢出
如果希望提高计算精度，则需要增加结果变量C的字长
声明 short C ，然后对齐 A、B的小数点
C = A + (B << 1)，此时 C 为 SI10F6格式

定点乘法

两个定点数相乘时，需要确保结果的字长不会溢出，例如

2个 char 类型变量 A B 相乘，乘法的全精度结果为16比特
全精度乘法结果需要使用short类型变量保存
假设A 为 SI1F7， B为SI1F7， C的类型为short
则C = A * B ， C的定点格式为 SI2F14， (C >> 7)格式为 SI9F7
如果不希望给结果变量使用更高字长，可以先对乘数进行移位
例如 A/B/C 均为char类型，定点格式均为 SI1F7
则： C = (A >> 3) * (B >> 4) 确定不会溢出，并且 C 仍然为 SI1F7格式

定点-浮点转换

浮点数转换为定点数，需要把浮点数乘以缩放因子然后取整，例如

float A_f = 0.9 转换为 SI1F7格式的 char A_i
定义 SCALE = (1 << 7)
A_i = (char) (A_f * SCALE)

定点数转换为浮点数，需要把定点数除以缩放因子，例如

SI1F7格式的 char A_i 转换为 float A_f
定义 SCALE = (1 << 7)
A_f = A_f * 1.0 / SCALE
其中 “* 1.0 ” 的操作用于通知编译器进行类型转换，避免做整数除法

关于参考代码

本文提供的C语言格式的参考代码，该演示了以下过程

人工设定两个浮点数 a_f, b_f 代码将其转换为定点数，然后计算
浮点数转为定点数，从 a_f b_f c_f 转换为 a_i b_i c_i
定点数转换为浮点数，从 a_i b_i c_i 转换为 a_q b_q c_q
- 从该过程中可以观察定点数相对于原始浮点数的量化误差
定点数的加法和乘法， c_i = a_i + b_i; c_i = a_i * b_i;
对比量化误差造成的计算结果误差， c_f 和 c_q
使用指针和获取浮点数的内存数据，验证单精度浮点数格式

下图是定点计算测试的C代码运行结果，从图中可以看到定点格式引入的计算误差。另外需要注意的是，printf() 函数的%x 格式符对整数数据做的符号扩展，char和short类型的变量被扩展成int类型后打印。

定点计算C代码运行结果

Verilog 硬件设计语言及实验

有符号数的关键字 signed

Verilog HDL 设计语言和C不同，它默认的信号变量类型是无符号变量，对于端口（input output），线网（wire）和 reg信号变量而言，如果不声明为 signed 类型，则电路编译器默认其是无符号类型的信号变量。由于硬件电路的设计阶段需要使用多个工具，比如仿真阶段使用ModelSim，电路综合阶段使用 Quartus。为了保证电路代码在不同EDA工具之间的行为一致性，为保险起见，进行加法或乘法运算的两个信号以及运算的结果信号，最好同时声明为 signed 类型信号。

在Verilog代码中，进行字长处理，比如符号扩展和截取数据位时，位拼接符和位寻址符，使用的非常频繁，例如：

a[7:4] 表示取出信号a的比特7到比特4
{a[3],a[0]} 表示把信号a的比特3和比特0拼接在一起
{7{a[3]}} 表示把信号a的比特3重复7次，作为一个新的信号

Verilog 实现定点加法

由于 Verilog HDL设计语言可以精确设定比特级别的信号字长，为了保持不同的EDA工具的行为一致性，有以下建议：

两个加数和结果信号均为signed 类型
定点加法两个加数的小数和整数字长保持一致，如果不一致，则先进行补齐
定点加法的结果字长，其整数字长比加数的整数字长多1，加法结果的小数字长和加数的小数字长保持一致。
如果HDL代码中有不满足以上条件，则建议先在设计流程的EDA工具上进行实验，确保代码在各个工具上行为一致。

FPGA上的整数加法器的实现方法如下：

在FPGA芯片中，加法器通常使用FPGA的逻辑单元（Logic Element）实现。
可以在always 过程块中使用“+”号，或者使用assign 语句的“+”号
对于FPGA芯片厂商提供的编译工具，也会提供加法器的IP模块以供用户例化使用

Verilg 实现定点乘法

Verilog语言如何实现定点乘法

在always过程块或assign语句中使用“* ”符号，编译器会生成一个整数乘法器的组合逻辑电路。
也可以例化FPGA厂商提供的乘法器 IP 单元实现乘法。

定点乘法的信号流

在HDL代码中先计算出全精度字长的乘积信号，
全精度结果信号的整数字长等于两个乘数的整数字长之和。
全精度结果信号的小数字长等于两个乘数的小数字长之和。
根据动态范围需要，抛弃多余的高位符号位，选取出有效的整数字长数据
然后根据精度需要，抛弃多余的低位小数位，选取出所需的小数字长数据。

乘法器在数字电路中是一个较为复杂的部件，其内部由加法器阵列构成。在使用整数乘法器时一定要预先估计好资源预算。如果FPGA芯片内嵌有硬件乘法器，编译器会调用硬件乘法器来实现乘法电路，否则使用逻辑单元 Logic Element来实现。

定点数的验证

Verilog 语法支持 real 格式类型数据，这是一种浮点类型，该数据通常仅用来仿真验证。在电路仿真中，将定点数转换为浮点数来验证结果的正确性。由于HDL仿真是一种波形样点级别的仿真，并不擅长验证带有复杂数学含义的批量数据，所以复杂数据通常会在仿真的testbench中将数据导出，使用其他工具（比如Matlab）进行数学意义上的验证。

关于参考代码

本文提供了一份Verilog定点计算参考代码
参考代码中，乘法和加法模块均为纯组合逻辑
在观察乘法器和加法器的输入输出数据时，请在在wave窗口中选择有符号数据类型和HEX类型分别观察
采用定点的方式产生被测运算单元的激励数据，在输入数据的动态范围内进行数值遍历。
参考代码采取如下的方法对定点计算的结果进行验证
- 将运算单元的定点输入数据a_i, b_i 转化为浮点数据 a_q, b_q
- 将运算单元的定点输出数据c_i 转化为浮点数据 c_q
- 在testbench中，计算浮点格式的结果数据 c_f
- 对比c_f 和 c_q ，如果一致，则说明定点单元的计算结果正确

下图是定点计算测试的Verilog代码在ModelSim上的仿真运行结果，图中使用有符号整数格式观察二补码定点数据，同时定点数据被换算成 real 格式来进行验证。

定点Verilog 代码仿真波形

使用Matlab来仿真定点计算

Matlab是一种高抽象层次的仿真工具，主要用来验证算法和信号流图层面系统设计的正确性。在设计和验证定点处理系统时， Matlab 工具的角色是：

在设计的初期，用来仿真定点系统的字长配置
- 首先建立浮点格式的仿真代码，确定算法的正确性
- 通过理论分析，以及使用浮点仿真结果确定信号流中各个节点的数值动态范围即整数字长
- 把信号流图中各个节点的小数部分进行量化，并且小数部分的量化比特数可调。
- 观察设定不同配置的小数量化字长后，仿真运行的结果，选择达到设计误差需求的小数字长
在设计的验证阶段，使用Matlab来分析定点系统的计算结果
- 运行定点系统，比如HDL电路仿真或目标系统上的C程序
- 把定点系统的运行结果保存为数据文件
- 导入定点数据文件到Matlab系统
- 使用Matlab分析定点系统的运行结果误差

参考代码及实验作业

获取本文提供的实验参考代码和作业，请访问 Github 地址

https://github.com/DUWTLAB/Git_NumeralSys_LAB

引言

什么是记数制系统

计算机中的数据处理方法

整数的有限字长问题

整数表示及运算操作

正整数乘加运算的字长

2进制补码的乘加运算

二进制补码格式

符号扩展

计算机中的小数

IEEE754 浮点数

浮点数的计算

十进制定点小数

二进制定点小数

浮点数转换为定点数

定点数转化为浮点数

定点数加法

定点数乘法

定点小数应用举例

FIR 数字滤波器系统

数字信号定点格式

C 语言的变量类型及实验

变量类型字长

定点加法

定点乘法

定点-浮点转换

关于参考代码

Verilog 硬件设计语言及实验

有符号数的关键字 signed

Verilog 实现 定点加法

Verilg 实现 定点乘法

定点数的验证

关于参考代码

使用Matlab来仿真定点计算

参考代码及实验作业

Verilog 实现定点加法

Verilg 实现定点乘法