算术编码（多媒体实验一）_算术编码多媒体 p-程序员宅基地

算术编码（xdu多媒体实验一）

前言
详细原理
源代码

前言

算术编码（多媒体实验一）
sklearn主成分分析pca用python实现（多媒体实验二）
BOW图像检索corel数据集(多媒体实验三）
手写数字识别（多媒体实验五）

~~不要问我为什么没第四个~~ ，因为LSH和idestence实验我也不会，是从网上搬的，所以不发了。
所有实验代码：Vsingeryh/Media_xdu

关于本文的一些联想：
我曾读到大刘（可能是）的一本短片科幻小说集，其中有一个故事说的与算术编码有关，但当时我并不清楚其原理，非常震惊。类似居然有人提问过：如果有个飞船，在某处画个点，就能解码出一套百科全书，真的可能么？。
故事讲述的是一个外星人来到地球，然后获取了地球的所有知识，包括地球的历史，科技，自然风光等等记录。然后他们带回去的时候只是在飞船上刻了一个记号，这个记号的精度非常之高，其中承载的信息就是整个地球知识的信息熵。等到他们回去只需要测量这个记号到船头的距离就可以解码出所有的知识。
我希望看完本文你可以懂其中的道理，以及对信息论的进一步深思。虽然是个美好的科幻小说，但宇宙的时空是不连续的，精度在也不可能超过普朗克尺度，也就是说宏观的精度是有极限的，所以这篇小说只是一个美妙的幻想罢了。

本文解决的问题：

详细原理参考算数编码原理解析。实验原理并不难，但网上大部分代码未解决两个问题。本文主要旨在实现以下两方面。

不能自行计算出字符串概率。这个很好解决，但不清楚为何很多博客代码仍需手动输入各个字符概率。
不能求出左右区间内最小的二进制编码对应十进制小数。此问题需要对二进制编码了解才能算出，本文可以求出算数编码的最短二进制编码。

详细原理

请务必看完算数编码原理解析或了解原理后再读以下内容。
用例子简单介绍一下：

假设输入字符串为 $A R B C R$ ,那么 $A ， B ， C$ 出现概率为 $0.2$ ， $R$ 出现概率为 $0.4$ 。
在 $[0, 1]$ 内划分字符概率区间。此处按照字典序来排序即 $A [0, 0.2]$ ， $B [0.2, 0.4]$ ， $C [0.4, 0.6]$ , $R [0.6, 1]$ 。
划分概率实际上和哈夫曼编码不允许前缀码相同的意思一样，只不过算术更加精细，更接近信息熵的本质。
假设 $d e l t a$ 为区间大小，初始左边界 $l o w = 0.0$ ，右边界 $h i g h = 1.0$ ，那么 $d e l t a = 1.0$ 。字符 $c h a r$ 的区间为 $[L, R]$ 。
我们想要对第一个 $A [0, 0.2]$ 进行编码,更新左边界 $l o w = l o w + d e l t a * L$ ,那么 $l o w = 0 + 1.0 * 0 = 0$ 。同理右边界 $h i g h = 0 + 1.0 * 0.2 = 0.2$ 。
再看第二个字符 $R [0.6, 1]$ ，此时左边界更新为 $l o w = 0 + 0.2 * 0.6 = 0.12$ ，右边界 $h i g h = 0 + 0.2 * 1 = 0.2$ 。
依次类推，最终得到区间 $[0.14432, 0.1456]$ 。其中抽取任意一个值就可以利用字符概率表得到原字符串。

原理部分并不难，主要是左右边界的迭代，公式为：
$l o w = l o w + (h i g h - l o w) * L$
$h i g h = l o w + (h i g h - l o w) * H$

代码实现如下：

double low = 0.0;
	double high = 1.0;
	for (auto it = str.begin(); it != str.end(); it++) {
    
		double delta = high - low;
		high = low + delta * mp[*it].high;
		low = low + delta * mp[*it].low;
	}

然后解决我们上述所说的两个问题。
其一：怎么输入字符串后统计概率呢？
很简单，当输入字符串时，我们用一个数组记录每个数字出现的次数，由于输入的是ASCII码，我们只需建立一个大小256的数组记录次数。然后调用 $s t r i n g . l e n t h ()$ 函数获得长度或者提前输入字符串长度 $n$ ，最后用次数除以长度即可得到出现频率，频率区间按照字典序叠加即可，即字典序上一个的字母的右边界变为字典序下一个字母的左边界。最后我们将其字符及左右区间和区间长度放入map里方便查询。

const int N = 256;
int len;//长度
string str;
int char_num[N];//统计字符
struct node {
    //字符及概率区间
	char c;
	double l, r;
}ch[N];
struct spcode {
    
	double low=0.0, high=1.0, delta;//区间左右端及大小
	spcode() = default;
	spcode(double a, double b) :low(a), high(b), delta(b-a) {
    }
};
map<char, spcode> mp;
void create() {
    
	memset(char_num, 0, sizeof(char_num));
	printf("输入字符串个数n\n");
	cin >> len;
	printf("输入字符串：\n");
	cin >> str;
	for (auto i = 0; i < str.length(); i++)//统计概率
		char_num[str[i]]++;
	double last = 0.0;//字典序上一个字母频率的右边界
	for (int i = 0; i <N; i++) {
    
		if (char_num[i]) {
    //该字符出现过
			ch[i].c = i;
			ch[i].l = last;
			ch[i].r = last + double(char_num[i]) / len;
			last = ch[i].r;
		}
	}
	for (auto i = 0; i < str.length(); i++) {
    
		if (char_num[str[i]]) {
    
			mp.insert(make_pair(str[i], spcode(ch[str[i]].l,ch[str[i]].r)));
		}
	}
}

我们调用map查看其字符及左右区间和区间长度：

for (auto it = mp.begin(); it != mp.end(); it++) {
    
		cout << it->first <<  " (";
		cout << it->second.low << " ";
		cout << it->second.high << ") ";
		cout << it->second.delta << "\n";
	}

效果如下：

其二：在获取最终的左右区间 $[l o w, h i g h]$ 之后，怎样从中抽取出一个小数可以使其转化后的二进制编码最短？
最核心的思路显然是，当某个二进制小数在某一位后全为0，那么就可以舍弃掉，也就是确定最需要的1在哪一位。有两种思路。

十进制转二进制来考虑。既然左右边界确定了，那么对应的左右边界转为二进制，当第一次出现不一样的0，1时，说明此处最短。举个例子，左右边界转为二进制分别为0.1010011,0.101111001，第四位开始不一样，那么取0.1011即为最短的二进制表示。
二进制转十进制考虑，二进制的每一位分别对应十进制 $0.5, 0.25, 0.125$ ……我们初始化 $a n s = 0.0$ ，然后需要考虑ans加上每一位对应十进制后是否在区间内，当第一次满足在区间内时即为最短。

本文实现的是第二种方法：如果需要该位即为1，不需要为0。

	string anstr = "";
	double ans = 0.0;
	int cnt = 1;
	while (ans < low) {
    
		ans += pow(0.5, cnt);
		anstr += '1';
		if (ans >= high) {
    
			ans -= pow(0.5, cnt);
			anstr[cnt-1] = '0';
		}
		cnt++;
	}
	db = ans;
	return anstr;

源代码

演示效果如图所示：

源码如下：

#include <iostream>
#include <map>
#include <string>
#include <cstring>
#include<math.h>
using namespace std;
const int N = 256;
int len;//长度
string str;
int char_num[N];//统计字符
struct node {
    //字符及概率区间
	char c;
	double l, r;
}ch[N];
struct spcode {
    
	double low=0.0, high=1.0, delta;//区间左右端及大小
	spcode() = default;
	spcode(double a, double b) :low(a), high(b), delta(b-a) {
    }
};
map<char, spcode> mp;
void create() {
    
	memset(char_num, 0, sizeof(char_num));
	printf("输入字符串个数n\n");
	cin >> len;
	printf("输入字符串：\n");
	cin >> str;
	for (auto i = 0; i < str.length(); i++)//统计概率
		char_num[str[i]]++;
	double last = 0.0;
	for (int i = 0; i <N; i++) {
    
		if (char_num[i]) {
    
			ch[i].c = i;
			ch[i].l = last;
			ch[i].r = last + double(char_num[i]) / len;
			last = ch[i].r;
		}
	}
	for (auto i = 0; i < str.length(); i++) {
    
		if (char_num[str[i]]) {
    
			mp.insert(make_pair(str[i], spcode(ch[str[i]].l,ch[str[i]].r)));
		}
	}
}
string encode(double &db,string str){
    
	double low = 0.0;
	double high = 1.0;
	for (auto it = str.begin(); it != str.end(); it++) {
    
		double delta = high - low;
		high = low + delta * mp[*it].high;
		low = low + delta * mp[*it].low;
	}
	//寻找最短二进制
	string anstr = "";
	double ans = 0.0;
	int cnt = 1;
	while (ans < low) {
    
		ans += pow(0.5, cnt);
		anstr += '1';
		if (ans >= high) {
    
			ans -= pow(0.5, cnt);
			anstr[cnt-1] = '0';
		}
		cnt++;
	}
	db = ans;
	return anstr;
}
string decode(double value) {
    
	double low, high;                   //编码区间
	double prelow = 0.0, prehigh = 1.0;//记录前一次
	string ans = "";
	int cur = 0;
	while (true) {
    
		low = prelow;
		high = prehigh;
		for (auto it = mp.begin(); it != mp.end(); it++) {
    
			double delta = high - low;
			high = low + delta * it->second.high;
			low = low + delta * it->second.low;
			if (value>=low && value<high) {
    
				prelow = low;
				prehigh = high;
				ans += (it->first);
				cur++;
				break;
			}else
			{
    
				low = prelow;
				high = prehigh;
			}
		}
		if (cur == len)break;
	}
	return ans;
}
int main() {
    
	spcode sp;
	create();
	cout << "\n";
	/*test map
	for (auto it = mp.begin(); it != mp.end(); it++) {
		cout << it->first <<  " (";
		cout << it->second.low << " ";
		cout << it->second.high << ") ";
		cout << it->second.delta << "\n";
	}
	*/
	double db;
	string anstr = encode(db, str);
	cout << "转化为小数的最短十进制表示为:\n" << db << endl;
	cout << "\n";
	cout << "最短二进制码为:\n" << anstr << endl;
	cout << "\n";
	string destr=decode(db);
	cout <<"解码后的字符串为: \n"<< destr << endl;

	return 0;
}

本文链接：https://blog.csdn.net/qq_43305312/article/details/115416006

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

JWT(Json Web Token)实现无状态登录_无状态token登录-程序员宅基地

文章浏览阅读685次。1.1.什么是有状态？有状态服务，即服务端需要记录每次会话的客户端信息，从而识别客户端身份，根据用户身份进行请求的处理，典型的设计如tomcat中的session。例如登录：用户登录后，我们把登录者的信息保存在服务端session中，并且给用户一个cookie值，记录对应的session。然后下次请求，用户携带cookie值来，我们就能识别到对应session，从而找到用户的信息。缺点是什么？服务端保存大量数据，增加服务端压力服务端保存用户状态，无法进行水平扩展客户端请求依赖服务.._无状态token登录

SDUT OJ逆置正整数-程序员宅基地

文章浏览阅读293次。SDUT OnlineJudge#include<iostream>using namespace std;int main(){int a,b,c,d;cin>>a;b=a%10;c=a/10%10;d=a/100%10;int key[3];key[0]=b;key[1]=c;key[2]=d;for(int i = 0;i<3;i++){ if(key[i]!=0) { cout<<key[i.

年终奖盲区_年终奖盲区表-程序员宅基地

文章浏览阅读2.2k次。年终奖采用的平均每月的收入来评定缴税级数的，速算扣除数也按照月份计算出来，但是最终减去的也是一个月的速算扣除数。为什么这么做呢，这样的收的税更多啊，年终也是一个月的收入，凭什么减去12*速算扣除数了？这个霸道（不要脸）的说法，我们只能合理避免的这些跨级的区域了，那具体是那些区域呢？可以参考下面的表格：年终奖一列标红的一对便是盲区的上下线，发放年终奖的数额一定一定要避免这个区域，不然公司多花了钱..._年终奖盲区表

matlab 提取struct结构体中某个字段所有变量的值_matlab读取struct类型数据中的值-程序员宅基地

文章浏览阅读7.5k次，点赞5次，收藏19次。matlab结构体struct字段变量值提取_matlab读取struct类型数据中的值

Android fragment的用法_android reader fragment-程序员宅基地

文章浏览阅读4.8k次。1，什么情况下使用fragment通常用来作为一个activity的用户界面的一部分例如, 一个新闻应用可以在屏幕左侧使用一个fragment来展示一个文章的列表,然后在屏幕右侧使用另一个fragment来展示一篇文章 – 2个fragment并排显示在相同的一个activity中,并且每一个fragment拥有它自己的一套生命周期回调方法,并且处理它们自己的用户输_android reader fragment

FFT of waveIn audio signals-程序员宅基地

文章浏览阅读2.8k次。FFT of waveIn audio signalsBy Aqiruse An article on using the Fast Fourier Transform on audio signals. IntroductionThe Fast Fourier Transform (FFT) allows users to view the spectrum content of _fft of wavein audio signals

随便推点

Awesome Mac：收集的非常全面好用的Mac应用程序、软件以及工具_awesomemac-程序员宅基地

文章浏览阅读5.9k次。https://jaywcjlove.github.io/awesome-mac/ 这个仓库主要是收集非常好用的Mac应用程序、软件以及工具，主要面向开发者和设计师。有这个想法是因为我最近发了一篇较为火爆的涨粉儿微信公众号文章《工具武装的前端开发工程师》，于是建了这么一个仓库，持续更新作为补充，搜集更多好用的软件工具。请Star、Pull Request或者使劲搓它 issu_awesomemac

java前端技术---jquery基础详解_简介java中jquery技术-程序员宅基地

文章浏览阅读616次。一.jquery简介 jQuery是一个快速的，简洁的javaScript库，使用户能更方便地处理HTML documents、events、实现动画效果，并且方便地为网站提供AJAX交互 jQuery 的功能概括1、html 的元素选取2、html的元素操作3、html dom遍历和修改4、js特效和动画效果5、css操作6、html事件操作7、ajax_简介java中jquery技术

Ant Design Table换滚动条的样式_ant design ::-webkit-scrollbar-corner-程序员宅基地

文章浏览阅读1.6w次，点赞5次，收藏19次。我修改的是表格的固定列滚动而产生的滚动条引用Table的组件的css文件中加入下面的样式：.ant-table-body{ &amp;::-webkit-scrollbar { height: 5px; } &amp;::-webkit-scrollbar-thumb { border-radius: 5px; -webkit-box..._ant design ::-webkit-scrollbar-corner

javaWeb毕设分享健身俱乐部会员管理系统【源码+论文】-程序员宅基地

文章浏览阅读269次。基于JSP的健身俱乐部会员管理系统项目分享:见文末!

论文开题报告怎么写？_开题报告研究难点-程序员宅基地

文章浏览阅读1.8k次，点赞2次，收藏15次。同学们，是不是又到了一年一度写开题报告的时候呀？是不是还在为不知道论文的开题报告怎么写而苦恼?Take it easy!我带着倾尽我所有开题报告写作经验总结出来的最强保姆级开题报告解说来啦，一定让你脱胎换骨，顺利拿下开题报告这个高塔，你确定还不赶快点赞收藏学起来吗？_开题报告研究难点

原生JS 与 VUE获取父级、子级、兄弟节点的方法及一些DOM对象的获取_获取子节点的路径 vue-程序员宅基地

文章浏览阅读6k次，点赞4次，收藏17次。原生先获取对象var a = document.getElementById("dom");vue先添加ref <div class="" ref="divBox">获取对象let a = this.$refs.divBox获取父、子、兄弟节点方法var b = a.childNodes; 获取a的全部子节点 var c = a.parentNode; 获取a的父节点var d = a.nextSbiling; 获取a的下一个兄弟节点 var e = a.previ_获取子节点的路径 vue