使用哈夫曼树实现文本编码、解码_实验题目1-使用哈夫曼树实现文本编码、解码程序 注 4.0 导入实验工程huffmantree.-程序员宅基地

技术标签: Java  java  霍夫曼树  数据结构  

一、需求分析

现在许多实际问题抽象出来的数据结构往往都是二叉树的形式。哈夫曼编码可以对日常数据量很大的数据,进行数据压缩技术来实现存储和传输。

所以在本程序中,需要构造一棵二叉树来存储一大串字符串,对给构造出来的树进行编码,再由已经编好的哈夫曼编码对给定的字符串进行编码,之后对编码的字符串进行解码,最后比较编/解码前后字符串是否相同。

二、设计方案

1、流程

第一,统计频率。计算给定字符串字符出现的频率;结果用map来存储,其中key=字符,value=出现次数。

第二,构造二叉树。把字符出现的频率当作树的权重,构造一棵二叉树。

第三,编造哈夫曼编码。根据二叉树,对每个叶节点进行编码;结果用map来储,其中key=叶节点,value=编码。

第四,编码。根据哈夫曼编码,对给定字符进行编码,返回结果字符串。

第五,解码。对字符串的编码进行解码,返回结果字符串;比较前后数据。

2、方法列表

定义节点类

HTNode.java

统计字符串频率

public static Map<Character,Integer> computeCharCount(String text)

构造二叉树

public static HTNode buildTree(List<HTNode> nodes)

编造哈夫曼编码

public static Map<Character, String> getCode(HTNode tree)

编码

public static String encode(String text, Map<Character, String> code)

解码

public static String decode(String text, Map<Character, String> code)

三、关键算法实现

  1、定义节点类(HTNode)

(1)设置节点属性。定义成员变量,存放节点的数据、编码、权重、左孩子、右孩子、是否为叶子节点。

(2)编写成员变量的get、set方法。因为成员变量为私有属性,在其他类里不能直接操作,要通过调用get、set操作。

2、统计字符串中字符出现的次数

(1)把字符串作为实参,传入函数

(2)new一个map对象。map.key=字符,map.value=出现次数

(3)遍历字符串,通过map.containsKey(key)方法,判定字符在map中是否存在。如果存在,让其value+1;否则,将字符和其个数(1)存放到map中。

3、构造二叉树

(1)对节点的属性进行初始化设置,将每个节点存入链表nodes中。把nodes作为实参,传入函数。

(2)根据节点的权重从小到大排序。

(3)每一次取权重最小的节点,定义一个parent节点,将这两个节点作为parent的左右孩子,设置parent不为叶节点,从链表中移除两个节点,将parent节点放入链表。

(4)最后,链表里只剩根节点结束循环,返回根节点。

4、计算哈夫曼编码

(1)将返回的根节点作为实参传入函数。

(2)创建队列,将根节点存放在队列中;创建map,key=叶节点,value=编码。

(3)遍历队列,队列不为空时,使用poll()方法获取并移除队列的头。

(4)判定该节点是否为叶子节点。如果是将叶节点的数据和编码存入map;否则,判断是否有左右孩子,左孩子编码+0,右孩子编码+1。将左右孩子节点放入队列。

(5)直至所以叶节点都被找出,循环结束,反面结果集map对象。

5、对给定字符进行编码

(1)将上一步返回的map对象(对照表:存放叶节点及其编码)和给定的字符串作为实参传入函数。

(2)遍历字符串。将字符串中的每一个字符,作为map的key,通过map.get(key)获取到对应的value,将每一个value值存入字符串str中,返回str。

6、对编码好的字符串,进行解码

(1)将字符串的编码和map对象(对照表:存放叶节点及其编码)作为实参传入函数。

(2)创建队列,将字符串每个字符存入队列。

(3)定义一个临时字符串tmp、结果字符串result。

(4)遍历队列,通过peek获取队列的头,将其中追加到临时变量tmp中。遍历对照表map,获取map中的key和value。

(5)判断tmp是否与对照表中的值相同。如果相同,将对照表中的key存入结果字符串result中,清空tmp,移除队列的头;如果不同,接着往tmp中缀加队列中的元素,和value进行比较,直到有相同时。

四、测试数据

1、统计字符出现频率

2、构造二叉树

3、每个字符对应的哈夫曼编码

4、对给定字符串进行编码

5、对编码的字符串进行解码

五、遇到的问题与解决方法

问题:按照节点的权重从小到大排序。nodes.sort(bull)报错。

原因:jdk1.6支持nodes.sort(null)这条语句,可以进行排序;但我的电脑装的是jdk1.7,所以要使用Collections包装类,调用其中的sort()方法才可以进行排序。

收获:为了解决这个,我上网搜了很多java关于排序的方法,明白了使用这个排序的原理。要想实现按权重排序的功能,首先需要实现Comparable接口;其次要重写compareTo方法,在这个方法里面设置排序规则。

源程序:

package 哈夫曼树;

import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Queue;


/**
 * 哈夫曼树实现
 *
 */
public class HuffmanTree {
	public static void main(String[] args){
		
		String data = "In computer science and information theory, "
				+ "a Huffman code is a particular type of optimal prefix code that is commonly used for lossless data compression. "
				+ "The process of finding and/or using such a code proceeds by means of Huffman coding, "
				+ "an algorithm developed by David A. Huffman while he was a Ph.D. student at MIT, and published in the 1952 paper "
				+ "\"A Method for the Construction of Minimum-Redundancy Codes\".[1] "
				+ "The output from Huffman's algorithm can be viewed as a variable-length code table for encoding a source symbol "
				+ "(such as a character in a file). The algorithm derives this table from the estimated probability or frequency of occurrence"
				+ " (weight) for each possible value of the source symbol. As in other entropy encoding methods, more common symbols are generally "
				+ "represented using fewer bits than less common symbols. Huffman's method can be efficiently implemented, "
				+ "finding a code in linear time to the number of input weights if these weights are sorted.[2] However, "
				+ "although optimal among methods encoding symbols separately, Huffman coding is not always optimal among all compression methods.";
		
		//首先对字符串中的字符出现次数进行统计
		Map<Character, Integer> chars = computeCharCount(data);
		System.out.println("【字母频率:】"+chars);
		
		ArrayList<HTNode> nodes = new ArrayList<>();
		
		//把每个节点存入链表nodes
		for(Character c : chars.keySet()){
			HTNode node = new HTNode();
			node.setData(c);
			node.setWeight(chars.get(c));
			node.setLchild(null);
			node.setRchild(null);
			node.setLeaf(true);
			nodes.add(node);
		}
		
		//建造二叉树,tree为返回的根节点
		HTNode tree = buildTree(nodes);
		System.out.println("【树结构:】"+tree.toString());
		System.out.println("【树权重:】"+tree.getWeight());
		
		//对节点进行编码
		Map<Character, String> map_code = getCode(tree);
		for(Character c : map_code.keySet()){
			System.out.println("字符'"+c+"'的哈夫曼编码:"+map_code.get(c));
		}
		
		String text = "In computer science and information theory";
		
		//根据已编好码的字符,对上面字符串进行编码(a--->0111)
		String coded = encode(text,map_code);
		System.out.println("字符串:"+text);
		System.out.println("被编码为:"+coded);
		
		//根据编码,进行解码(0111-->a)
		String oriText = decode(coded,map_code);
		System.out.println("编码:"+coded);
		System.out.println("被解码为:"+oriText);
		
		System.out.println("比较结果:"+oriText.equals(text));
	}
	
	
	/**
	 * 根据初始的结点列表,建立哈夫曼树,
	 * 并生成哈夫曼编码,保存在当前类的code对象中,
	 * 生成的树根结点,被保存在当前类的tree对象中。
	 * 可以反复生成哈夫曼树,每次重新构建树,将更新编码
	 * @param nodes
	 * @return
	 */
	public static HTNode buildTree(List<HTNode> nodes) {
		while (nodes.size() > 1) {
			Collections.sort(nodes);
			// nodes.sort(null);
			HTNode first = nodes.get(0);
			HTNode second = nodes.get(1);
			HTNode parent = new HTNode();
			parent.setLchild(first);
			parent.setRchild(second);
			parent.setWeight(first.getWeight() + second.getWeight());
			parent.setLeaf(false);//设置不为叶节点			
			nodes.remove(0);
			nodes.remove(0);// 需要删除两次
			nodes.add(parent);
		}
		return nodes.get(0);
	}
	
	/**
	 * 根据已建立的哈夫曼树根结点,生成对应的字符编码,
	 * 字符编码应为0,1字符串
	 * @param tree
	 * @return
	 */
	public static Map<Character, String> getCode(HTNode tree) {// 获取字符编码
		// TODO
		Map<Character, String> code = new HashMap<Character, String>();
		Queue que = new LinkedList();// 创建队列链表
		que.add(tree);

		while (!que.isEmpty()) {//当队列不为空		
			HTNode front = (HTNode) que.poll();// 获取并移除此队列的头
			String front_huffman = front.getHuffmancode();// 获取对应哈夫曼节点的编码
			if (front.isLeaf()) {
				code.put(front.getData(), front_huffman);// 如果是叶节点则直接放入数据和编码
			} else {
				if (front.getLchild() != null) {
					front.getLchild().setHuffmancode(front_huffman + "0");
				}
				if (front.getRchild() != null) {
					front.getRchild().setHuffmancode(front_huffman + "1");
				}
				que.add(front.getLchild());
				que.add(front.getRchild());
			}
		}
		return code;
	}

	
	/**
	 * 统计字符串中字符出现的频率
	 * @param text
	 * @return
	 */
	public static Map<Character, Integer> computeCharCount(String text) {
		// TODO
		Map<Character, Integer> map = new HashMap<Character, Integer>();
		// 把字符串传入数组
		char[] chararray = text.toCharArray();
		for (int i = 0; i < chararray.length; i++) {
			if (map.containsKey(chararray[i])) {
				int value = map.get(chararray[i]);
				map.put(chararray[i], value + 1);
			} else {
				map.put(chararray[i], 1);
			}
		}
		return map;
	}
	
	
	/**
	 * 使用指定的huffman编码来对文本进行编码
	 * @return
	 */
	public static String encode(String text, Map<Character, String> code) {
		char[] chararray = text.toCharArray();
		String str = "";
		for (int i = 0; i < chararray.length; i++) {
			str += code.get(chararray[i]);
		}
		return str;
	}

	
	/**
	 * 使用预先建立好的huffman树,
	 * 对编码后的文本进行解码
	 * @param text
	 * @return
	 */
	public static String decode(String text, Map<Character, String> code) {
		Queue que = new LinkedList();
		char[] chararray = text.toCharArray();
		
		for (int i = 0; i < chararray.length; i++) {
			que.add(chararray[i]);
		}
		
		String tmp = "";
		String result = "";
		//当队列不为空时
		while (!que.isEmpty()) {
			String tou = "" + que.peek();
			tmp += tou;
			
			for(Character key : code.keySet()){
				String value = code.get(key);
				if (tmp.equals(value)) {
					result += key;
					tmp = "";
				}
			}
			que.poll();
		}
		return result;
	}
	
}
package 哈夫曼树;

public class HTNode implements Comparable<HTNode>{
	public enum Code{
		ZERO('0'), ONE('1');
		private char code;
		private Code(char c){
			this.code = c;
		}
		public char getCode(){
			return code;
		}
	}
	
	//哈夫曼树的叶子结点数据
	private char data;

	//结点的编码,只有0和1两种可能
	private Code code;
	private double weight;
	private HTNode lchild;
	private HTNode rchild;
	private boolean isLeaf;
	//存放编码的字符串
	private String huffmancode = "";
	
	public String getHuffmancode() {
		return huffmancode;
	}
	public void setHuffmancode(String huffmancode) {
		this.huffmancode = huffmancode;
	}
	public char getData() {
		return data;
	}
	public void setData(char data) {
		this.data = data;
	}
	public double getWeight() {
		return weight;
	}
	public void setWeight(double weight) {
		this.weight = weight;
	}
	public HTNode getLchild() {
		return lchild;
	}
	public void setLchild(HTNode lchild) {
		this.lchild = lchild;
	}
	public HTNode getRchild() {
		return rchild;
	}
	public void setRchild(HTNode rchild) {
		this.rchild = rchild;
	}
	public boolean isLeaf() {
		return isLeaf;
	}
	public void setLeaf(boolean isLeaf) {
		this.isLeaf = isLeaf;
	}
	public Code getCode() {
		return code;
	}
	public void setCode(Code code) {
		this.code = code;
	}
	
	@Override
	public int compareTo(HTNode o) {
		if(this.weight<o.weight){
			return -1;
		}else{
			return 1;
		}
	}
	
	@Override
	public String toString() {
		return "HTNode [data=" + data + ", code=" + code + ", weight=" + weight
				+ ", lchild=" + lchild + ", rchild=" + rchild + ", isLeaf="
				+ isLeaf + ", huffmancode=" + huffmancode + "]";
	}
}

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/roc13718296531/article/details/122110284

智能推荐

JWT(Json Web Token)实现无状态登录_无状态token登录-程序员宅基地

文章浏览阅读685次。1.1.什么是有状态?有状态服务,即服务端需要记录每次会话的客户端信息,从而识别客户端身份,根据用户身份进行请求的处理,典型的设计如tomcat中的session。例如登录:用户登录后,我们把登录者的信息保存在服务端session中,并且给用户一个cookie值,记录对应的session。然后下次请求,用户携带cookie值来,我们就能识别到对应session,从而找到用户的信息。缺点是什么?服务端保存大量数据,增加服务端压力 服务端保存用户状态,无法进行水平扩展 客户端请求依赖服务.._无状态token登录

SDUT OJ逆置正整数-程序员宅基地

文章浏览阅读293次。SDUT OnlineJudge#include<iostream>using namespace std;int main(){int a,b,c,d;cin>>a;b=a%10;c=a/10%10;d=a/100%10;int key[3];key[0]=b;key[1]=c;key[2]=d;for(int i = 0;i<3;i++){ if(key[i]!=0) { cout<<key[i.

年终奖盲区_年终奖盲区表-程序员宅基地

文章浏览阅读2.2k次。年终奖采用的平均每月的收入来评定缴税级数的,速算扣除数也按照月份计算出来,但是最终减去的也是一个月的速算扣除数。为什么这么做呢,这样的收的税更多啊,年终也是一个月的收入,凭什么减去12*速算扣除数了?这个霸道(不要脸)的说法,我们只能合理避免的这些跨级的区域了,那具体是那些区域呢?可以参考下面的表格:年终奖一列标红的一对便是盲区的上下线,发放年终奖的数额一定一定要避免这个区域,不然公司多花了钱..._年终奖盲区表

matlab 提取struct结构体中某个字段所有变量的值_matlab读取struct类型数据中的值-程序员宅基地

文章浏览阅读7.5k次,点赞5次,收藏19次。matlab结构体struct字段变量值提取_matlab读取struct类型数据中的值

Android fragment的用法_android reader fragment-程序员宅基地

文章浏览阅读4.8k次。1,什么情况下使用fragment通常用来作为一个activity的用户界面的一部分例如, 一个新闻应用可以在屏幕左侧使用一个fragment来展示一个文章的列表,然后在屏幕右侧使用另一个fragment来展示一篇文章 – 2个fragment并排显示在相同的一个activity中,并且每一个fragment拥有它自己的一套生命周期回调方法,并且处理它们自己的用户输_android reader fragment

FFT of waveIn audio signals-程序员宅基地

文章浏览阅读2.8k次。FFT of waveIn audio signalsBy Aqiruse An article on using the Fast Fourier Transform on audio signals. IntroductionThe Fast Fourier Transform (FFT) allows users to view the spectrum content of _fft of wavein audio signals

随便推点

Awesome Mac:收集的非常全面好用的Mac应用程序、软件以及工具_awesomemac-程序员宅基地

文章浏览阅读5.9k次。https://jaywcjlove.github.io/awesome-mac/ 这个仓库主要是收集非常好用的Mac应用程序、软件以及工具,主要面向开发者和设计师。有这个想法是因为我最近发了一篇较为火爆的涨粉儿微信公众号文章《工具武装的前端开发工程师》,于是建了这么一个仓库,持续更新作为补充,搜集更多好用的软件工具。请Star、Pull Request或者使劲搓它 issu_awesomemac

java前端技术---jquery基础详解_简介java中jquery技术-程序员宅基地

文章浏览阅读616次。一.jquery简介 jQuery是一个快速的,简洁的javaScript库,使用户能更方便地处理HTML documents、events、实现动画效果,并且方便地为网站提供AJAX交互 jQuery 的功能概括1、html 的元素选取2、html的元素操作3、html dom遍历和修改4、js特效和动画效果5、css操作6、html事件操作7、ajax_简介java中jquery技术

Ant Design Table换滚动条的样式_ant design ::-webkit-scrollbar-corner-程序员宅基地

文章浏览阅读1.6w次,点赞5次,收藏19次。我修改的是表格的固定列滚动而产生的滚动条引用Table的组件的css文件中加入下面的样式:.ant-table-body{ &amp;amp;::-webkit-scrollbar { height: 5px; } &amp;amp;::-webkit-scrollbar-thumb { border-radius: 5px; -webkit-box..._ant design ::-webkit-scrollbar-corner

javaWeb毕设分享 健身俱乐部会员管理系统【源码+论文】-程序员宅基地

文章浏览阅读269次。基于JSP的健身俱乐部会员管理系统项目分享:见文末!

论文开题报告怎么写?_开题报告研究难点-程序员宅基地

文章浏览阅读1.8k次,点赞2次,收藏15次。同学们,是不是又到了一年一度写开题报告的时候呀?是不是还在为不知道论文的开题报告怎么写而苦恼?Take it easy!我带着倾尽我所有开题报告写作经验总结出来的最强保姆级开题报告解说来啦,一定让你脱胎换骨,顺利拿下开题报告这个高塔,你确定还不赶快点赞收藏学起来吗?_开题报告研究难点

原生JS 与 VUE获取父级、子级、兄弟节点的方法 及一些DOM对象的获取_获取子节点的路径 vue-程序员宅基地

文章浏览阅读6k次,点赞4次,收藏17次。原生先获取对象var a = document.getElementById("dom");vue先添加ref <div class="" ref="divBox">获取对象let a = this.$refs.divBox获取父、子、兄弟节点方法var b = a.childNodes; 获取a的全部子节点 var c = a.parentNode; 获取a的父节点var d = a.nextSbiling; 获取a的下一个兄弟节点 var e = a.previ_获取子节点的路径 vue