基于用户的协同过滤算法(java)_协同过滤算法java代码-程序员宅基地

技术标签: 算法  java  

杂言

什么是协同过滤算法,在我的理解中协同过滤算法分成两个部分,相信各位看官也能猜到,顾名思义就是协同与过滤,那什么是协同,什么过滤呢?下面基于用户视角给大家说说我的浅显之见(错误的地方还望各位看官不吝赐教)

协同

协同,在于找到不同用户之间相同的部分,比如用户A浏览了商品A,商品B,商品C,而用户B浏览了商品A,商品C。

用户A

商品A

商品B

商品C

用户B

商品A

商品C

如上图所示,那么商品A和商品C就是用户A和用户B的相同部分。

现在有用户C,浏览了商品B,商品D,商品E。

用户A

商品A

商品B

商品C

用户B

商品A

商品C

用户C

商品B

商品D

商品E

如上图所示,那么现在对于用户A来说,他与用户B以及用户C都有相同的部分,但是用户A与用户B相交的部分比用户A与用户C相交的部分更”大“,所以对于用户A来说相比于用户C,他更”贴近“于用户B,所以用户A与用户B的契合度高与用户C。对于用户B来说,他与用户A有相交的部分,但是与用户C没有相交,所以他们之间的契合度为0。这就是我所理解的”协同“。

过滤

过滤,在于找到相似用户之间的不同数据,主要做法就是过滤掉相同的部分,剩下的就是需要的部分。

用户A

商品A

商品B

商品C

用户B

商品A

商品C

还是用户A和用户B,他们已经患难与共,经历了”协同“的洗礼,到了过滤的步骤了,现在他们都浏览了商品A,商品C,经过过滤,用户A浏览剩下的商品B就会被推荐给用户B。

以上,就完成了协同过滤的全过程。

算法核心

本文参考了博主jf-lin的文字,再他的基础上作出符合我项目的改动

文章地址:基于用户的协同过滤算法(JAVA实现)_jf-lin的博客-程序员宅基地

文本沿用了博主jf-lin的核心算法:皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCCPCCs)以及沿用公式:

公式不做解释,想了解可自行百度,只说明一下计算的结果,最终计算结果会落在[-1,1]的区间上,整数为正相关,负数为负相关。

用这个公式的目的在于在多个相似用户中找到最接近的用户,以此来进行精准推荐,或对推荐进行排序。

代码实现

核心推荐代码解释

(下面有完整的)

首先,computeNearestNeighbor函数用于计算被计算用户与其他用户之间的皮尔逊相关系数,也就是起到协同的作用,由于博主jf-lin没有对被计算用户以及其他用户的数据集长度做限制,会导致pearsonDis函数计算出现数据获取不到的错误,所以我在计算皮尔逊相关系数之前先获取被计算用户以及其他用户的共同部分,然后才将数据送入pearsonDis函数中进行皮尔逊相关系数的计算。


/**
     * 计算皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
     * 协同
     * @param otherRecommendUsers   其他用户数据
     * @param currentRecommendUser  当前用户数据
     * @return  返回值为当前用户与其他计算的皮尔森相关系数结果集
     */
    private Map<Double, String> computeNearestNeighbor(
            List<RecommendUser> otherRecommendUsers, RecommendUser currentRecommendUser) {
        //计算皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
        Map<Double, String> distances = new TreeMap<>();
        Map<String, Integer> map = new HashMap<>();
        for (RecommendGood recommendGood1 : currentRecommendUser.recommendGoodList) {
            map.put(recommendGood1.goodName,recommendGood1.score);
        }
        for (RecommendUser otherRecommendUser : otherRecommendUsers) {
            List<RecommendGood> rating1 = new ArrayList<>();
            List<RecommendGood> rating2 = new ArrayList<>();
            //查找相同的部分
            for (RecommendGood recommendGood2 : otherRecommendUser.recommendGoodList) {
                if (map.containsKey(recommendGood2.goodName)){
                    rating1.add(new RecommendGood(recommendGood2.goodName,map.get(recommendGood2.goodName)));
                    rating2.add(recommendGood2);
                }
            }
            if (rating1.size() == 0){
                continue;
            }
            double distance = pearsonDis(rating1, rating2);
            distances.put(distance, otherRecommendUser.username);

        }
        return distances;
    }

pearsonDis函数负责计算两个用户的皮尔逊相关系数。由于之前在”协同“部分进行了相同物品的整理,所以在计算皮尔逊相关系数的时候就可以排除掉两个数据集合不一致的问题。而计算Exy的时候也是针对两个用户对同一物品的评分进行计算的,在浏览博主jf-lin的核心代码时,发现他的核心代码并没有基于这一条件进行计算。


/**
     * 计算2个打分序列间的皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
     * 选择公式四进行计算(百度可查)
     * @param rating1   被计算的用户1(当前用户)
     * @param rating2   被计算的用户2(其他用户之一)
     * @return  返回对应的皮尔森相关系数结果
     */
    private double pearsonDis(List<RecommendGood> rating1, List<RecommendGood> rating2) {
        int n = rating1.size();
        List<Integer> rating1ScoreCollect = rating1.stream().map(A -> A.score).collect(Collectors.toList());
        List<Integer> rating2ScoreCollect = rating2.stream().map(A -> A.score).collect(Collectors.toList());

        double Ex= rating1ScoreCollect.stream().mapToDouble(x->x).sum();
        double Ey= rating2ScoreCollect.stream().mapToDouble(y->y).sum();

        double Ex2=rating1ScoreCollect.stream().mapToDouble(x->Math.pow(x,2)).sum();
        double Ey2=rating2ScoreCollect.stream().mapToDouble(y->Math.pow(y,2)).sum();

        double Exy= IntStream.range(0,n).mapToDouble(i->rating1ScoreCollect.get(i)*rating2ScoreCollect.get(i)).sum();

        double numerator=Exy-Ex*Ey/n;
        double denominator=Math.sqrt((Ex2-Math.pow(Ex,2)/n)*(Ey2-Math.pow(Ey,2)/n));
        if (denominator==0){ return 0.0;}
        return numerator/denominator;
    }

filtering函数,用于排除被计算用户与被计算用户具有相关性的用户的共同商品,也就是起到过滤的作用。在过滤的时候,我特地把皮尔逊相关系数小于0的用户过滤掉,因为皮尔逊相关系数小于0就代表该用户与被计算用户处于负相关的关系,所浏览的物品没有相似性。


/**
     * 过滤
     * @param distances 计算后的皮尔森相关系数
     * @param otherRecommendUsers   其他用户的数据集
     * @param currentRecommendUser  被计算用户的数据
     * @return  返回过滤后的相似度高的结果
     */
    public List<RecommendGood> filtering(
            Map<Double, String> distances, List<RecommendUser> otherRecommendUsers, RecommendUser currentRecommendUser){
        List<String> nearList = new ArrayList<>(distances.values());
        List<Double> scores = new ArrayList<>(distances.keySet());
        List<List<Object>> nears= new ArrayList<>();
        List<RecommendGood> recommendationRecommendGoods = new ArrayList<>();
        for (int i = nearList.size() - 1; i >= 0; i--){
            if (scores.get(i) > 0){
                ArrayList<Object> objects = new ArrayList<>();
                objects.add(nearList.get(i));
                objects.add(scores.get(i));
                nears.add(objects);
            }
        }
        for (List<Object> near : nears) {
            //找到邻居看过的商品
            RecommendUser neighborRatings = new RecommendUser();
            for (RecommendUser recommendUser : otherRecommendUsers) {
                if (near.get(0).equals(recommendUser.username)) {
                    neighborRatings = recommendUser;
                }
            }

            //排除掉相同的商品
            boolean t;
            for (RecommendGood recommendNeighborGood : neighborRatings.recommendGoodList) {
                t = true;
                for (RecommendGood recommendUserGood : currentRecommendUser.recommendGoodList) {
                    if (recommendNeighborGood.goodName.equals(recommendUserGood.goodName)) {
                        t = false;
                        break;
                    }
                }
                if (t){
                    recommendationRecommendGoods.add(recommendNeighborGood);
                }
            }
        }
        Collections.sort(recommendationRecommendGoods);
        return recommendationRecommendGoods;
    }

完整代码

RecommendGood类

用于存放商品的实体类


package com.example.recommender_system_web.bean;

/**
 * @author 沐沐言又几
 * @time 2023/2/6
 */
public class RecommendGood implements Comparable<RecommendGood> {
    public String goodName;
    public int score;

    public RecommendGood(String goodName, int score) {
        this.goodName = goodName;
        this.score = score;
    }

    @Override
    public String toString() {
        return "Good{" +
                "goodName='" + goodName + '\'' +
                ", score=" + score +
                '}';
    }

    @Override
    public int compareTo(RecommendGood o) {
        return score > o.score ? -1 : 1;
    }

}

RecommendUser类

用于存放用户的实体类


package com.example.recommender_system_web.bean;

import java.util.ArrayList;
import java.util.List;

/**
 * @author 沐沐言又几
 * @time 2023/2/6
 */
public class RecommendUser {
    public String username;
    public List<RecommendGood> recommendGoodList = new ArrayList<>();

    public RecommendUser() {}

    public RecommendUser(String username) {
        this.username = username;
    }

    public RecommendUser set(String movieName, int score) {
        this.recommendGoodList.add(new RecommendGood(movieName, score));
        return this;
    }

    public RecommendGood find(String movieName) {
        for (RecommendGood recommendGood : recommendGoodList) {
            if (recommendGood.goodName.equals(username)) {
                return recommendGood;
            }
        }
        return null;
    }

    @Override
    public String toString() {
        return "RecommendUser{" +
                "username='" + username + '\'' +
                ", recommendGoodsList=" + recommendGoodList +
                '}';
    }
}

Recommend类

核心推荐代码


package com.example.recommender_system_web.recommender;

import com.example.recommender_system_web.bean.RecommendGood;
import com.example.recommender_system_web.bean.RecommendUser;

import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;
import java.util.stream.Collectors;
import java.util.stream.IntStream;

/**
 * @author 沐沐言又几
 * @time 2023/2/6
 */
public class Recommend {
    /**
     * 计算皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
     * 协同
     * @param otherRecommendUsers   其他用户数据
     * @param currentRecommendUser  当前用户数据
     * @return  返回值为当前用户与其他计算的皮尔森相关系数结果集
     */
    private Map<Double, String> computeNearestNeighbor(
            List<RecommendUser> otherRecommendUsers, RecommendUser currentRecommendUser) {
        //计算皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
        Map<Double, String> distances = new TreeMap<>();
        Map<String, Integer> map = new HashMap<>();
        for (RecommendGood recommendGood1 : currentRecommendUser.recommendGoodList) {
            map.put(recommendGood1.goodName,recommendGood1.score);
        }
        for (RecommendUser otherRecommendUser : otherRecommendUsers) {
            List<RecommendGood> rating1 = new ArrayList<>();
            List<RecommendGood> rating2 = new ArrayList<>();
            //查找相同的部分
            for (RecommendGood recommendGood2 : otherRecommendUser.recommendGoodList) {
                if (map.containsKey(recommendGood2.goodName)){
                    rating1.add(new RecommendGood(recommendGood2.goodName,map.get(recommendGood2.goodName)));
                    rating2.add(recommendGood2);
                }
            }
            if (rating1.size() == 0){
                continue;
            }
            double distance = pearsonDis(rating1, rating2);
            distances.put(distance, otherRecommendUser.username);

        }
        return distances;
    }


    /**
     * 计算2个打分序列间的皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)
     * 选择公式四进行计算(百度可查)
     * @param rating1   被计算的用户1(当前用户)
     * @param rating2   被计算的用户2(其他用户之一)
     * @return  返回对应的皮尔森相关系数结果
     */
    private double pearsonDis(List<RecommendGood> rating1, List<RecommendGood> rating2) {
        int n = rating1.size();
        List<Integer> rating1ScoreCollect = rating1.stream().map(A -> A.score).collect(Collectors.toList());
        List<Integer> rating2ScoreCollect = rating2.stream().map(A -> A.score).collect(Collectors.toList());

        double Ex= rating1ScoreCollect.stream().mapToDouble(x->x).sum();
        double Ey= rating2ScoreCollect.stream().mapToDouble(y->y).sum();

        double Ex2=rating1ScoreCollect.stream().mapToDouble(x->Math.pow(x,2)).sum();
        double Ey2=rating2ScoreCollect.stream().mapToDouble(y->Math.pow(y,2)).sum();

        double Exy= IntStream.range(0,n).mapToDouble(i->rating1ScoreCollect.get(i)*rating2ScoreCollect.get(i)).sum();

        double numerator=Exy-Ex*Ey/n;
        double denominator=Math.sqrt((Ex2-Math.pow(Ex,2)/n)*(Ey2-Math.pow(Ey,2)/n));
        if (denominator==0){ return 0.0;}
        return numerator/denominator;
    }

    /**
     * 过滤
     * @param distances 计算后的皮尔森相关系数
     * @param otherRecommendUsers   其他用户的数据集
     * @param currentRecommendUser  被计算用户的数据
     * @return  返回过滤后的相似度高的结果
     */
    public List<RecommendGood> filtering(
            Map<Double, String> distances, List<RecommendUser> otherRecommendUsers, RecommendUser currentRecommendUser){
        List<String> nearList = new ArrayList<>(distances.values());
        List<Double> scores = new ArrayList<>(distances.keySet());
        List<List<Object>> nears= new ArrayList<>();
        List<RecommendGood> recommendationRecommendGoods = new ArrayList<>();
        for (int i = nearList.size() - 1; i >= 0; i--){
            if (scores.get(i) > 0){
                ArrayList<Object> objects = new ArrayList<>();
                objects.add(nearList.get(i));
                objects.add(scores.get(i));
                nears.add(objects);
            }
        }
        for (List<Object> near : nears) {
            //找到邻居看过的商品
            RecommendUser neighborRatings = new RecommendUser();
            for (RecommendUser recommendUser : otherRecommendUsers) {
                if (near.get(0).equals(recommendUser.username)) {
                    neighborRatings = recommendUser;
                }
            }

            //排除掉相同的商品
            boolean t;
            for (RecommendGood recommendNeighborGood : neighborRatings.recommendGoodList) {
                t = true;
                for (RecommendGood recommendUserGood : currentRecommendUser.recommendGoodList) {
                    if (recommendNeighborGood.goodName.equals(recommendUserGood.goodName)) {
                        t = false;
                        break;
                    }
                }
                if (t){
                    recommendationRecommendGoods.add(recommendNeighborGood);
                }
            }
        }
        Collections.sort(recommendationRecommendGoods);
        return recommendationRecommendGoods;
    }

    /**
     * 推荐函数入口
     * @param otherRecommendUsers   其他用户数据集
     * @param currentRecommendUser  当前用户数据
     * @return
     */
    public List<RecommendGood> recommend(
            List<RecommendUser> otherRecommendUsers, RecommendUser currentRecommendUser) {
        //找到皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)大于零的用户
        Map<Double, String> distances = computeNearestNeighbor(otherRecommendUsers, currentRecommendUser);
        return filtering(distances, otherRecommendUsers, currentRecommendUser);
    }
}

结语

如果对以上内容有疑问,或有错误,还望不吝赐教,多多指出错误。

如果有更好的见解,也可以私聊我,一起深入谈论。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_52780611/article/details/128942125

智能推荐

240320俄罗斯方块java,JAVA游戏编程之三----j2me 手机游戏入门开发--俄罗斯方块_2-程序员宅基地

文章浏览阅读202次。packagecode;//importjava.awt.*;//importjava.awt.Canvas;//importjava.awt.event.*;//importjavax.swing.*;importjava.util.Random;importjavax.microedition.lcdui.*;//写界面所需要的包/***//***俄罗斯方块*高雷*2007年1..._240×320java游戏

在线电影院售票平台(源码+开题报告)-程序员宅基地

文章浏览阅读779次,点赞14次,收藏19次。然后,实现系统的数据管理和服务功能,包括用户的注册与登录、电影的分类与展示、电影信息的查询与推荐、座位的选择与预订、在线支付与电子票生成等。此外,随着在线视频平台的兴起,越来越多的人选择在线观看电影,这对传统电影院产生了巨大的冲击。研究意义: 开发在线电影院售票平台对于提升用户的观影体验、优化电影院的运营效率、促进电影产业的发展具有重要的意义。该系统旨在通过技术手段解决传统电影院售票中的问题,提供一个集成化的电影信息展示、座位选择、在线支付和用户评价平台,同时也为电影院和电影制作方提供有效的工具。

程序员熬夜写代码,用C/C++打造一个安全的即时聊天系统!_基于c++的即时聊天系统设计-程序员宅基地

文章浏览阅读509次。保护我们剩下的人的通话信息安全,使用TOX可以让你在和家人,朋友,爱人交流时保护你的隐私不受政府无孔不入的的偷窥.关于TOX:其他牛逼的软件因为一些细化服务问你要钱的时候, TOX分文不取 . 你用了TOX, 想干嘛就干嘛.网友评论:项目源码展示:源码测试效果:最后,如果你学C/C++编程有什么不懂的,可以来问问我哦,或许我能够..._基于c++的即时聊天系统设计

linux Java服务swap分区被占用内存泄露问题故障及解决方法_linux swap占用很高-程序员宅基地

文章浏览阅读584次。鱼弦:CSDN内容合伙人、CSDN新星导师、全栈领域创作新星创作者 、51CTO(Top红人+专家博主) 、github开源爱好者(go-zero源码二次开发、游戏后端架构 https://github.com/Peakchen)当Java服务在Linux系统中运行时,可能会出现swap分区被占用的内存泄露问题,导致系统性能下降或者崩溃。下面是该问题的故障及解决方法、底层结构、架构图、工作原理、使用场景详解和实际应用方式、原理详细描述、相关命令使用示例以及文献材料链接。_linux swap占用很高

word中利用宏替换标点标点全角与半角-程序员宅基地

文章浏览阅读662次。Alt+F11,然后插入-模块:复制下面代码到编辑窗口:Sub 半角标点符号转换为全角标点符号()'中英互译文档中将中文段落中的英文标点符号替换为中文标点符号 Dim i As Paragraph, ChineseInterpunction() As Variant, EnglishInterpunction() As Variant Dim MyRange..._替换半角宏

Android WebView使用总结_android webview真正加载完成-程序员宅基地

文章浏览阅读2.8k次。#.简介: WebView是Android提供的用来展示展示web页面的View,内部使用webkit浏览器引擎(一个轻量级的浏览器引擎),除了展示Web页面外,还可与Web页面内的JS脚本交互调用。WebView内部的WebSetting对象负责管理WebView的参数配置; WebViewClient负责处理WebView的各种请求和通知事件,在对应事件发生时会执行WebViewClient的对应回调; ChromeWebviewClient辅助Webview处理与JS一些交互......_android webview真正加载完成

随便推点

bitcoin 调试环境搭建-程序员宅基地

文章浏览阅读1.6k次。_bitcoin 调试环境搭建

曲线生成 | 图解B样条曲线生成原理(基本概念与节点生成算法)-程序员宅基地

文章浏览阅读4.3k次,点赞93次,收藏94次。为了解决贝塞尔曲线无法局部修正、控制性减弱、曲线次数过高、不易拼接的缺陷,引入B样条曲线(B-Spline)。本文介绍B样条曲线的基本概念:节点向量、支撑性、次数阶数、加权性质、节点生成算法等,为后续曲线计算打下基础。_样条曲线生成

CDH安装宝典之ClouderaManager_/opt/cloudera/cm-agent/service/mgmt/mgmt.sh: line -程序员宅基地

文章浏览阅读902次。配置本地repo库下载我的阿里云盘文件文件放置#创建目录mkdir -p /opt/cloudera/parcel-repo/mkdir -p /opt/cloudera/cm/yum install createrepoCDH 6.2.0 的三个文件放到/opt/cloudera/parcel-repo/中,并且注意把sha256后缀的文件名修改为sha#执行createrepo命令生成rpm元数据 最终/opt/cloudera/parcel-repo/会多一个repodata目录_/opt/cloudera/cm-agent/service/mgmt/mgmt.sh: line 76: /usr/java/jdk1.8.0_181

uni.canvasToTempFilePath在app正常,微信小程序报错: fail canvas is empty-程序员宅基地

文章浏览阅读943次,点赞2次,收藏2次。uni.canvasToTempFilePath_uni.canvastotempfilepath

SDRAM笔记_sdram 干扰-程序员宅基地

文章浏览阅读3.1k次。SRAM :静态RAM,不用刷新,速度可以非常快,像CPU内部的cache,都是静态RAM,缺点是一个内存单元需要的晶体管数量多,因而价格昂贵,容量不大。DRAM:动态RAM,需要刷新,容量大。SDRAM:同步动态RAM,需要刷新,速度较快,容量大。DDR SDRAM:双通道同步动态RAM,需要刷新,速度快,容量大。........................_sdram 干扰

Excel转SQL语句_excel数据怎么生成sql语句-程序员宅基地

文章浏览阅读7.3k次。假设表格有A、B、C、D四列数据,希望导入到你的数据库中表格table,对应的字段分别是col1、col2、col3、col4。_excel数据怎么生成sql语句

推荐文章

热门文章

相关标签