精品丝袜国产自在线拍a∨婷婷,国产福利99视频在线观看,99热视频99热视频精品,国产精品一区二区不卡的视频,日本成人中文字幕免费观看,欧美一区二区三区免费不卡视频

賽道 | 深蘭包攬SIGIR eCOM'21雙賽道冠軍自研自動特征工程框架神助攻

日前，信息檢索領(lǐng)域的國際重要會議SIGIR 2021正在線上舉行，深蘭科技DeepBlueAI團隊參加了SIGIR eCom'21 競賽，與來自NVIDIA、eBay、華東師范大學、樂天等知名企業(yè)和學校的團隊同臺競技，并在競賽僅設的兩個賽道中均獲得冠軍。

這是DeepBlueAI團隊繼2019年獲得該系列比賽冠軍以來的第二次奪冠，證明了深蘭在電商推薦系統(tǒng)領(lǐng)域的技術(shù)有著領(lǐng)先的地位。此外，更值得注意的是在第二個賽道，深蘭自研的自動特征工程框架助力隊伍獲得了冠軍，證明了其自動化機器學習的強大能力。

SIGIR eCom'21 競賽由Coveo承辦，是在2021 SIGIR Workshop on eCommerce上組織的一場電商商品推薦的比賽。該比賽從2017年開始，每年舉辦一次，今年已是第5屆。

undefined

冠軍方案解讀

賽題介紹

SIGIR eCom'21 競賽分為兩個賽題：

第一、商品推薦任務。賽題把一個會話分成前后兩部分，給出前面一部分的數(shù)據(jù)，要求預測出后面會交互的商品，是一個大數(shù)據(jù)量的推薦問題。

第二、購買意圖預測任務。賽題給出一個有添加購物車行為的會話的前面一部分，要求預測最后用戶是不是真的會買這個商品，是一個二分類問題。

團隊成績

比賽競爭非常激烈，最終DeepBlueAI團隊擊敗了NVIDIA團隊，在兩個任務都取得了冠軍。

undefined

數(shù)據(jù)分析

兩個任務使用的是同一批數(shù)據(jù)，訓練集測試集合起來一共有600多萬，其中有100萬會話數(shù)據(jù)和6萬多個商品。經(jīng)過分析，這兩個任務分別有以下難點。

對于商品推薦任務：

首先數(shù)據(jù)量很大，需要對代碼質(zhì)量要求很高；

第二有30%的測試集會話，給的初始信息很少，怎么有效優(yōu)化冷啟動的會話，提升得分？

第三原始數(shù)據(jù)給出的字段極為豐富，怎么有效利用這些信息？

對于預測購買意圖任務，主要是這個任務的評分指標很復雜：

首先，它定義了一個k，k表示第一次添加購物車之后會話還有幾條記錄。評分指標要求對k越小的樣本預測正確獎勵越高，針對這一點，怎么設計模型或者策略能夠適應這個機制？

第二，每個k是一個分類，最終得分是每個類樣本的平均準確率之和。因為使用了準確率(accuracy)，加上正負樣本不平衡，導致對模型的精度要求非常高。

競賽方案

對于商品推薦任務，團隊整體采用召回+排序的框架。

排序方面，團隊嘗試了很多方法，但是提升的效果有限。召回在這個任務里更為重要，在嘗試了很多種方法后，團隊最終使用了兩個效果較好的召回。

1. u2i_interact_i2i_itemcf：

先通過協(xié)同過濾的方法算出item與item之間的相似度，然后根據(jù)user歷史交互的item，推薦與它最相似的item。

2. u2url_url2i：

先統(tǒng)計訪問當前url之后，下次訪問每個item的概率；然后根據(jù)用戶最后一個url推薦那些概率大的item。

對于預測購買意圖任務：

首先是特征工程，團隊采用了手動特征與自動特征工程相結(jié)合的方式。手動特征方面，主要是提取一些比較明顯有效的特征，如用戶是否查看了添加購物車商品的細節(jié)、查看了多久、用戶一共交互了多少商品等比較直觀的特征，效果上評分指標提升0.008；自動特征工程則是利用深蘭自研autosmart框架提取的特征，這一部分特征效果提升0.002。

然后是后處理方面，針對評分指標的特性，基于k值不同對每個分類單獨進行閾值調(diào)整，達到本地最好效果。

新聞推薦

科研榮譽

賽道 | 深蘭包攬SIGIR eCOM'21雙賽道冠軍 自研自動特征工程框架神助攻

賽道 | 深蘭包攬SIGIR eCOM'21雙賽道冠軍自研自動特征工程框架神助攻