机器学习
记第一次推荐开发实践遇到的问题

自从入行以来,从来没有重视过内存管理这块的东西,但这次真的是该遭的罪一点没落下的全体验了一遍。试问苍天饶过谁。由于预测时的全量用户为 1.5 亿,数据量实在太大,而且服务器上没有 GPU 资源,所以只能通过开启多进程的方式来进行预测。在 python 中开启多进程无果后,只能想办法曲线救国,最终通过 shell 脚本将数据拆分然后循环调用 python 脚本,这个过程中可以将拆分后的数据的起始行数和数据量通过参数传递给python,最终以这样的方式成功开启了多进程。但随后遇到了另外一个问题:内存溢出导致的部分进程被 kill。

记第一次推荐开发实践遇到的问题
Transformer温习整理

Transformer 是由谷歌于 2017 年在 Attention Is All You Need 中首次提出。Transformer的提出在很大程度上改变了自然语言处理领域的局面,取代了传统的循环神经网络和卷积神经网络在语言模型、机器翻译等任务中的地位。

Transformer温习整理
Transformers 库速查

Transformers是一个开源的自然语言处理(NLP)库,由Hugging Face开发和维护。它基于Transformer架构,提供了各种预训练模型和工具,用于解决各种NLP任务,如文本分类、问答、命名实体识别等。

Transformers 库速查
机器学习导航地图

在学习的过程中,本站整理记录了一些机器学习相关的内容和文章,但看起来稍显杂乱,故此专门以机器学习的基本流程为主线,制作了本站机器学习相关的内容进行导航跳转。(持续更新)

机器学习导航地图
机器学习样本不平衡问题

样本不平衡问题是在生产过程中普遍存在的问题,在很多场景中样本的比例极度失衡,如果不进行处理,那么模型最终的效果可能不尽如人意。本篇收集整理了常用的样本平衡手段和方法。

机器学习样本不平衡问题
机器学习特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以机器学习的大部分时间都是在处理数据的过程中,掌握好特征工程的思路和方法,有更高的概率能获得高质量数据。

机器学习特征工程
机器学习异常值识别和处理方法(附代码)

异常值可能是在数据采集、数据记录、数据提取等步骤中产生的,异常值的出现会对模型学习进行干扰,所以需要进行特殊处理。而在实际的生产环境中的异常值更是五花八门。

机器学习异常值识别和处理方法(附代码)