📄🦌🙌🐟🏖️
lz's blog
斯是陋室,惟吾德馨。
热门文章
按住 Shift 横向滚动
contriever-ir-course-assignment

contriever-ir-course-assignment

本文围绕BEIR数据集展开,详细介绍了数据集内容、目录结构及相关下载方式,共收录了多领域的15个子数据集(如MSMARCO、TREC-COVID、Quora等)。随后简述了信息检索评价指标,包括Recall@k和NDCG@k的定义与计算公式,并提供Python代码示例,帮助计算这些指标以衡量检索模型性能。实验部分采用“facebook/contriever”预训练模型,对不同任务(如生物医学信息检索、重复问题检索、事实核验等)进行性能评估,展示了各数据集结果的nDCG@10和Recall@100值,同时记录了运行时间。结果表明,模型在不同领域任务上性能差异显著,特别是在Quora上的nDCG@10达83.49,表现突出。

一个测试贴

一个测试贴

本文为博客功能的综合测试,涵盖Markdown语法、LaTeX公式、图片显示、HTML嵌入及代码块等多方面内容。Markdown部分测试了文本样式、列表、引用块及表格功能;LaTeX公式展示了行内和块级公式,包含质能方程和二次方程求解公式等;图片部分展示了网络图片及HTML控制图片尺寸的能力;HTML嵌入测试包括文本样式、自定义按钮、视频/音频标签和复杂布局(如卡片及列表)。此外,还测试了代码块功能,示例为Python语言,支持语法高亮。文章全面展示了博客系统对多种内容格式的兼容性和渲染效果。

ir 作业

ir 作业

本文探讨了无监督密集检索器的训练方法及其在信息检索任务中的性能。传统基于词频的稀疏方法(如 TF-IDF 和 BM25)尽管简单高效,但在处理“词汇鸿沟”问题和泛化能力方面存在局限。密集检索器利用神经网络通过双编码器架构计算查询和文档的相似性,但过于依赖大规模标注数据,且零样本场景表现有限。文章提出采用对比学习作为训练方法核心,通过随机裁剪与 MoCo 技术构建正负样本对,提升模型性能并解决无监督场景下数据不足的问题。此外,通过多种公开数据集(如 BEIR、NaturalQuestions 和 TriviaQA)评估系统的检索质量,重点关注零样本场景下的迁移能力和检索表现。

测试贴

测试贴

本文全面测试博客系统功能,包括对 Markdown、LaTeX 公式、图片展示、HTML 嵌入和代码块语法高亮的支持。Markdown的文本样式、列表、引用块、表格等均得到展示;LaTeX部分测试了行内、块级公式;图片部分显示了网络图片及HTML尺寸控制图片。HTML嵌入测试涵盖简单样式、带事件的按钮、音频/视频嵌入代码及复杂结构如卡片布局。最后,代码块语法高亮通过Python示例实现。该文章验证了博客平台在不同技术格式下的渲染能力,为功能测试提供了系统化的参考。