英文简历
top skill
- 自动化
- 分析
-
解决方案
-
知识体系
- 工具链
- 项目/实践案例
分类目录归档:解决方案
毕昇(BISHENG)平台是一个开源的大语言模型(LLM)应用开发平台,专为企业级场景设计,其技术架构结合了多种先进技术,旨在支持复杂的企业应用需求。以下是毕昇平台技术架构的主要特点:
毕昇平台的核心架构基于 Langchain 和 Langflow,这两个开源框架为平台提供了强大的应用编排和可视化能力。Langchain 是一个用于构建 LLM 应用的开发库,而 Langflow 则提供了可视化的工具,使得用户可以通过图形界面设计和调试工作流。
此外,平台还集成了多个第三方组件,包括: - Elasticsearch:用于高效的数据检索和分析。 - Milvus:...
要实现一个基于人脸识别的Web登录界面,使用Python的FastAPI作为后端,Vue作为前端,以下是实现步骤和代码示例。
首先,安装所需的依赖:
pip install fastapi uvicorn face_recognition numpy
然后,创建一个FastAPI应用来处理人脸识别和登录逻辑。
from fastapi import FastAPI, File, UploadFile, HTTPException
import face_recognition
import numpy as np
import os
app = Fa...
Tokenization(令牌化)是一种数据安全技术,用于将敏感数据(如信用卡号、身份证号等)替换为无意义的随机字符序列(称为“令牌”)。这些令牌可以在系统中安全地使用,而不会暴露原始数据。即使令牌被泄露,也无法通过逆向工程还原出原始信息,从而保护数据隐私和安全。
令牌本身没有意义,且无法通过数学方法还原为原始数据。
原始数据(Plaintext):
需要保护的敏感信息,如信用卡号、身份证号等。
令牌化系统(Tokenization System):
负责生成令牌...
隐私信息脱敏(Privacy Redaction)是指从文档、图片、视频或其他数据格式中删除或遮蔽敏感信息或个人身份信息(PII),以保护个人隐私。这一过程通常用于遵守隐私法律、法规或组织政策。以下是隐私信息脱敏的概述、重要性及最佳实践:
隐私信息脱敏包括: - 识别敏感信息(如姓名、地址、身份证号、财务数据、医疗记录等)。 - 永久删除或遮蔽这些信息,确保其无法被访问或恢复。
脱敏常用于法律文件、政府记录、医疗数据和企业通信中。
驾驶证号码
财务信息:
启发式方法(Heuristic-based)是指通过经验规则、直觉或近似策略来解决问题的方法,而不是依赖于严格的数学证明或精确的计算。启发式方法通常用于解决复杂问题,尤其是在计算资源有限或问题本身难以精确求解的情况下。它们在人工智能、优化算法、决策支持系统等领域中广泛应用。
启发式方法不保证找到最优解,但通常能在合理时间内找到一个足够好的解。
高效性:
相比于精确算法,启发式方法通常计算量更小,适合处理大规模或复杂问题。
基于经验:
启发式方法通常依赖于领域知识或历史经验,而不是严格的数学理论。
灵活性:
启发式方法可以根据具体...
数据集多样性(Dataset Diversity)是指数据集中包含的样本在特征、类别、来源或背景等方面的丰富性和差异性。多样性的数据集能够更好地反映现实世界的复杂性,从而提高机器学习模型的泛化能力、公平性和鲁棒性。数据集多样性在人工智能、机器学习、数据科学等领域中至关重要,尤其是在涉及社会、文化、经济等多维度问题的应用中。
避免模型过拟合到特定类型的数据。
增强公平性:
例如,在面部识别系统中,如...
数据管理(Data Curation)是指在整个数据生命周期中,对数据进行管理、组织和维护的过程,以确保数据在分析、研究或其他用途中保持有用性、准确性和可访问性。它结合了多种实践、工具和方法,旨在提高数据的质量、可靠性和可用性。数据管理在数据科学、研究、商业智能和机器学习等领域尤为重要,因为高质量的数据是决策和洞察的基础。
确保数据以结构化和一致的格式收集。
数据清洗:
标准化格式(如日期、单位或文本)。
...一个完整的技术报告通常需要结构清晰、内容详实,能够准确传达技术信息、分析过程和结论。以下是技术报告的常见结构和各部分的内容说明:
以下是DeepSeek-V3技术报告的详细内容:
DeepSeek-V3是由杭州深度求索人工智能基础技术研究有限公司开发的一款大规模稀疏专家混合(MoE)模型,拥有高达6710亿个参数,其中每个token激活37亿个参数。它在14.8万亿token上进行了预训练,采用了先进的架构和训练方法,通过精细划分问题空间来优化处理能力。