# Python人工智能-机器学习 **Repository Path**: Carlosg_admin/AI-Online ## Basic Information - **Project Name**: Python人工智能-机器学习 - **Description**: 人工智能-机器学习 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-02-19 - **Last Updated**: 2024-11-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Python人工智能-机器学习 ## 项目介绍 这是一套 Python-AI 人工智能的项目 - Python 基础知识 - Python 语法 - Python 爬虫 - Python 科学计算库 - 机器学习 - 机器学习常见算法 - 机器学习项目 - [ ] 《Python 基础知识》 - [ ] 《Python 语法》 - [ ] 《Python 爬虫》 - [ ] 《Python 科学计算库》 - [ ] 《机器学习》 - [x] 《机器学习常见算法》 - [ ] 《机器学习项目》 - [ ] 《Kaggle 赛事分享》 - [ ] 《待完成》 ## 软件架构 ## 基础知识 ### 机器学习流程 ```shell script 1.数据收集 2.数据预处理 3.特征提取 4.模型构建 5.模型测试评估 6.投入使用 7.迭代优化 ``` ![Macheing-learning](images/Machine-learning-process.jpg) ### 数据收集与存储 #### 数据来源 ```shell 1.用户访问行为数据 2.业务数据 3.外部第三方数据 ``` #### 数据存储 ```shell 1.需要存储的数据:原始数据、预处理后数据、模型结果 2.存储设施: 磁盘、mysql、HDFS、HBase、Solr、Elasticsearch、Kafka、Redis 等 ``` #### 数据收集方式: Flume & Kafka ### 数据清洗和转换 的数据预处理后才能够为算法所使用,预处理的操作主要包括以下几个部分: * 数据过滤 * 处理数据缺失 * 处理可能的异常、错误或者异常值 * 合并多个数据源数据 * 数据汇总 * 02_KNN * 03_回归算法 * 04_决策树 * 05_集成学习:随机森林、GBDT * 06_XGBoost * 07_stacking * 08_聚类算法 * 09_SVM * 10_贝叶斯算法 * 11_EM * 12_隐马尔科夫 * 13_主题模型 * 14_多分类及多标签分类算法 * 15_数据清洗和特征选择 ### 机器学习项目 1_垃圾邮件项目 2_音乐文件系统分类lq 3_金融反欺诈模型 ### Kaggle赛事分享 #### 安装教程 1. 安装 Anaconda3.8 2. 机器学习库 [`scikit-learn`官网](https://scikit-learn.org/stable/install.html#) 安装: `pip install scikit-learn` 3. TensFlow 机器学习平台 4. PyTorch 机器学习框架 #### 使用说明 1. 本项目旨在普及AI-人工智能的编程思想以及人工智能大赛分析 2. 请关注我的公众号`大数据架构师指南` 3. 欢迎大家投稿 18240885452@163.com #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 感谢您宝贵的建议