Eng

С 17 августа онлайн-курс по Retrieval-Augmented Generation (RAG) от выпускников экономического факультета

С 17 августа онлайн-курс по Retrieval-Augmented Generation (RAG) от выпускников экономического факультета

С 17 августа по 21 сентября еженедельно по субботам в 19:00 (МСК) пройдёт онлайн-курс по Retrieval-Augmented Generation (RAG) от выпускников экономического факультета МГУ. 

В рамках курса будут рассмотрены основы NLP, методы извлечения данных и токенизации текста, а также концепции эмбеддингов и семантического поиска, применение больших языковых моделей и методики RAG для улучшения поиска и обработки текстовой информации.

Регистрация на курс по ссылке: https://forms.gle/D7KSRRuECSvFMFBK8

Необходимо прикрепить резюме в формате PDF (LaTex – приветствуется). Образец резюме находится здесь

Каждое занятие включает теоретическую часть и практические задания, которые помогут закрепить материал. После каждой лекции необходимо выполнить домашнее задание.

Важно: для доступа к следующему занятию требуется своевременная сдача домашнего задания. В ответ на сданное домашнее задание участник получает ссылку на следующую лекцию.

Программа курса

1. Введение в обработку естественного языка (NLP) - 17 августа

История и эволюция методов обработки естественного языка. Развитие моделей для анализа и генерации текстов.

2. Извлечение данных из текстов - 24 августа

Сбор данных и парсинг веб-сайтов (на примере новостных сайтов). Основы HTML и работа с ним. Сохранение данных в различных форматах (на примере CSV).

3. Токенизация и эмбеддинги - 31 августа

Основы токенизации текста и его значимость. Создание и использование эмбеддингов для токенов и текстов. Свойства пространства эмбеддингов и отражение семантики слов. Модели для обучения эмбеддингов предложений и произвольных текстов.

4. Семантический поиск и векторные базы данных - 7 сентября

Принципы семантического поиска на основе близости эмбеддингов. Соотношение между близостью эмбеддингов и смысловой близостью слов и текстов. Векторные базы данных: их назначение, принципы работы и функции отображения вектора в текст.

5. Основы больших языковых моделей (LLM) - 14 сентября

Принципы работы больших языковых моделей и их возможности. Задачи, которые решают LLM, и базовые принципы их функционирования. Понятие промпта (инструкции на естественном языке) и принципы его создания.

6. Генерация текста и расширенный поиск (RAG) - 21 сентября

Основы и принципы работы генерации текста с расширенным поиском. Базовый алгоритм работы RAG. Практическое занятие: создание чат-бота в Телеграме и взаимодействие с пользователем.

Преподаватели курса:

• Тимур Магжанов – выпускник ЭФ МГУ-2020, 2022. PhD-кандидат по экономике и финансам в Университете Боккони.

• Анна Иванова – выпускница ЭФ МГУ-2024.

• Илья Зайцев – выпускник ЭФ МГУ-2020, 2022. Аспирант кафедры народонаселения ЭФ МГУ.

• Михаил Иванов – выпускник ЭФ МГУ-2020, 2022. Аспирант кафедры математических методов анализа экономики ЭФ МГУ.

• Георгий Борисенко – выпускник ЭФ-МГУ-2021, 2023. Аспирант кафедры финансов и кредита ЭФ МГУ.

• Амр Аль-Халайлих – выпускник ЭФ МГУ-2024.

Рекомендуемый список литературы:    

  1. Mitchell, Ryan. 2015. Web Scraping with Python: Collecting Data from the Modern Web. ed. O’Reilly.
  2. Учебник HTML от Mozilla: https://developer.mozilla.org/ru/docs/Learn/HTML
  3. Jurafsky, Dan, and James H. Marun. 2024. Speech and Language Processing. 3rd ed. https://web.stanford.edu/~jurafsky/slp3/ .
  4. Zhang, Aston, Zachary Lipton, Mu Li, and Alexander J. Smola. 2023. Dive into Deep Learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. https://doi.org/10.1017/9781009389426 .
  5. Большакова, Е.И., К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич и А.С. Сапин. 2017. Автоматическая обработка текстов на естественном языке и анализ данных. М.: Изд-во НИУ ВШЭ. https://www.hse.ru/data/2017/08/12/1174382135/NLP_and_DA.pdf .
  6. Маннинг, К.Д., П. Рагхаван и Х. Шютце. 2020. Введение в информационный поиск.
  7. Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. 2008. Introduction to Information Retrieval. New York: Cambridge University Press. https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf .
  8. Alammar, Jay. 2019. “The Illustrated Word2vec.” March 27, 2019. https://jalammar.github.io/illustrated-word2vec/ .
  9. Turney, P.D., and P. Pantel. 2010. “From Frequency to Meaning: Vector Space Models of Semantics.” Journal of Artificial Intelligence Research 37 (February):141–88. https://doi.org/10.1613/jair.2934.
  10. Min, Bonan, Hayley Ross, Elior Sulem, Amir Pouran Ben Veyseh, Thien Huu Nguyen, Oscar Sainz, Eneko Agirre, Ilana Heintz, and Dan Roth. 2024. “Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey.” ACM. Computing Surveys 56 (2): 1–40. https://doi.org/10.1145/3605943.
  11. Lewis, Patrick, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Kuttler, et al. 2020. “Retrieval-Augmented Generation for Knowledge- Intensive NLP Tasks.” In Advances in Neural Information Processing Systems. Vol. 33. Curran Associates, Inc. https://proceedings.neurips.cc/paper_files/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf
  12. Gao, Yunfan, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, and Haofen Wang. 2024. “Retrieval-Augmented Generation for Large Language Models: A Survey.” arXiv. http://arxiv.org/abs/2312.10997 .
  13. Huang, Lei, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haouan Wang, Qianglong Chen, et al. 2023. “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions.” arXiv. http://arxiv.org/abs/2311.05232


12 августа 2024