Preview

Ученые записки Казанского университета. Серия Физико-математические науки

Расширенный поиск

Система автоматического построения графов знаний математических документов

https://doi.org/10.26907/2541-7746.2023.3.264-281

Аннотация

В настоящей работе представлен процесс создания системы автоматизированного построения графов знаний для коллекций математических документов в формате LATEX. Разработана онтология MathCollectionOntology, определяющая типы объектов и связей в графах знаний. Представлены инструменты, включающие методы извлечения математических терминов, выделения тематик документов, извлечения сущностей из LATEX-кода, а также инструменты для вычисления статистических параметров графа.
Среди выделяемых сущностей: математические термины, тематики, полученные методом латентного размещения Дирихле, коды УДК, использованные формулы, аффилиации авторов, использованная литература и другие. Каждый извлеченный объект записывается в граф знаний с использованием определенных типов связей, выделенных в разработанной онтологии MathCollectionOntology.
С использованием разработанной системы проведены построение и анализ графа знаний для коллекции научных статей журнала «Известия высших учебных заведений. Математика», включающей 1114 русскоязычных статей в формате LATEX. Выделен терминологический состав тематик документов. Получены количественные параметры построенного графа знаний коллекции.

Об авторах

О. А. Невзорова
Казанский (Приволжский) федеральный университет
Россия

Невзорова Ольга Авенировна, кандидат технических наук, доцент кафедры информационных систем

ул. Кремлевская, д. 18, г. Казань, 420008



Б. Т. Гизатуллин
Казанский (Приволжский) федеральный университет
Россия

Гизатуллин Булат Тимурович, магистрант кафедры математической статистики Института математики и механики им. Н.И. Лобачевского

ул. Кремлевская, д. 18, г. Казань, 420008



Список литературы

1. National Research Council. Developing a 21st Century Global Library for Mathematics Research. Washington, DC: Natl. Acad. Press, 2014. 142 p. https://doi.org/10.17226/18619.

2. Ion P.D.F., Watt S.M. The Global Digital Mathematics Library and the International Mathematical Knowledge Trust // CICM 2017: Intelligent Computer Mathematics / Ed. by H. Geuvers, M. England, O. Hasan, F. Rabe, O. Teschke. Ser.: Lecture Notes in Computer Science. V. 10383. Cham: Springer, 2017. P. 56–69. https://doi.org/10.1007/978-3-319-62075-6_5.

3. Bouche T., R´akosnik J. Report on the EuDML External Cooperation Model // Proc. Joint Math. Meet. AMS Special Session. San Diego, 2013. P. 99–108. URL: https://www.emis.de/proceedings/TIEP2013/07bouche_rakosnik.pdf.

4. Carette J., Farmer W.M., Kohlhase M., Rabe F. Big math and the one-brain barrier: The tetrapod model of mathematical knowledge // Math. Intell. 2021. V. 43. P. 78–87. https://doi.org/10.1007/s00283-020-10006-0.

5. Communicating Mathematics in the Digital Era, 1st ed. / Ed. by J. Borwein, E.M. Rocha, J.F. Rodrigues. Wellesley, MA: A K Peters, CRC Press, 2008. 325 p. https://doi.org/10.1201/b10587.

6. Bouche T. Digital mathematics libraries: The good, the bad, the ugly // Math. Comput. Sci. 2010. V. 3. P. 227–241. https://doi.org/10.1007/s11786-010-0029-2.

7. Elizarov A.M., Lipachev E.K., Zuev D.S. Digital mathematical libraries: Overview of implementations and content management services // CEUR Workshop Proc. 2017. V. 2022. P. 317–325. https://ceur-ws.org/Vol-2022/paper49.pdf.

8. Hogan A., Gutierrez C., Cochez M., de Melo G., Kirrane S., Polleres A., Navigli R., Ngomo A.-C. N., Rashid S. M., Schmelzeisen L., Staab S., Blomqvist E., d’Amato C., Labra Gayo J. E., Neumaier S., Rula A., Sequeda J., Zimmermann A. Knowledge Graphs. Ser.: Synthesis Lectures on Data, Semantics, and Knowledge. Cham: Springer, 2022. xix, 237 p. https://doi.org/10.2200/S01125ED1V01Y202109DSK022.

9. Lehmann J., Isele R., Jakob M., Jentzsch A., Kontokostas D., Mendes P. N., Hellmann S., Morsey M., Kleef P. V., Auer S., Bizer C. DBpedia – A large-scale, multilingual knowledge base extracted from Wikipedia // Semantic Web. 2015. V. 6, No 2. P. 167–195. https://doi.org/10.3233/SW-140134.

10. Bollacker K., Cook R., Tufts P. Freebase: A shared database of structured general human knowledge // Proc. 22nd Natl. Conf. on Artificial Intelligence. Vancouver: AAAI Press, 2007. V. 2. P. 1962–1963.

11. Vrandeˇci´c D., Kr¨otzsch M. Wikidata: A free collaborative knowledge base // Commun. ACM. 2014. V. 57, No 10. P. 78–85. https://doi.org/10.1145/2629489.

12. Hoffart J., Suchanek F.M., Berberich K., Lewis-Kelham E., de Melo G., Weikum G. YAGO2: Exploring and querying world knowledge in time, space, context, and many languages // Proc. 20th Int. World Wide Web Conf. Hyderabad, 2011. P. 229–232. https://doi.org/10.1145/1963192.1963296.

13. Carlson A., Betteridge J., Wang R.C., Hruschka E.R., Mitchell T.M. Coupled semi-supervised learning for information extraction // Proc. 3rd ACM Int. Conf. on Web Search and Data Mining. New York, NY: Assoc. Comput. Mach., 2010. P. 101–110. https://doi.org/10.1145/1718487.1718501.

14. Noy N., Gao Y., Jain A., Narayanan A., Patterson A., Taylor J. Industry-scale knowledge graphs: Lessons and challenges // Commun. ACM. 2019. V. 62, No 8. P. 36–43. URL: https://doi.org/10.1145/3331166.

15. Peroni S., Shotton D.M., Vitali F. One year of the OpenCitations Corpus: Releasing RDF-based scholarly citation data into the public domain // ISWC 2017: The Semantic Web – ISWC 2017 / Ed. by C. d’Amato, M. Fernandez, V. Tamma, F. Lecue, P. Cudr´e-Mauroux, J. Sequeda, C. Lange, J. Heflin. Ser.: Lecture Notes in Computer Science. V. 10588. Cham: Springer, 2017. P. 184–192. https://doi.org/10.1007/978-3-319-68204-4_19.

16. Iana A., Jung S., Naeser P., Birukou A., Hertling S., Paulheim H. Building a conference recommender system based on SciGraph and WikiCFP // SEMANTiCS 2019: Semantic Systems. The Power of AI and Knowledge Graphs / Ed. by M. Acosta, P. Cudr´e-Mauroux, M. Maleshkova, T. Pellegrini, H. Sack, Y. Sure-Vetter. Ser.: Lecture Notes in Computer Science. V. 11702. Cham: Springer, 2019. P. 117–123. https://doi.org/10.1007/978-3-030-33220-4_9.

17. Frarber M. The Microsoft Academic Knowledge Graph: A linked data source with 8 billion triples of scholarly data // ISWC 2019: The Semantic Web – ISWC 2019 / Ed. by C. Ghidini, O. Hartig, M. Maleshkova, V. Sv´atek, I. Cruz, A. Hogan, J. Song, M. Lefran¸cois, F. Gandon. Ser.: Lecture Notes in Computer Science. V. 11779. Cham: Springer, 2019. P. 113–129. https://doi.org/10.1007/978-3-030-30796-7_8.

18. Nevzorova O., Zhiltsov N., Zaikin D., Zhibrik O., Kirillovich A., Nevzorov V., Birialtsev E. Bringing math to LOD: A semantic publishing platform prototype for scientific collections in mathematics // ISWC 2013: The Semantic Web – ISWC 2013 / Ed. by H. Alani, L. Kagal, A. Fokoue, P. Groth, C. Biemann, J.X. Parreira, L. Aroyo, N. Noy, C. Welty, K. Janowicz. Ser.: Lecture Notes in Computer Science. V. 8218. Berlin, Heidelberg: Springer, 2013. P. 379–394. https://doi.org/10.1007/978-3-642-41335-3_24.

19. Buchgeher G., Gabauer D., Martinez-Gil J., Ehrlinger L. Knowledge graphs in manufacturing and production: A systematic literature review // IEEE Access. 2021. V. 9. P. 55537–55554. https://doi.org/10.1109/ACCESS.2021.3070395.

20. Zhao Z., Han S.-K., So I.-M. Architecture of knowledge graph construction techniques // Int. J. Pure Appl. Math. 2018. V. 118, No 19. P. 1869–1883.

21. Kaufmann M., Wilke G., Portmann E., Hinkelmann K. Combining bottom-up and top-down generation of interactive knowledge maps for enterprise search // KSEM 2014: Knowledge Science, Engineering and Management / Ed. by R. Buchmann, C.V. Kifor, J. Yu. Ser.: Lecture Notes in Computer Science. V. 8793. Cham: Springer, 2014. P. 186–197. https://doi.org/10.1007/978-3-319-12096-6_17.

22. Fensel D., ¸Sim¸sek U., Angele K., Huaman E., K¨arle E., Panasiuk O., Toma I., Umbrich J., Wahler A. Knowledge Graphs. Methodology, Tools and Selected Use Cases. Cham: Springer, 2020. xvi, 148 p. https://doi.org/10.1007/978-3-030-37439-6.

23. Schneider P., Schopf T., Vladika J., Galkin M., Simperl E., Matthes F. A Decade of Knowledge Graphs in Natural Language Processing: A Survey. arXiv.2210.00105, 2022. https://doi.org/10.48550/arXiv.2210.00105.

24. Schneider P., Schopf T., Vladika J., Galkin M., Simperl E., Matthes F. A decade of knowledge graphs in natural language processing: A survey // Proc. 2nd Conf. of the Asia-Pacific Chapter of the Association for Computational Linguistics and 12th Int. Joint Conf. on Natural Language Processing / Ed. by Y. He, H. Ji, S. Li, Y. Liu, C.-H. Chang. Assoc. Comput. Linguist., 2022. V. 1. P. 601–614.

25. Pan S., Luo L., Wang Y., Chen C., Wang J., Wu X. Unifying Large Language Models and Knowledge Graphs: A Roadmap. arXiv:2306.08302, 2023. https://doi.org/10.48550/arXiv.2306.08302.

26. Shen T., Zhang F., Cheng J. A comprehensive overview of knowledge graph completion // Knowl.-Based Syst. 2022. V. 255. Art. 109597. https://doi.org/10.1016/j.knosys.2022.109597.

27. Zhu Y., Wang X., Chen J., Qiao S., Ou Y., Yao Y., Deng S., Chen H., Zhang N. LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities. arXiv:2305.13168, 2023. https://doi.org/10.48550/arXiv.2305.13168.

28. Elizarov, A.M., Kirillovich, A.V., Lipachev, E.K., Nevzorova O.A. OntoMathPRO : An ontology of mathematical knowledge // Dokl. Math. 2022. V. 106, No 3. P. 429–435. https://doi.org/10.1134/S1064562422700016.

29. Kirillovich A.V., Nevzorova O.A., Lipachev E.K. OntoMathPRO 2.0 ontology: Updates of formal model // Lobachevskii J. Math. 2022. V. 43, No 12. P. 3504–3514. https://doi.org/10.1134/S1995080222150136.

30. Nevzorova O.A., Falileeva M.V., Kirillovich A.V., Lipachev E.K., Shakirova L.R., Dyupina A.E. OntoMathEdu educational ontology: Problems of ontological engineering // Pattern Recognit. Image Anal. 2023. V. 33, No 3. P. 460–466. https://doi.org/10.1134/S1054661823030367.

31. Ataeva O.M., Serebryakov V.A., Tuchkova N.P. Ontological approach to a knowledge graph construction in a semantic library // Lobachevskii J. Math. 2023. V. 44, No 6. P. 2229–2239. https://doi.org/10.1134/S1995080223060471.

32. Wang J. Math-KG: Construction and Applications of Mathematical Knowledge Graph. arXiv:2205.03772, 2022. https://doi.org/10.48550/arXiv.2205.03772.

33. Roder M., Both A., Hinneburg A. Exploring the space of topic coherence measures // Proc. 8th ACM Int. Conf. on Web Search and Data Mining (WSDM’15). New York, NY: Assoc. Comput. Mach., 2015. P. 399–408. https://doi.org/10.1145/2684822.2685324.

34. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // J. Mach. Learn. Res. 2003. V. 3. P. 993–1022.

35. Porteous I., Newman D., Ihler A., Asuncion A., Smyth P., Welling M. Fast collapsed Gibbs sampling for latent Dirichlet allocation // Proc. 14th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’08). New York, NY: Assoc. Comput. Mach., 2008. P. 569–577. https://doi.org/10.1145/1401890.1401960.


Рецензия

Для цитирования:


Невзорова О.А., Гизатуллин Б.Т. Система автоматического построения графов знаний математических документов. Ученые записки Казанского университета. Серия Физико-математические науки. 2023;165(3):264-281. https://doi.org/10.26907/2541-7746.2023.3.264-281

For citation:


Nevzorova O.A., Gizatullin B.T. A system for automatic construction of knowledge graphs of mathematical documents. Uchenye Zapiski Kazanskogo Universiteta. Seriya Fiziko-Matematicheskie Nauki. 2023;165(3):264-281. (In Russ.) https://doi.org/10.26907/2541-7746.2023.3.264-281

Просмотров: 273


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2541-7746 (Print)
ISSN 2500-2198 (Online)