Обычно один хочет получить функцию из текста, используя мешок слов подхода, считая слова и рассчитать различные меры, например, ТФ-IDF значений, например: How to include words as numerical feature in classificationВыделение признаков из одного слова
Но моя проблема другая, я хочу извлечь вектор функции из одного слова. Я хочу знать, например, что картофель и картофель-фри находятся рядом друг с другом в векторном пространстве, так как они оба сделаны из картофеля. Я хочу знать, что молоко и сливки также близки, горячие и теплые, каменные и твердые и так далее.
Эта проблема называется? Могу ли я узнать сходство и особенности слов, просто взглянув на большое количество документов?
Я не буду делать реализацию на английском языке, поэтому я не могу использовать базы данных.
Ваше имя неверное. Вы хотите извлечь _relations_ между словами (точнее, _concepts_) из больших корпусов, а не с отдельных слов. Что касается названия этой проблемы, я бы назвал это _автоматическим созданием онтологии из неструктурированного текста. – jogojapan
векторные вложения слов типа word2vec, перчатки или fastText? – user