
Основни точки от проекта, теми на проекта:
"Computational Analysis of the Language used by Twitter Users: Big Data Approach Predicting Social Media Addiction"
Целта на проекта е да се използват алгоритми за машинно обучение и извличане на данни, за да се идентифицират езикови модели от текстови данни, които да класифицират потребители на социални мрежи (Twitter) на две групи:
Интензивни/Зависими потребители ("Heavy/Addicted Users")
Нормални потребители ("Normal Users")
Въведение:
Изследването разглежда проблема със зависимостта към социалните медии, използвайки текстов анализ на публикации в Twitter. Основният въпрос на изследването е:
"Могат ли езиковите модели да се използват за класифициране на потребителите на Twitter в две групи: Интензивни/Зависими и Нормални?"
Проектът използва машинно обучение и методи за обработка на големи данни (Big Data), като се акцентира върху анализа на езиковите модели на туитове (tweets).
Методология:
Модел CRISP-DM: Използван за систематизиране на процеса на извличане на данни.
Логистична регресия: Основен алгоритъм за класификация на потребителите.
Bag-of-Words и TF-IDF: Използвани за извличане на значими думи и фрази от текстовите данни.
Крос-валидация: Използвана за оценка на точността на модела .
Основни резултати:
Моделът успешно идентифицира два типа потребители въз основа на честотата и типа на публикациите в Twitter.
Най-добрата крос-валидационна точност е около 85%, като използването на TF-IDF метода леко подобрява резултатите .
Основно предизвикателство: Намаляване на огромното количество от данни чрез премахване на често срещани думи (stopwords) .
Заключение:
Проучването показва, че е възможно да се класифицират потребители на Twitter като интензивни/зависими и нормални чрез текстов анализ на публикациите им. Резултатите демонстрират значимостта на езиковите модели и показват как машинното обучение може да допринесе за разбирането на социалните медии и потенциалната зависимост към тях.
За машинно обучение и социални медии можете да прочетете повече в моята страничка “Блог”.
Целия проект можете да видите ТУК