Основни точки от проекта, теми на проекта:

"Computational Analysis of the Language used by Twitter Users: Big Data Approach Predicting Social Media Addiction"
Целта на проекта е да се използват алгоритми за машинно обучение и извличане на данни, за да се идентифицират езикови модели от текстови данни, които да класифицират потребители на социални мрежи (Twitter) на две групи:

  1. Интензивни/Зависими потребители ("Heavy/Addicted Users")

  2. Нормални потребители ("Normal Users")

Въведение:

Изследването разглежда проблема със зависимостта към социалните медии, използвайки текстов анализ на публикации в Twitter. Основният въпрос на изследването е:
"Могат ли езиковите модели да се използват за класифициране на потребителите на Twitter в две групи: Интензивни/Зависими и Нормални?"
Проектът използва машинно обучение и методи за обработка на големи данни (Big Data), като се акцентира върху анализа на езиковите модели на туитове (tweets).

Методология:

  1. Модел CRISP-DM: Използван за систематизиране на процеса на извличане на данни.

  2. Логистична регресия: Основен алгоритъм за класификация на потребителите.

  3. Bag-of-Words и TF-IDF: Използвани за извличане на значими думи и фрази от текстовите данни.

  4. Крос-валидация: Използвана за оценка на точността на модела .

Основни резултати:

  • Моделът успешно идентифицира два типа потребители въз основа на честотата и типа на публикациите в Twitter.

  • Най-добрата крос-валидационна точност е около 85%, като използването на TF-IDF метода леко подобрява резултатите .

  • Основно предизвикателство: Намаляване на огромното количество от данни чрез премахване на често срещани думи (stopwords) .

Заключение:

Проучването показва, че е възможно да се класифицират потребители на Twitter като интензивни/зависими и нормални чрез текстов анализ на публикациите им. Резултатите демонстрират значимостта на езиковите модели и показват как машинното обучение може да допринесе за разбирането на социалните медии и потенциалната зависимост към тях.

За машинно обучение и социални медии можете да прочетете повече в моята страничка “Блог”.

Целия проект можете да видите ТУК

Previous
Previous

Project One

Next
Next

Project Three