近年ニュースポータルサイトに掲載される記事数が増加する一方で,ユーザ体験の向上を目的とした適切なニュース推薦をする必要性が高まっています. 本研究ではユーザの性格特性に着目し,ユーザの性格特性を考慮したニュース記事の推薦システムを実現させるため,実際のサービスから収集したニュース閲覧ログのみから性格特性を推定する手法を提案します.
ニュース閲覧ログは記事を識別する記事IDを含むため,データを処理する段階で IDを横方向に展開すると高次元で疎なデータとなります. この問題を解決するため,ユーザを文書,閲覧した記事 IDを単語とみなし,文書ベクトルを算出する自然言語処理技術を用いて低次元な埋め込み特徴量を算出しました. さらに,記事の閲覧時間や閲 覧率をユーザごとに集計し,複数の統計的な処理を行うことでユーザのコンテキストを考慮した特徴量を抽出しました.
これらの特徴量を説明変数,クラウドソーシング上で実施したアンケートから収集した性格特性を目的変数として, 教師あり機械学習モデルを構築し,性格特性の推定精度を複数の機械学習アルゴリズムを用いて比較し評価しました.