プロが伝授するパッケージテスト・使用感テストの設計方法7ステップで失敗しない調査設計

パッケージテスト・使用感テストの設計で最初に決めるべきこと

筆者はこれまで100件以上のプロダクトテストに携わってきましたが、多くの企業が最初のステップでつまずきます。それは調査目的の曖昧さです。パッケージテストと使用感テストは似ているようで、実は評価すべき対象と設計の考え方が根本から異なります。

パッケージテストは商品の外見が購買意欲にどう影響するかを見る調査です。店頭で手に取られる瞬間を評価します。一方、使用感テストは実際に製品を使った体験を評価する調査です。継続利用の判断材料を得ます。両者を混同すると、調査設計そのものが破綻します。

調査を始める前に、評価対象が何か、誰の判断材料にするか、どの段階の意思決定に使うかを明確にしてください。この3点が定まっていない調査は、データを集めても使えません。筆者が見てきた失敗プロジェクトの8割は、ここの曖昧さが原因でした。

パッケージテストの設計は視覚評価と購買意向の二段構え

パッケージテストとは、製品を包むパッケージに関する良し悪しやイメージを調査することです。しかし実務では、単に「好き嫌い」を聞くだけでは不十分です。評価軸を明確に分けてデータを取らないと、改善の方向性が見えてきません。

筆者が推奨する評価軸は3つあります。第一に視覚的魅力です。パッケージが消費者の目を引きつけ、興味を持たせる力を評価します。第二に情報の伝達性です。商品の特徴やベネフィットが適切に伝わるかを確認します。第三にブランド認知です。パッケージがブランドのメッセージをどれだけ強く伝え、消費者がブランドを認識するかを測定します。

調査手法の選択も重要です。新商品で機密性が高い場合、調査参加者に対して秘密保持誓約書への署名を義務付け、調査員が情報管理を行うことができる会場調査によって実施するケースが多いです。オンラインで実施する場合は情報流出のリスクを十分に評価してください。

使用感テストはCLTとHUTの使い分けが成否を分ける

使用感テストの設計では、評価環境をどこまでコントロールするかが最大の論点になります。会場調査(CLT)では、試食調査であれば会場の明るさ、室温、試食品の温度・濃さといった、テスト条件や環境を統一することができる点が大きな特徴です。

一方、ホームユーステスト(HUT)とは、新商品や改良品を調査対象者の自宅に送付し、一定期間利用したり試飲・試食してもらい、感想や評価を収集する調査手法です。実生活での評価を得られる反面、環境のばらつきは避けられません。

筆者の経験則では、即時的な第一印象や複数案の比較評価にはCLTが適します。実生活上で商品等を試用してもらったり、同一の対象者に対して複数のテストを行ったりする場合には、ホームユーステスト(HUT)の方が適しています。化粧品や健康食品など、継続利用での変化を見るべき商品はHUT一択です。調査期間と予算の兼ね合いも考慮してください。

定性と定量を組み合わせて調査の解像度を上げる

パッケージテストも使用感テストも、定量データだけでは改善の方向性が見えません。定量調査は数値化することができるデータを「数字」で把握する調査を指します。一方、定性調査は数値化することができない個人の気持ちや意識、行動を「言葉」で把握する調査を指します。

実務では両者を組み合わせる設計が基本です。筆者が関わったプロジェクトでは、まず定性調査で評価の観点を洗い出します。フォーカスグループインタビューデプスインタビューで「何が気になるのか」「どこを見て判断するのか」を把握します。

次に、定性調査で得た評価観点を定量調査の設問に落とし込みます。会場調査で複数案の印象比較を行い、その後オンライン調査で全国規模の数値データを補完する、といった使い方です。この順序を逆にすると、的外れな質問項目でデータを集めてしまい、やり直しになります。

定量データで差が出た項目について、再度定性調査で深堀りするのが理想的な設計です。数字の背景にある理由を言語化できれば、改善の具体策が見えてきます。予算が限られる場合は、会場調査(CLT)では、調査員は調査対象者の回答時間を共有できますので、定量の設問の後に口頭で理由を聞く設計も有効です。

調査票設計の実務ポイントは質問順序と選択肢の粒度

調査票の作り方で最も重要なのは質問の順序です。筆者は必ず「純粋想起→提示後評価→詳細評価」の流れで設計します。最初にパッケージや製品を見せずに、カテゴリ全体のイメージや想起ブランドを聞きます。次に実物を提示して第一印象を取得します。最後に詳細な評価項目で段階評価を取ります。

この順序を守らないと、後の質問が前の質問に影響されてしまいます。特にパッケージテストでは、詳細を見る前の直感的な印象が重要です。店頭での購買は一瞬の判断だからです。詳しく見てもらった後の評価とは分けてデータを取ってください。

選択肢の粒度も悩みどころです。5段階評価か7段階評価か、それとも10段階か。筆者の推奨は5段階です。7段階以上にすると、回答者が選択肢の違いを判別できなくなります。ただし購買意向だけは「絶対買う・多分買う・どちらでもない・多分買わない・絶対買わない」の5択に、価格を見た後の購買意向を別に聞く設計を加えてください。

自由記述欄は各セクションに必ず入れます。定量データで異常値が出たときに、自由記述を見れば理由が推測できます。ただし自由記述を多用すると回答負荷が上がり、途中離脱が増えます。各セクションで1問程度に抑えてください。調査票全体については調査票の作り方の記事も参考にしてください。

評価項目は商品特性とターゲットで変わる

パッケージや使用感を評価する項目は、商品カテゴリとターゲットによって変えるべきです。筆者が食品のパッケージテストをする際は、「美味しそう」「健康的」「高級感」「手軽さ」などの軸を設定します。一方、化粧品なら「洗練された」「自分に合いそう」「効果が期待できる」といった軸になります。

ターゲット属性も重要です。若年層向けなら「SNS映え」や「友人に勧めたい」を評価項目に入れます。シニア層向けなら「分かりやすい」「信頼できる」が重要になります。Z世代の特徴を踏まえた設計も必要な場面があります。

使用感テストでは、カテゴリ特有の評価観点を必ず入れてください。シャンプーなら「泡立ち・洗い上がり・香り・翌日のまとまり」、飲料なら「喉越し・後味・適度な甘さ・飲み飽きなさ」といった具合です。競合製品との比較評価も設計に入れると、相対的なポジションが明確になります。

サンプルサイズと対象者条件の決め方

必要なサンプル数は調査の目的によって変わります。定性調査なら6〜8名程度のグループを2〜3セット実施するのが標準的です。デプスインタビューなら10〜15名が目安になります。これ以上増やしても新しいインサイトは出にくくなります。

定量調査のサンプル数は統計的な精度で決まります。全体傾向を把握するなら300サンプル程度、セグメント別の比較なら各セグメント100サンプル以上が必要です。サンプルサイズの決め方については別途詳しい記事がありますので参照してください。

対象者条件の設定も重要です。ターゲット層そのものだけでなく、カテゴリのヘビーユーザーとライトユーザーを分けて評価を取ると示唆が深まります。新規参入の場合は、競合ブランドのユーザーを対象に含めてください。彼らがスイッチする理由を見つけることが、市場参入の鍵になります。

スクリーニング条件が厳しすぎるとリクルートに時間がかかります。逆に緩すぎると的外れな評価が混ざります。筆者の経験では、3〜5つの条件に絞り込むのが現実的です。必須条件と推奨条件を分けて設計してください。

調査実施後の分析で差がつく3つの視点

データが集まった後の分析で、多くの担当者が単純集計だけで終わってしまいます。実務で価値を生むのは、クロス集計と自由記述の解釈、そして定性データとの統合です。

クロス集計では、属性別だけでなく、態度変数でのセグメント分けが有効です。例えば「購買意向が高い群と低い群」で評価項目の差を見ます。購買意向が高い人は何を評価しているのか、低い人は何に不満を持っているのかが明確になります。これが改善の優先順位を決める根拠になります。

自由記述の分析では、テキストマイニングツールを使う前に、まず自分で100件程度読んでください。頻出ワードだけでは文脈が読めません。筆者は必ず極端な評価をした人のコメントを集中的に読みます。「絶対買う」と答えた人が何に共鳴したのか、「絶対買わない」と答えた人が何に拒否反応を示したのかを理解します。

定性データとの統合では、数字で差が出た項目について、インタビューで得た発言を紐付けます。「パッケージの高級感評価が低い」という定量結果に対して、「安っぽい素材に見える」という定性コメントがあれば、素材変更の検討材料になります。デブリーフィングのプロセスでこの統合作業を行うと、調査の価値が格段に上がります。

この記事を書いた人

石崎 健人 | 株式会社バイデンハウス マネージング・ディレクター
リサート所属モデレーター。外資系コンサルティング・ファーム等を経て現職。バイデンハウスの消費財、ラグジュアリー、テクノロジー領域のリーダーシップ。生活者への鋭い観察眼と洞察力を強みに、生活者インサイトの提供を得意とする。2022年より株式会社バイデンハウス代表取締役。2025年よりインタビュールーム株式会社(リサート)取締役。アドタイにてZ世代の誤解とリアル。「ビーリアルな、密着エスノ記」連載中。